fbgemm_gpu/bench/verify_fp16_stochastic_benchmark.cu fbgemm_gpu/src/split_embeddings_utils.cu fbgemm_gpu/bench/verify_fp16_stochastic_benchmark.cu fbgemm_gpu/src/cumem_utils.cu fbgemm_gpu/bench/verify_fp16_stochastic_benchmark.cu fbgemm_gpu/src/permute_pooled_embedding_ops.cu fbgemm_gpu/bench/verify_fp16_stochastic_benchmark.cu fbgemm_gpu/src/split_embeddings_cache_cuda.cu fbgemm_gpu/bench/verify_fp16_stochastic_benchmark.cu fbgemm_gpu/src/sparse_ops.cu fbgemm_gpu/bench/verify_fp16_stochastic_benchmark.cu fbgemm_gpu/src/histogram_binning_calibration_ops.cu fbgemm_gpu/bench/verify_fp16_stochastic_benchmark.cu fbgemm_gpu/src/layout_transform_ops.cu fbgemm_gpu/bench/verify_fp16_stochastic_benchmark.cu fbgemm_gpu/src/jagged_tensor_ops.cu fbgemm_gpu/bench/verify_fp16_stochastic_benchmark.cu fbgemm_gpu/src/quantize_ops.cu