#pragma once #include #include #include #include void reshape_and_cache_flash_bulk( torch::Tensor& keys, torch::Tensor& values, std::vector const& key_caches, std::vector const& value_caches, torch::Tensor& slot_mapping, const std::string& kv_cache_dtype, std::vector const& k_scales, std::vector const& v_scales, int64_t num_heads, int64_t head_size );