benchmarks/transformer_fusion_patterns/benchmark.py [54:64]:
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
        batch_size = 32
        seq_len = 196
        intermediate_size = 4096
        input = torch.randn(
            batch_size,
            seq_len,
            intermediate_size,
            requires_grad=True,
            device=device,
            dtype=dtype,
        )
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -


benchmarks/transformer_fusion_patterns/bias_gelu_dropout.py [30:43]:
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
batch_size = 32
seq_len = 196
intermediate_size = 4096
# batch_size = 2
# seq_len = 4
# intermediate_size = 3
input = torch.randn(
    batch_size,
    seq_len,
    intermediate_size,
    requires_grad=True,
    device=device,
    dtype=dtype,
)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -