optim.py [63:70]:
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
    polyak_avg_op, polyak_swap_op, ema = polyak(params, beta2)
    train_op = tf.group(polyak_avg_op, *updates)
    return train_op, polyak_swap_op, ema


'''
Adam optimizer
Version whose learning rate could, in theory, be scaled linearly (like SGD+momentum).
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -


optim.py [108:115]:
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
    polyak_avg_op, polyak_swap_op, ema = polyak(params, beta2)
    train_op = tf.group(polyak_avg_op, *updates)
    return train_op, polyak_swap_op, ema


'''
Adam optimizer
Version whose learning rate could, in theory, be scaled linearly (like SGD+momentum).
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -