distributed_training/train_pytorch_single_maskrcnn.py (1 line):
	- line 175: torch.cuda.empty_cache()  # TODO check if it helps


distributed_training/train_pytorch_smdataparallel_maskrcnn.py (1 line):
	- line 192: torch.cuda.empty_cache()  # TODO check if it helps