preprocessing/src/code_tokenizer.py [573:588]: - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - ds = re.findall('[/][*].*?[*][/][ ]', function, re.DOTALL) if len(ds) > 0: for d in ds: function = function.replace(d, '') coms = ' '.join([d[:-1] for d in ds]) inline_coms = re.findall('[/][/].*?[E][N][D][C][O][M]', function) for inline_com in inline_coms: function = function.replace(inline_com, '') coms += ' ' coms += inline_com if len(re.sub(r'\W', '', coms.replace('', '').replace('ENDCOM', ''))) < 5: return '', '' else: return re.sub('\s+', ' ', function), coms else: return '', '' - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - preprocessing/src/code_tokenizer.py [704:719]: - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - ds = re.findall('[/][*].*?[*][/][ ]', function, re.DOTALL) if len(ds) > 0: for d in ds: function = function.replace(d, '') coms = ' '.join([d[:-1] for d in ds]) inline_coms = re.findall('[/][/].*?[E][N][D][C][O][M]', function) for inline_com in inline_coms: function = function.replace(inline_com, '') coms += ' ' coms += inline_com if len(re.sub(r'\W', '', coms.replace('', '').replace('ENDCOM', ''))) < 5: return '', '' else: return re.sub('\s+', ' ', function), coms else: return '', '' - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -