The distribution of size of files (measured in lines of code).

Intro

File size measurements show the distribution of size of files.
Files are classified in four categories based on their size (lines of code): 1-100 (very small files), 101-200 (small files), 201-500 (medium size files), 501-1000 (long files), 1001+(very long files).
It is a good practice to keep files small. Long files may become "bloaters", code that have increased to such gargantuan proportions that they are hard to work with.

File Size Overall

Legend:

1001+

501-1000

201-500

101-200

1-100

File Size per Extension

1001+

501-1000

201-500

101-200

1-100

File Size per Logical Decomposition

primary

1001+

501-1000

201-500

101-200

1-100

Longest Files (Top 27)

File	# lines	# units
tree_module.py in src/syntactic_testsets	247	32
ngram_lstm.py in src/language_models	212	9
extract_dependency_patterns.py in src/syntactic_testsets	164	9
conll_utils.py in src/syntactic_testsets	149	12
generate_nonsense.py in src/syntactic_testsets	134	5
main.py in src/language_models	102	2
utils.py in src/syntactic_testsets	99	8
evaluate_target_word.py in src/language_models	80	3
evaluate_test_perplexity.py in src/language_models	68	1
data_vocab_prep.py in src/data	62	6
dictionary_corpus.py in src/language_models	57	6
preprocess_HebrewUD_morph.py in src/data/hebrew	46	1
results.py in src	45	1
model.py in src/language_models	43	4
process_mturk_data.pl in src/data	37	-
lm_argparser.py in src/language_models	36	-
_create_datatable.py in src/syntactic_testsets	34	-
generate_utils.py in src/syntactic_testsets	29	5
collect_paradigms.py in src/data	29	-
utils.py in src/language_models	18	3
preprocess_EnglishUD_morph.py in src/data	18	-
evaluate_utils.py in src/syntactic_testsets	16	1
data_utils.py in src/data	16	3
add_poss_wiki_annotation.py in src/data/hebrew	12	-
remove_binyanim.py in src/data/hebrew	12	-
__init__.py in src/language_models	1	-
__init__.py in src/syntactic_testsets	1	-

Files With Most Units (Top 18)

File	# lines	# units
tree_module.py in src/syntactic_testsets	247	32
conll_utils.py in src/syntactic_testsets	149	12
ngram_lstm.py in src/language_models	212	9
extract_dependency_patterns.py in src/syntactic_testsets	164	9
utils.py in src/syntactic_testsets	99	8
dictionary_corpus.py in src/language_models	57	6
data_vocab_prep.py in src/data	62	6
generate_nonsense.py in src/syntactic_testsets	134	5
generate_utils.py in src/syntactic_testsets	29	5
model.py in src/language_models	43	4
utils.py in src/language_models	18	3
evaluate_target_word.py in src/language_models	80	3
data_utils.py in src/data	16	3
main.py in src/language_models	102	2
evaluate_test_perplexity.py in src/language_models	68	1
evaluate_utils.py in src/syntactic_testsets	16	1
results.py in src	45	1
preprocess_HebrewUD_morph.py in src/data/hebrew	46	1

Files With Long Lines (Top 6)

There are 6 files with lines longer than 120 characters. In total, there are 14 long lines.

File	# lines	# units	# long lines
conll_utils.py in src/syntactic_testsets	149	12	6
extract_dependency_patterns.py in src/syntactic_testsets	164	9	2
utils.py in src/syntactic_testsets	99	8	2
results.py in src	45	1	2
evaluate_target_word.py in src/language_models	80	3	1
generate_nonsense.py in src/syntactic_testsets	134	5	1