In [6]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plot
import matplotlib
matplotlib.style.use("ggplot")
%matplotlib inline

In [7]:
fingerlakes_data = pd.read_csv("FIngerlakes_OPR_Normalized.csv")

In [8]:
fingerlakes_data


Out[8]:
Fingerlakes OPR 2015 OPR 2014 OPR 2013 OPR 2012 OPR 2011 OPR 2010 OPR 2009 OPR 2008
0 20 0.782362 0.957689 1.000000 0.625440 0.916688 1.000000 0.945262 0.320376
1 73 0.131340 0.663954 0.039917 0.494278 0.666494 0.140302 0.796784 0.000000
2 174 0.490159 0.676159 0.633264 0.923415 0.214748 0.909343 0.535751 0.770049
3 191 0.765708 0.612693 0.843243 0.863116 0.035705 0.863398 0.619569 0.436170
4 250 0.753217 0.598454 0.855717 0.762764 0.142303 0.117484 0.922682 0.540098
5 340 0.884557 0.790073 0.944283 0.974032 0.919017 0.799568 0.878549 0.734452
6 369 0.242241 0.847437 0.940541 0.889085 0.138680 NaN 0.063975 0.356792
7 378 0.767222 0.870627 0.883992 0.541813 0.558603 0.000000 0.872733 0.044599
8 395 0.482210 0.534581 0.437838 0.778609 0.254334 0.238051 0.868628 0.868249
9 578 0.833081 0.707486 0.415800 0.757923 0.119276 1.007709 0.952788 0.016776
10 639 0.481453 0.764036 0.827443 0.911972 0.124709 0.250694 0.819364 0.362520
11 810 0.536336 0.338080 0.758004 0.503521 0.161449 0.639223 NaN 0.603928
12 1126 0.978804 0.900325 0.754678 0.448944 0.082277 0.408881 0.340746 0.798691
13 1405 0.866768 0.879170 0.875676 0.614437 0.550841 NaN 0.436196 0.122340
14 1450 0.530280 0.097234 0.821622 0.707746 0.130660 0.737280 1.000000 0.006137
15 1507 0.956472 1.000000 0.960499 1.000000 0.029495 0.103608 0.000000 0.256956
16 1511 0.804315 0.925549 0.544699 0.920775 0.828461 0.908726 0.459117 0.490998
17 1518 0.204391 0.714402 0.377963 0.357835 1.000000 0.039161 0.580568 0.177578
18 1551 0.325889 0.829943 0.750520 0.675616 0.075550 0.108233 0.216900 1.000000
19 1559 0.864875 0.726200 0.850728 0.713908 NaN 0.182547 0.763941 0.546645
20 1585 0.471991 0.874288 0.352599 NaN 0.263389 0.231267 0.333561 1.000000
21 1591 0.158213 0.030106 0.044491 0.272887 0.445278 0.276287 0.189873 0.320786
22 1665 0.728615 0.133035 0.678170 0.794454 0.076326 0.191181 0.087923 0.083470
23 1765 0.255110 0.201383 0.254886 0.331866 1.000000 NaN NaN NaN
24 1880 0.165405 0.142799 0.088150 0.282570 0.468564 0.364786 NaN NaN
25 2010 0.584406 0.771359 0.543451 0.195863 0.057956 0.391921 NaN NaN
26 2228 0.925435 0.451993 0.845322 0.973592 0.000000 NaN NaN NaN
27 2340 0.000000 0.672091 0.391268 0.448063 NaN NaN NaN NaN
28 2383 0.981075 0.666395 0.784200 0.893046 NaN NaN NaN NaN
29 2638 0.786525 0.909683 0.910187 0.702905 NaN NaN NaN NaN
30 2791 0.655942 0.803906 0.886902 0.762324 NaN NaN NaN NaN
31 2809 0.099924 0.945077 0.753015 0.401849 NaN NaN NaN NaN
32 3003 0.900076 0.709927 0.851559 0.837148 NaN NaN NaN NaN
33 3015 0.795609 0.853539 0.969231 0.915493 NaN NaN NaN NaN
34 3044 0.759652 0.737998 0.651143 0.374560 NaN NaN NaN NaN
35 3157 0.772521 0.000000 0.159252 0.526408 NaN NaN NaN NaN
36 3173 0.805829 0.378763 0.998753 0.287412 NaN NaN NaN NaN
37 3181 0.331567 0.244101 0.757173 0.558539 NaN NaN NaN NaN
38 3799 0.423543 0.461758 0.000000 0.156250 NaN NaN NaN NaN
39 3838 0.819076 0.096420 0.702703 0.740757 NaN NaN NaN NaN
40 3951 0.612793 0.511391 0.331393 0.690581 NaN NaN NaN NaN
41 4023 NaN 0.109032 0.116008 0.000000 NaN NaN NaN NaN
42 4093 0.394777 0.173312 0.232848 0.273327 NaN NaN NaN NaN
43 4930 0.445496 0.770545 NaN NaN NaN NaN NaN NaN
44 5030 0.886450 0.813670 NaN NaN NaN NaN NaN NaN
45 5254 1.000000 0.913344 NaN NaN NaN NaN NaN NaN
46 5349 0.214989 0.786412 NaN NaN NaN NaN NaN NaN
47 5433 0.045042 NaN NaN NaN NaN NaN NaN NaN
48 5590 0.723316 NaN NaN NaN NaN NaN NaN NaN

In [10]:
def make_data_groups(dataframe, column_names):
    master_group = []
    for i in column_names:
        group = []
        group.append(dataframe[i])
        master_group.append(group)
    return master_group

check_it_out = make_data_groups(fingerlakes_data, team_numbers_list)


---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-10-2312f6ea0541> in <module>()
      7     return master_group
      8 
----> 9 check_it_out = make_data_groups(fingerlakes_data, team_numbers_list)

NameError: name 'team_numbers_list' is not defined

In [11]:
team_numbers = fingerlakes_data[:0]
team_numbers_list = list(team_numbers)
del team_numbers_list[0]
# team_numbers_list = map(int, team_numbers_list)
print team_numbers_list

medians = fingerlakes_data.median()
sorted_medians = medians.sort_values()
sorted_med_list = list(sorted_medians)
median_keys = list(sorted_medians.keys())
real_keys = median_keys.reverse()


['OPR 2015', 'OPR 2014', 'OPR 2013', 'OPR 2012', 'OPR 2011', 'OPR 2010', 'OPR 2009', 'OPR 2008']

In [ ]:
check_it_out = make_data_groups(fingerlakes_data, median_keys)

labels = median_keys

figure = plot.boxplot(check_it_out)
plot.title('Standardized OPR from 2008-2015 (Fingerlakes)', fontsize=32)
plot.ylabel('Adjusted OPR', fontsize=24)
plot.xlabel('Team Number', fontsize=24)
fig = matplotlib.pyplot.gcf()
fig.set_size_inches(20, 10)
plot.xticks(range(52), labels, rotation='vertical')
plot.savefig('opr_boxplots_fingerlakes.png')