이용할 column : 시도명, 자료수(도서),자료수(연속간행물),자료수(비도서)

hypothesis : 수도권과 비수도권의 도서관당 보유한 자료수의 차이는 유의미하다.


In [1]:
!pip install xlrd
import pandas as pd


Requirement already satisfied (use --upgrade to upgrade): xlrd in /opt/conda/lib/python3.5/site-packages
You are using pip version 8.1.1, however version 8.1.2 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.

In [2]:
xl = pd.read_excel("data.xls")

In [3]:
city1 = xl['시도명'].tolist()
book1 = xl['자료수(도서)'].tolist()
book2 = xl['자료수(연속간행물)'].tolist()
book3 = xl['자료수(비도서)'].tolist()

In [4]:
"""

0  서울특별시 02
1  경기도 031
2  인천광역시 032 
---- 위 세 곳이 수도권 ---- 수도권 : 1, 비수도권 : 2
3  강원도 033
4  충청남도 041
5  대전광역시 042
6  충청북도 043
7  세종특별자치시 044
8  부산광역시 051
9 울산광역시 052
10 대구광역시 053
11 경상북도 054
12 경상남도 055
13 전라남도 061
14 광주광역시 062
15 전라북도 063
16 제주특별자치도 064
"""
citys = [0]*len(city1)

for j in range(len(city1)):
    if(city1[j]=='서울특별시'): citys[j]=0
    elif(city1[j]=='경기도'):  citys[j]=1
    elif(city1[j]=='인천광역시'):  citys[j]=2
    elif(city1[j]=='강원도'):  citys[j]=3
    elif(city1[j]=='충청남도'): citys[j]=4
    elif(city1[j]=='대전광역시'): citys[j]=5
    elif(city1[j]=='충청북도'): citys[j]=6
    elif(city1[j]=='세종특별자치시'): citys[j]=7
    elif(city1[j]=='부산광역시'): citys[j]=8
    elif(city1[j]=='울산광역시'): citys[j]=9
    elif(city1[j]=='대구광역시'): citys[j]=10
    elif(city1[j]=='경상북도'): citys[j]=11
    elif(city1[j]=='경상남도'): citys[j]=12
    elif(city1[j]=='전라남도'): citys[j]=13
    elif(city1[j]=='광주광역시'): citys[j]=14
    elif(city1[j]=='전라북도'): citys[j]=15
    elif(city1[j]=='제주특별자치도'): citys[j]=16

In [5]:
book1 = [float(b) for b in book1]
book2 = [float(c) for c in book2]
book3 = [float(d) for d in book3]
bookTmp = [0]*len(book1)
for i in range(len(book1)):
    bookTmp[i] = book1[i]+book2[i]+book3[i]

books = [0.0]*17
count_library = [0]*17
means = [0.0]*17
books_area = [0.0]*2

#citys의 값이 1부터 17까지 중 하나면 그 값에 해당하는 books의 인덱스에 bookTmp의 합을 더함    
for i in range(len(city1)): #i=0 ~ len-1
    for j in range(17):
        if(citys[i]==j): 
            books[j] += bookTmp[i] 
            count_library[j] +=1

In [6]:
#수도권과 비수도권으로 나눔. 수도권 : index = 1 비수도권 : index = 2
#data1_index : data1의 도서관 개수
#data2_index : data2의 도서관 개수
index = [0]*(len(city1))

data1_index = 0 
data2_index = 0
for i in range(len(city1)):
    if(citys[i]<=2): 
        index[i]=1
        data1_index+=1
    else : 
        index[i]=2
        data2_index+=1

In [7]:
#수도권은 수도권끼리 비수도권은 비수도권끼리 리스트 만듬

data1 = [0]*(data1_index)
data2 = [0]*(data2_index)
j=0
k=0
for i in range(len(city1)):
    if(index[i]==1) : 
        data1[j]=bookTmp[i]
        j=j+1
    else :
        data2[k]=bookTmp[i]
        k=k+1

In [8]:
#수도권과 비수도권의 개수가 달라서 비수도권 중 수도권의 개수만큼 다시 뽑기
import random
for i in range(data1_index):
    random.seed(i)
    a=int((random.random())*data2_index)
    group2[i]=data2[a]

data = data1 + group2

In [9]:
import json
with open('data1.json','w') as f:
    json.dump(data1, f)
with open('data2.json','w') as f:
    json.dump(data2, f)