이용할 column : 시도명, 자료수(도서),자료수(연속간행물),자료수(비도서)
hypothesis : 수도권과 비수도권의 도서관당 보유한 자료수의 차이는 유의미하다.
In [1]:
!pip install xlrd
import pandas as pd
In [2]:
xl = pd.read_excel("data.xls")
In [3]:
city1 = xl['시도명'].tolist()
book1 = xl['자료수(도서)'].tolist()
book2 = xl['자료수(연속간행물)'].tolist()
book3 = xl['자료수(비도서)'].tolist()
In [4]:
"""
0 서울특별시 02
1 경기도 031
2 인천광역시 032
---- 위 세 곳이 수도권 ---- 수도권 : 1, 비수도권 : 2
3 강원도 033
4 충청남도 041
5 대전광역시 042
6 충청북도 043
7 세종특별자치시 044
8 부산광역시 051
9 울산광역시 052
10 대구광역시 053
11 경상북도 054
12 경상남도 055
13 전라남도 061
14 광주광역시 062
15 전라북도 063
16 제주특별자치도 064
"""
citys = [0]*len(city1)
for j in range(len(city1)):
if(city1[j]=='서울특별시'): citys[j]=0
elif(city1[j]=='경기도'): citys[j]=1
elif(city1[j]=='인천광역시'): citys[j]=2
elif(city1[j]=='강원도'): citys[j]=3
elif(city1[j]=='충청남도'): citys[j]=4
elif(city1[j]=='대전광역시'): citys[j]=5
elif(city1[j]=='충청북도'): citys[j]=6
elif(city1[j]=='세종특별자치시'): citys[j]=7
elif(city1[j]=='부산광역시'): citys[j]=8
elif(city1[j]=='울산광역시'): citys[j]=9
elif(city1[j]=='대구광역시'): citys[j]=10
elif(city1[j]=='경상북도'): citys[j]=11
elif(city1[j]=='경상남도'): citys[j]=12
elif(city1[j]=='전라남도'): citys[j]=13
elif(city1[j]=='광주광역시'): citys[j]=14
elif(city1[j]=='전라북도'): citys[j]=15
elif(city1[j]=='제주특별자치도'): citys[j]=16
In [5]:
book1 = [float(b) for b in book1]
book2 = [float(c) for c in book2]
book3 = [float(d) for d in book3]
bookTmp = [0]*len(book1)
for i in range(len(book1)):
bookTmp[i] = book1[i]+book2[i]+book3[i]
books = [0.0]*17
count_library = [0]*17
means = [0.0]*17
books_area = [0.0]*2
#citys의 값이 1부터 17까지 중 하나면 그 값에 해당하는 books의 인덱스에 bookTmp의 합을 더함
for i in range(len(city1)): #i=0 ~ len-1
for j in range(17):
if(citys[i]==j):
books[j] += bookTmp[i]
count_library[j] +=1
In [6]:
#수도권과 비수도권으로 나눔. 수도권 : index = 1 비수도권 : index = 2
#data1_index : data1의 도서관 개수
#data2_index : data2의 도서관 개수
index = [0]*(len(city1))
data1_index = 0
data2_index = 0
for i in range(len(city1)):
if(citys[i]<=2):
index[i]=1
data1_index+=1
else :
index[i]=2
data2_index+=1
In [7]:
#수도권은 수도권끼리 비수도권은 비수도권끼리 리스트 만듬
data1 = [0]*(data1_index)
data2 = [0]*(data2_index)
j=0
k=0
for i in range(len(city1)):
if(index[i]==1) :
data1[j]=bookTmp[i]
j=j+1
else :
data2[k]=bookTmp[i]
k=k+1
In [8]:
#수도권과 비수도권의 개수가 달라서 비수도권 중 수도권의 개수만큼 다시 뽑기
import random
for i in range(data1_index):
random.seed(i)
a=int((random.random())*data2_index)
group2[i]=data2[a]
data = data1 + group2
In [9]:
import json
with open('data1.json','w') as f:
json.dump(data1, f)
with open('data2.json','w') as f:
json.dump(data2, f)