pandas 패키지의 소개

pandas 패키지

Index를 가진 자료형인 R의 data.frame 자료형을 Python에서 구현

참고 자료

pandas 자료형

Series
- 시계열 데이터
- Index를 가지는 1차원 NumPy Array

DataFrame
- 복수 필드 시계열 데이터 또는 테이블 데이터
- Index를 가지는 2차원 NumPy Array

Index
- Label: 각각의 Row/Column에 대한 이름
- Name: 인덱스 자체에 대한 이름

Series

Row Index를 가지는 자료열

생성
추가/삭제
Indexing

명시적인 Index를 가지지 않는 Series



In [1]:

    
s = pd.Series([4, 7, -5, 3])
s









    Out[1]:





0    4
1    7
2   -5
3    3
dtype: int64



In [2]:

    
s.values









    Out[2]:





array([ 4,  7, -5,  3], dtype=int64)



In [3]:

    
type(s.values)









    Out[3]:





numpy.ndarray



In [4]:

    
s.index









    Out[4]:





RangeIndex(start=0, stop=4, step=1)



In [5]:

    
type(s.index)









    Out[5]:





pandas.indexes.range.RangeIndex

Vectorized Operation



In [6]:

    
s * 2









    Out[6]:





0     8
1    14
2   -10
3     6
dtype: int64



In [7]:

    
np.exp(s)









    Out[7]:





0      54.598150
1    1096.633158
2       0.006738
3      20.085537
dtype: float64

명시적인 Index를 가지는 Series

생성시 index 인수로 Index 지정
Index 원소는 각 데이터에 대한 key 역할을 하는 Label
dict



In [9]:

    
s2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])
s2









    Out[9]:





d    4
b    7
a   -5
c    3
dtype: int64



In [10]:

    
s2.index









    Out[10]:





Index([u'd', u'b', u'a', u'c'], dtype='object')

Series Indexing 1: Label Indexing

Single Label
Label Slicing
- 마지막 원소 포함
Label을 원소로 가지는 Label (Label을 사용한 List Fancy Indexing)
- 주어진 순서대로 재배열



In [11]:

    
s2['a']









    Out[11]:





-5



In [12]:

    
s2['b':'c']









    Out[12]:





b    7
a   -5
c    3
dtype: int64



In [13]:

    
s2[["a", "b"]]









    Out[13]:





a   -5
b    7
dtype: int64

Series Indexing 2: Integer Indexing

Single Integer
Integer Slicing
- 마지막 원소를 포함하지 않는 일반적인 Slicing
Integer List Indexing (List Fancy Indexing)
Boolearn Fancy Indexing



In [14]:

    
s2[2]









    Out[14]:





-5



In [15]:

    
s2[1:4]









    Out[15]:





b    7
a   -5
c    3
dtype: int64



In [16]:

    
s2[[2, 1]]









    Out[16]:





a   -5
b    7
dtype: int64



In [17]:

    
s2[s2 > 0]









    Out[17]:





d    4
b    7
c    3
dtype: int64

dict 연산



In [18]:

    
"a" in s2, "e" in s2









    Out[18]:





(True, False)



In [20]:

    
for i, j in s2.iteritems():
    print(i, j)









    



('d', 4)
('b', 7)
('a', -5)
('c', 3)



In [21]:

    
s2["d":"a"]









    Out[21]:





d    4
b    7
a   -5
dtype: int64

dict 데이터를 이용한 Series 생성

별도의 index를 지정하면 지정한 자료만으로 생성



In [22]:

    
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
s3 = pd.Series(sdata)
s3









    Out[22]:





Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64



In [23]:

    
states = ['Califonia', 'Ohio', 'Oregon', 'Texas']
s4 = pd.Series(sdata, index=states)
s4









    Out[23]:





Califonia        NaN
Ohio         35000.0
Oregon       16000.0
Texas        71000.0
dtype: float64



In [24]:

    
pd.isnull(s)









    Out[24]:





0    False
1    False
2    False
3    False
dtype: bool



In [25]:

    
pd.notnull(s4)









    Out[25]:





Califonia    False
Ohio          True
Oregon        True
Texas         True
dtype: bool



In [26]:

    
s4.isnull()









    Out[26]:





Califonia     True
Ohio         False
Oregon       False
Texas        False
dtype: bool



In [27]:

    
s4.notnull()









    Out[27]:





Califonia    False
Ohio          True
Oregon        True
Texas         True
dtype: bool

Index 기준 연산



In [28]:

    
print(s3.values, s4.values)
s3.values + s4.values









    



(array([35000, 16000, 71000,  5000], dtype=int64), array([    nan,  35000.,  16000.,  71000.]))






    Out[28]:





array([    nan,  51000.,  87000.,  76000.])



In [29]:

    
s3 + s4   #Utah가 NaN인 것을 보아하니 값이 둘 다 있을 때만 연산이 되고 하나라도 없으면 NaN으로 처리되나보네









    Out[29]:





Califonia         NaN
Ohio          70000.0
Oregon        32000.0
Texas        142000.0
Utah              NaN
dtype: float64

Index 이름



In [30]:

    
s4









    Out[30]:





Califonia        NaN
Ohio         35000.0
Oregon       16000.0
Texas        71000.0
dtype: float64



In [31]:

    
s4.name = "population"
s4









    Out[31]:





Califonia        NaN
Ohio         35000.0
Oregon       16000.0
Texas        71000.0
Name: population, dtype: float64



In [32]:

    
s4.index.name = "state"
s4









    Out[32]:





state
Califonia        NaN
Ohio         35000.0
Oregon       16000.0
Texas        71000.0
Name: population, dtype: float64

Index 변경



In [33]:

    
s









    Out[33]:





0    4
1    7
2   -5
3    3
dtype: int64



In [34]:

    
s.index









    Out[34]:





RangeIndex(start=0, stop=4, step=1)



In [35]:

    
s.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
s









    Out[35]:





Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64



In [36]:

    
s.index









    Out[36]:





Index([u'Bob', u'Steve', u'Jeff', u'Ryan'], dtype='object')

DataFrame

Multi-Series
- 동일한 Row 인덱스를 사용하는 복수 Series
- Series를 value로 가지는 dict

2차원 행렬
- DataFrame을 행렬로 생각하면 각 Series는 행렬의 Column의 역할

NumPy Array와 차이점
- 각 Column(Series)마다 type이 달라도 된다.

Column Index
- (Row) Index와 Column Index를 가진다.
- 각 Column(Series)에 Label 지정 가능
- (Row) Index와 Column Label을 동시에 사용하여 자료 접근 가능



In [37]:

    
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
    'year': [2001, 2001, 2002, 2001, 2002],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9]
}
df = pd.DataFrame(data)
df



In [38]:

    
pd.DataFrame(data, columns=['year', 'state', 'pop'])



In [39]:

    
df.dtypes









    Out[39]:





pop      float64
state     object
year       int64
dtype: object

명시적인 Column/Row Index를 가지는 DataFrame



In [40]:

    
df2 = pd.DataFrame(data,
                  columns=['year', 'state', 'pop', 'debt'],
                  index=['one', 'two', 'three', 'four', 'five'])
df2









    Out[40]:






  
    
      
      year
      state
      pop
      debt
    
  
  
    
      one
      2001
      Ohio
      1.5
      NaN
    
    
      two
      2001
      Ohio
      1.7
      NaN
    
    
      three
      2002
      Ohio
      3.6
      NaN
    
    
      four
      2001
      Nevada
      2.4
      NaN
    
    
      five
      2002
      Nevada
      2.9
      NaN

Single Column Access



In [41]:

    
df["state"]









    Out[41]:





0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
Name: state, dtype: object



In [44]:

    
type(df["state"]), type([df["state"]])









    Out[44]:





(pandas.core.series.Series, list)



In [45]:

    
[df["state"]]









    Out[45]:





[0      Ohio
 1      Ohio
 2      Ohio
 3    Nevada
 4    Nevada
 Name: state, dtype: object]



In [46]:

    
df.state









    Out[46]:





0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
Name: state, dtype: object

Cloumn Data Update



In [48]:

    
df2['debt'] = 16.5, 16.2, 16.3, 16.7, 16.2
df2



In [49]:

    
df2['debt'] = 16.5
df2



In [50]:

    
df2['debt'] = np.arange(5)
df2



In [51]:

    
df2['debt'] = pd.DataFrame([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
df2









    Out[51]:






  
    
      
      year
      state
      pop
      debt
    
  
  
    
      one
      2001
      Ohio
      1.5
      NaN
    
    
      two
      2001
      Ohio
      1.7
      -1.2
    
    
      three
      2002
      Ohio
      3.6
      NaN
    
    
      four
      2001
      Nevada
      2.4
      -1.5
    
    
      five
      2002
      Nevada
      2.9
      -1.7

Add Column



In [52]:

    
df2['eastern'] = df2.state == 'Ohio'
df2









    Out[52]:






  
    
      
      year
      state
      pop
      debt
      eastern
    
  
  
    
      one
      2001
      Ohio
      1.5
      NaN
      True
    
    
      two
      2001
      Ohio
      1.7
      -1.2
      True
    
    
      three
      2002
      Ohio
      3.6
      NaN
      True
    
    
      four
      2001
      Nevada
      2.4
      -1.5
      False
    
    
      five
      2002
      Nevada
      2.9
      -1.7
      False

Delete Column



In [54]:

    
del df2["eastern"]
df2









    Out[54]:






  
    
      
      year
      state
      pop
      debt
    
  
  
    
      one
      2001
      Ohio
      1.5
      NaN
    
    
      two
      2001
      Ohio
      1.7
      -1.2
    
    
      three
      2002
      Ohio
      3.6
      NaN
    
    
      four
      2001
      Nevada
      2.4
      -1.5
    
    
      five
      2002
      Nevada
      2.9
      -1.7

inplace 옵션

함수/메소드는 두 가지 종류
- 그 객체 자체를 변형
- 해당 객체는 그대로 두고 변형된 새로운 객체를 출력

DataFrame 메소드 대부분은 inplace 옵션을 가짐
- inplace=True이면 출력을 None으로 하고 객체 자체를 변형
- inplace=False이면 객체 자체는 보존하고 변형된 새로운 객체를 출력



In [55]:

    
x = [3, 6, 1, 4]
sorted(x)









    Out[55]:





[1, 3, 4, 6]



In [56]:

    
x









    Out[56]:





[3, 6, 1, 4]



In [57]:

    
x.sort()
x









    Out[57]:





[1, 3, 4, 6]

`drop` 메소드를 사용한 Row/Column 삭제

del 함수
- inplace 연산
drop 메소드
- 삭제된 Series/DataFrame 출력
- Series는 Row 삭제
- DataFrame은 axis 인수로 Row/Column 선택
  - axis=0(디폴트): Row
  - axis=1: Column



In [59]:

    
s = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
s









    Out[59]:





a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64



In [60]:

    
s2 = s.drop('c')
s2









    Out[60]:





a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64



In [61]:

    
s









    Out[61]:





a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64



In [62]:

    
s.drop(["b", "c"])









    Out[62]:





a    0.0
d    3.0
e    4.0
dtype: float64



In [63]:

    
df = pd.DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
df



In [64]:

    
df.drop(['Colorado', 'Ohio'])



In [67]:

    
df.drop('two', axis=1)



In [68]:

    
df.drop(['two', 'four'], axis=1)

Nested dict를 사용한 DataFrame 생성



In [69]:

    
pop = {
    'Nevada': {
        2001: 2.4,
        2002: 2.9
    },
    'Ohio': {
        2000: 1.5,
        2001: 1.7,
        2002: 3.6
    }
}



In [70]:

    
df3 = pd.DataFrame(pop)
df3

Series dict를 사용한 DataFrame 생성



In [74]:

    
pdata = {
    'Ohio': df3['Ohio'][:-1],
    'Nevada': df3['Nevada'][:3]
}
pd.DataFrame(pdata)

NumPy array로 변환



In [75]:

    
df3.values









    Out[75]:





array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])



In [76]:

    
df2.values









    Out[76]:





array([[2001L, 'Ohio', 1.5, nan],
       [2001L, 'Ohio', 1.7, -1.2],
       [2002L, 'Ohio', 3.6, nan],
       [2001L, 'Nevada', 2.4, -1.5],
       [2002L, 'Nevada', 2.9, -1.7]], dtype=object)



In [61]:

    
df3.values









    Out[61]:





array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])



In [62]:

    
df2.values









    Out[62]:





array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7]], dtype=object)

DataFrame의 Column Indexing

Single Label key
Single Label attribute
Label List Fancy Indexing



In [77]:

    
df2









    Out[77]:






  
    
      
      year
      state
      pop
      debt
    
  
  
    
      one
      2001
      Ohio
      1.5
      NaN
    
    
      two
      2001
      Ohio
      1.7
      -1.2
    
    
      three
      2002
      Ohio
      3.6
      NaN
    
    
      four
      2001
      Nevada
      2.4
      -1.5
    
    
      five
      2002
      Nevada
      2.9
      -1.7



In [78]:

    
df2["year"]









    Out[78]:





one      2001
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64



In [79]:

    
df2.year









    Out[79]:





one      2001
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64



In [80]:

    
df2[["state", "debt", "year"]]









    Out[80]:






  
    
      
      state
      debt
      year
    
  
  
    
      one
      Ohio
      NaN
      2001
    
    
      two
      Ohio
      -1.2
      2001
    
    
      three
      Ohio
      NaN
      2002
    
    
      four
      Nevada
      -1.5
      2001
    
    
      five
      Nevada
      -1.7
      2002



In [81]:

    
df2[["year"]]

	pop	state	year
0	1.5	Ohio	2001
1	1.7	Ohio	2001
2	3.6	Ohio	2002
3	2.4	Nevada	2001
4	2.9	Nevada	2002

	year	state	pop	debt
one	2001	Ohio	1.5	16.5
two	2001	Ohio	1.7	16.2
three	2002	Ohio	3.6	16.3
four	2001	Nevada	2.4	16.7
five	2002	Nevada	2.9	16.2

	year	state	pop	debt	eastern
one	2001	Ohio	1.5	NaN	True
two	2001	Ohio	1.7	-1.2	True
three	2002	Ohio	3.6	NaN	True
four	2001	Nevada	2.4	-1.5	False
five	2002	Nevada	2.9	-1.7	False

pandas 패키지의 소개

pandas 패키지

pandas 자료형

Series

명시적인 Index를 가지지 않는 Series

Vectorized Operation

명시적인 Index를 가지는 Series

Series Indexing 1: Label Indexing

Series Indexing 2: Integer Indexing

dict 연산

dict 데이터를 이용한 Series 생성

Index 기준 연산

Index 이름

Index 변경

DataFrame

명시적인 Column/Row Index를 가지는 DataFrame

Single Column Access

Cloumn Data Update

Add Column

Delete Column

inplace 옵션

drop 메소드를 사용한 Row/Column 삭제

Nested dict를 사용한 DataFrame 생성

Series dict를 사용한 DataFrame 생성

NumPy array로 변환

DataFrame의 Column Indexing

`drop` 메소드를 사용한 Row/Column 삭제