notebook.community

Edit and run



In [1]:

    
import pandas as pd
import numpy as np



In [2]:

    
df = pd.read_csv('data/src/sample_pandas_normal.csv')
df.iloc[1] = np.nan
print(df)









    



      name   age state  point
0    Alice  24.0    NY   64.0
1      NaN   NaN   NaN    NaN
2  Charlie  18.0    CA   70.0
3     Dave  68.0    TX   70.0
4    Ellen  24.0    CA   88.0
5    Frank  30.0    NY   57.0



In [3]:

    
u = df['state'].unique()
print(u)
print(type(u))









    



['NY' nan 'CA' 'TX']
<class 'numpy.ndarray'>



In [4]:

    
vc = df['state'].value_counts()
print(vc)
print(type(vc))









    



NY    2
CA    2
TX    1
Name: state, dtype: int64
<class 'pandas.core.series.Series'>



In [5]:

    
print(df['state'].value_counts(ascending=True))









    



TX    1
CA    2
NY    2
Name: state, dtype: int64



In [6]:

    
print(df['state'].value_counts(sort=False))









    



CA    2
NY    2
TX    1
Name: state, dtype: int64



In [7]:

    
print(df['state'].value_counts(dropna=False))









    



NY     2
CA     2
TX     1
NaN    1
Name: state, dtype: int64



In [8]:

    
print(df['state'].value_counts(dropna=False, normalize=True))









    



NY     0.333333
CA     0.333333
TX     0.166667
NaN    0.166667
Name: state, dtype: float64



In [9]:

    
nu = df['state'].nunique()
print(nu)
print(type(nu))









    



3
<class 'int'>



In [10]:

    
print(df['state'].nunique(dropna=False))



In [11]:

    
nu_col = df.nunique()
print(nu_col)
print(type(nu_col))









    



name     5
age      4
state    3
point    4
dtype: int64
<class 'pandas.core.series.Series'>



In [12]:

    
print(df.nunique(dropna=False))









    



name     6
age      5
state    4
point    5
dtype: int64



In [13]:

    
print(df.nunique(dropna=False, axis='columns'))









    



0    4
1    1
2    4
3    4
4    4
5    4
dtype: int64



In [14]:

    
print(df['state'].nunique())



In [15]:

    
print(df.nunique())









    



name     5
age      4
state    3
point    4
dtype: int64



In [16]:

    
print(df['state'].unique().tolist())
print(type(df['state'].unique().tolist()))









    



['NY', nan, 'CA', 'TX']
<class 'list'>



In [17]:

    
print(df['state'].value_counts().index.tolist())
print(type(df['state'].value_counts().index.tolist()))









    



['NY', 'CA', 'TX']
<class 'list'>



In [18]:

    
print(df['state'].value_counts(dropna=False).index.values)
print(type(df['state'].value_counts().index.values))









    



['NY' 'CA' 'TX' nan]
<class 'numpy.ndarray'>



In [19]:

    
print(df['state'].value_counts()['NY'])



In [20]:

    
print(df['state'].value_counts().NY)



In [21]:

    
for index, value in df['state'].value_counts().iteritems():
    print(index, ': ', value)









    



NY :  2
CA :  2
TX :  1



In [22]:

    
d = df['state'].value_counts().to_dict()
print(d)
print(type(d))









    



{'NY': 2, 'CA': 2, 'TX': 1}
<class 'dict'>



In [23]:

    
print(d['NY'])



In [24]:

    
for key, value in d.items():
    print(key, ': ', value)









    



NY :  2
CA :  2
TX :  1



In [25]:

    
print(df['state'].value_counts())









    



NY    2
CA    2
TX    1
Name: state, dtype: int64



In [26]:

    
print(df['state'].value_counts().index[0])

NY



In [27]:

    
print(df['state'].value_counts().iat[0])



In [28]:

    
print(df.apply(lambda x: x.value_counts().index[0]))









    



name     Frank
age         24
state       NY
point       70
dtype: object



In [29]:

    
print(df.apply(lambda x: x.value_counts().iat[0]))









    



name     1
age      2
state    2
point    2
dtype: int64



In [30]:

    
print(df['state'].mode())









    



0    CA
1    NY
dtype: object



In [31]:

    
print(df['state'].mode().tolist())









    



['CA', 'NY']



In [32]:

    
print(df['age'].mode().tolist())









    



[24.0]



In [33]:

    
s_mode = df.apply(lambda x: x.mode().tolist())
print(s_mode)









    



name     [Alice, Charlie, Dave, Ellen, Frank]
age                                    [24.0]
state                                [CA, NY]
point                                  [70.0]
dtype: object



In [34]:

    
print(type(s_mode))









    



<class 'pandas.core.series.Series'>



In [35]:

    
print(s_mode['name'])









    



['Alice', 'Charlie', 'Dave', 'Ellen', 'Frank']



In [36]:

    
print(type(s_mode['name']))









    



<class 'list'>



In [37]:

    
print(df.mode())









    



      name   age state  point
0    Alice  24.0    CA   70.0
1  Charlie   NaN    NY    NaN
2     Dave   NaN   NaN    NaN
3    Ellen   NaN   NaN    NaN
4    Frank   NaN   NaN    NaN



In [38]:

    
print(df.mode().count())









    



name     5
age      1
state    2
point    1
dtype: int64



In [39]:

    
print(df.astype('str').describe())









    



         name   age state point
count       6     6     6     6
unique      6     5     4     5
top     Frank  24.0    CA  70.0
freq        1     2     2     2



In [40]:

    
print(df.astype('str').describe().loc['top'])









    



name     Frank
age       24.0
state       CA
point     70.0
Name: top, dtype: object