notebook.community

Edit and run



In [31]:

    
import pandas as pd
import numpy as np



In [1]:

    
# Sample Data about student test scores from two classes
class_data = [{ 'student': 'AJ',
                'class': 'A',
                'score': 9
                },
              { 'student': 'Paul',
                'class': 'A',
                'score': 8
                },
              { 'student': 'Raymond',
                'class': 'A',
                'score': 7
                },
              { 'student': 'Jenny',
                'class': 'B',
                'score': 5
                },
              { 'student': 'Pete',
                'class': 'B',
                'score': 4
                },
              { 'student': 'Colin',
                'class': 'B',
                'score': 6
                },
              { 'student': 'Sarah',
                'class': 'B',
                'score': 4
                }]



In [3]:

    
df = pd.DataFrame(class_data)



In [67]:

    
# What does the dataframe look like?
df









    Out[67]:






  
    
      
      class
      score
      student
    
  
  
    
      0
       A
       9
            AJ
    
    
      1
       A
       8
          Paul
    
    
      2
       A
       7
       Raymond
    
    
      3
       B
       5
         Jenny
    
    
      4
       B
       4
          Pete
    
    
      5
       B
       6
         Colin
    
    
      6
       B
       4
         Sarah
    
  

7 rows × 3 columns



In [68]:

    
# the mean score for all students
df['score'].mean()









    Out[68]:





6.1428571428571432



In [8]:

    
# Use a boolean index to look at students from only class A
df['class'] == 'A'









    Out[8]:





0     True
1     True
2     True
3    False
4    False
5    False
6    False
Name: class, dtype: bool



In [21]:

    
df[df['class'] == 'A']









    Out[21]:






  
    
      
      class
      score
      student
    
  
  
    
      0
       A
       9
            AJ
    
    
      1
       A
       8
          Paul
    
    
      2
       A
       7
       Raymond
    
  

3 rows × 3 columns



In [14]:

    
# We can do a similar operation grouping by 'class'
group = df.groupby(by='class')



In [26]:

    
# This returns a DataFrameGroupBy object
type(group)









    Out[26]:





pandas.core.groupby.DataFrameGroupBy



In [69]:

    
# We can get the mean from this object
class_mean = group.mean()

# And this returns a dataframe
type(class_mean)









    Out[69]:





pandas.core.frame.DataFrame



In [70]:

    
class_mean









    Out[70]:






  
    
      
      score
    
    
      class
      
    
  
  
    
      A
       8.00
    
    
      B
       4.75
    
  

2 rows × 1 columns



In [71]:

    
# Next, we can specify a column and use .aggregate to perform
# multiple calculations on one column
class_info = group['score'].aggregate({
                       'sum': np.sum,
                       'mean': np.mean,
                       'std': np.std
                    })

# this returns a dataframe
type(class_info)









    Out[71]:





pandas.core.frame.DataFrame



In [72]:

    
class_info









    Out[72]:






  
    
      
      std
      sum
      mean
    
    
      class
      
      
      
    
  
  
    
      A
       1.000000
       24
       8.00
    
    
      B
       0.957427
       19
       4.75
    
  

2 rows × 3 columns