notebook.community

Edit and run



In [1]:

    
import numpy as np
import pandas as pd
from pandas import Series,DataFrame



In [3]:

    
df1 = DataFrame({'key': ['X','Z','Y','Z','X','X'], 'data_set_1': np.arange(6)})

df1



In [4]:

    
df2 = DataFrame({'key': ['Q','Y','Z'], 'data_set_2': [1,2,3]})

df2



In [5]:

    
pd.merge(df1,df2)



In [6]:

    
# merge using specific column
# this is equivalent to the last line
pd.merge(df1,df2,on='key')



In [7]:

    
pd.merge(df1,df2,on='key',how='left')



In [8]:

    
pd.merge(df1,df2,on='key',how='right')



In [9]:

    
pd.merge(df1,df2,on='key',how='outer')



In [11]:

    
# many to many merge
df3 = DataFrame({'key':['X','X','X','Y','Z','Z'],'data_set_3':range(6)})

df3



In [12]:

    
df4 = DataFrame({'key':['Y','Y','X','X','Z'],'data_set_4': range(5)})

df4



In [13]:

    
pd.merge(df3,df4)



In [15]:

    
df_left = DataFrame({'key1':['SF','SF','LA'],
                     'key2':['one','two','one'],
                     'left_data':[10,20,30]})

df_left



In [16]:

    
df_right = DataFrame({'key1':['SF','SF','LA','LA'],
                     'key2':['one','one','one','two'],
                     'right_data':[40,50,60,70]})

df_right



In [17]:

    
pd.merge(df_left,df_right,on=['key1','key2'],how='outer')



In [19]:

    
# pandas by default, will keep columns with matching names
pd.merge(df_left,df_right,on='key1')



In [21]:

    
# specify suffixes
pd.merge(df_left,df_right,on='key1',suffixes=('_lefty','_righty'))









    Out[21]:






  
    
      
      key1
      key2_lefty
      left_data
      key2_righty
      right_data
    
  
  
    
      0
      SF
      one
      10
      one
      40
    
    
      1
      SF
      one
      10
      one
      50
    
    
      2
      SF
      two
      20
      one
      40
    
    
      3
      SF
      two
      20
      one
      50
    
    
      4
      LA
      one
      30
      one
      60
    
    
      5
      LA
      one
      30
      two
      70



In [ ]:

	data_set_1	key	data_set_2
0	0	X	NaN
1	1	Z	3.0
2	2	Y	2.0
3	3	Z	3.0
4	4	X	NaN
5	5	X	NaN

	data_set_1	key	data_set_2
0	1.0	Z	3
1	3.0	Z	3
2	2.0	Y	2
3	NaN	Q	1

	data_set_1	key	data_set_2
0	0.0	X	NaN
1	4.0	X	NaN
2	5.0	X	NaN
3	1.0	Z	3.0
4	3.0	Z	3.0
5	2.0	Y	2.0
6	NaN	Q	1.0

	key1	key2	left_data	right_data
0	SF	one	10.0	40.0
1	SF	one	10.0	50.0
2	SF	two	20.0	NaN
3	LA	one	30.0	60.0
4	LA	two	NaN	70.0

	key1	key2_x	left_data	key2_y	right_data
0	SF	one	10	one	40
1	SF	one	10	one	50
2	SF	two	20	one	40
3	SF	two	20	one	50
4	LA	one	30	one	60
5	LA	one	30	two	70

	key1	key2_lefty	left_data	key2_righty	right_data
0	SF	one	10	one	40
1	SF	one	10	one	50
2	SF	two	20	one	40
3	SF	two	20	one	50
4	LA	one	30	one	60
5	LA	one	30	two	70

	key1	key2_x	left_data	key2_y	right_data
0	SF	one	10	one	40
1	SF	one	10	one	50
2	SF	two	20	one	40
3	SF	two	20	one	50
4	LA	one	30	one	60
5	LA	one	30	two	70

	key1	key2_lefty	left_data	key2_righty	right_data
0	SF	one	10	one	40
1	SF	one	10	one	50
2	SF	two	20	one	40
3	SF	two	20	one	50
4	LA	one	30	one	60
5	LA	one	30	two	70

	key1	key2_x	left_data	key2_y	right_data
0	SF	one	10	one	40
1	SF	one	10	one	50
2	SF	two	20	one	40
3	SF	two	20	one	50
4	LA	one	30	one	60
5	LA	one	30	two	70

	key1	key2_lefty	left_data	key2_righty	right_data
0	SF	one	10	one	40
1	SF	one	10	one	50
2	SF	two	20	one	40
3	SF	two	20	one	50
4	LA	one	30	one	60
5	LA	one	30	two	70