In [1]:
import pandas as pd
import re
In [3]:
df = pd.read_csv("data/20140315_PAP-2008-2013.csv", encoding='utf-8')
df["PAP ACCORDE"] = df["PAP ACCORDE"].apply(lambda x : re.sub('[^0-9\.]', '', str(x))).apply(lambda x : 0 if x == '' else x).astype('float')*1.0
#df["pays"] = df["pays"].apply(lambda x : u"ÉTATS-UNIS" if x == u"ÉTATS-UNIS " else u"RÉPUBLIQUE TCHÈQUE" if x == u"RÉP. TCHÈQUE" else x)
#df.to_csv("data/20140315_PAP-2008-2013.new.csv", index=False, encoding='utf-8')
df['PAP ACCORDE'].sum()
Out[3]:
In [4]:
PapParPays = df[["pays","PAP ACCORDE"]].groupby('pays').sum().sort('PAP ACCORDE', ascending=False)
#PapParPays
In [5]:
pays2iso = pd.read_csv("data/pays2iso.csv", encoding='utf-8', squeeze=False)
pays2iso.index = pays2iso['pays']
pays2iso = pays2iso['iso']
pays2iso
Out[5]:
In [6]:
PapParPays['iso'] = pays2iso[PapParPays.index]
In [7]:
PapParPays
Out[7]:
In [8]:
PapParPays.to_csv("data/par_pays.csv", encoding='utf-8')
In [ ]: