In [5]:
# Import librerie per analisi dati (Pandas) e dati Istat
import os
import pandas as pd
import numpy as np
from IPython.core.display import HTML
import istat
import jsonstat
# cache dir per velocizzare analisi in locale
cache_dir = os.path.abspath(os.path.join("..", "tmp/od_la_grande_fuga", "istat_cached"))
istat.cache_dir(cache_dir)
istat.lang(0) # lingua italiano
dir_df = os.path.join(os.path.abspath(''),'stg')
In [6]:
area_lavoro = istat.area('LAB')
area_lavoro.datasets()
Out[6]:
In [7]:
# Indicatori di lavoro - Tasso Disoccupazione
ds_lavoro = area_lavoro.dataset('DCCV_TAXDISOCCU1')
ds_lavoro.dimension('Territorio')
Out[7]:
In [8]:
# NORD
spec_n = {
"Territorio":3,
"Sesso":3,
"Cittadinanza":3,
"Durata disoccupazione":3,
"Titolo di studio":12,
"Classe di età":28
}
#SUD
spec_s = {
"Territorio":88,
"Sesso":3,
"Cittadinanza":3,
"Durata disoccupazione":3,
"Titolo di studio":12,
"Classe di età":28
}
In [9]:
def disoccupati(ds, spec,nome):
c = ds.getvalues(spec)
ds = c.dataset(0)
df = ds.to_data_frame('Tempo e frequenza')
df.reset_index(level=0, inplace=True)
df.columns = ['Anno',nome]
df = df[(df['Anno'].str.contains("T")==False)]
return df
In [10]:
df_s = disoccupati(ds_lavoro, spec_s, 'Sud')
df_n = disoccupati(ds_lavoro, spec_n, 'Nord')
In [ ]:
df = pd.merge(df_n,df_s, how='inner', on=['Anno', 'Anno'])
df = df.set_index(['Anno'])
df.head(5)
In [ ]:
df_filename = r'df_g8.pkl'
df_fullpath = os.path.join(dir_df, df_filename)
df.to_pickle(df_fullpath)