In [50]:
import pandas as pd
import datetime
import matplotlib.pyplot as plt
%matplotlib inline
import datetime
In [29]:
df = pd.read_csv(
'/Users/guilhermefelitti/Dropbox/TSE/prestacao_contas_2016/despesas_candidatos_2016_SP.txt',
encoding='iso-8859-1', sep=';', decimal=',', thousands='.',usecols=['Nome candidato', 'Sequencial Candidato','Nome do fornecedor',
'CPF/CNPJ do fornecedor','Setor econômico do fornecedor','Valor despesa',
'Tipo despesa', 'Descriçao da despesa']
)
In [30]:
pd.to_numeric(df['Valor despesa'])
df = df.rename(columns={'Valor despesa': 'VALOR'})
In [31]:
councilman = pd.read_csv('sequential_id.csv')
secreataries = pd.read_csv('secretary-councilman.csv')
# sequencial dos vereadores de são paulo
sequencial = councilman.sequential_id.tolist()
sequencial.extend(secreataries.sequential_id.tolist())
In [32]:
gastos = df[df['Sequencial Candidato'].isin(sequencial)]
In [33]:
gastos_campanha = gastos.rename(columns={
'Nome candidato': 'candidate',
'Sequencial Candidato': 'sequential_id',
'Nome do fornecedor': 'provider',
'CPF/CNPJ do fornecedor': 'cnpj',
'Setor econômico do fornecedor': 'economic_sector',
'VALOR': 'value',
'Tipo despesa': 'kind',
'Descriçao da despesa': 'description'
})
In [10]:
gastos_campanha = gastos_campanha.drop(['candidate'], axis=1)
In [17]:
gastos_campanha.groupby(['sequential_id', 'kind']).sum().sort_values(by='value', ascending=False)
Out[17]:
In [48]:
by_sequencial_kind = gastos_campanha.groupby(['sequential_id', 'kind']).sum()
In [54]:
today = datetime.date.today()
by_sequencial_kind.to_csv(f"../data/{today}-election_expenses.csv", index=False)
In [ ]: