In [1]:
import pandas as pd
from pandas import DataFrame
import statsmodels.api as sm
import pylab as pl
AuswertungExcel = pd.read_excel('Auswertung.xlsx')
import numpy as np
In [2]:
AuswertungExcel.columns
Out[2]:
In [3]:
BestimmteKategorie = DataFrame()
In [4]:
BestimmteKategorie['overMedian']=AuswertungExcel['overMedian']
BestimmteKategorie['incentive']=AuswertungExcel['incentive']
BestimmteKategorie['partner']=AuswertungExcel['partner']
BestimmteKategorie['satzzeichen']=AuswertungExcel['satzzeichen']
BestimmteKategorie['anrede']=AuswertungExcel['anrede']
BestimmteKategorie['highlight']=AuswertungExcel['highlight']
BestimmteKategorie['Betreff']=AuswertungExcel['Betreff']
In [5]:
BestimmteKategorie.head()
Out[5]:
In [6]:
BestimmteKategorie.describe()
Out[6]:
In [7]:
BestimmteKategorie.corr()
Out[7]:
In [8]:
BestimmteKategorie.std()
Out[8]:
In [9]:
pd.crosstab(BestimmteKategorie['overMedian'],BestimmteKategorie['partner'])
# partner erste Zahl
Out[9]:
In [10]:
pd.crosstab(BestimmteKategorie['overMedian'],BestimmteKategorie['incentive'])
# incentive erste Zahl
Out[10]:
In [11]:
pd.crosstab(BestimmteKategorie['overMedian'],BestimmteKategorie['satzzeichen'])
# satztzeichen erste Zahl
Out[11]:
In [12]:
pd.crosstab(BestimmteKategorie['overMedian'],BestimmteKategorie['anrede'])
# anrede erste Zahl
Out[12]:
In [13]:
pd.crosstab(BestimmteKategorie['overMedian'],BestimmteKategorie['highlight'])
# highlight erste Zahl
Out[13]:
In [14]:
BestimmteKategorie.hist()
pl.show()
In [15]:
Y_Overmedian = BestimmteKategorie['overMedian']
In [16]:
BestimmteKategorie.columns
Out[16]:
In [17]:
X_Kategorien = BestimmteKategorie[[u'incentive', u'partner', u'satzzeichen', u'anrede', u'highlight']]
#X_Kategorien = sm.add_constant(X_Kategorien)
#def setIntercept(data):
# return float(1.0)
#X_Kategorien['intercept']=map(setIntercept,BestimmteKategorie['overMedian'])
In [18]:
X_Kategorien_Train = X_Kategorien[:len(X_Kategorien)/2]
In [19]:
Y_Overmedian_Train = Y_Overmedian[:len(Y_Overmedian)/2]
In [20]:
logit = sm.Logit(Y_Overmedian_Train,X_Kategorien_Train)
In [21]:
result = logit.fit()
In [22]:
print result.summary()
In [23]:
print result.conf_int()
In [24]:
print result.conf_int()
In [25]:
print np.exp(result.params)
In [26]:
params = result.params
conf = result.conf_int()
conf['OR'] = params
conf.columns = ['2.5%','97.5%','OR']
print np.exp(conf)
In [26]:
In [26]:
In [26]:
In [26]:
In [26]: