In [50]:
import statsmodels.formula.api as smf
import numpy as np
import pandas as pd
from pandas import DataFrame
import matplotlib.pyplot as plt
Auswertung = pd.read_excel('Auswertung.xlsx')
In [2]:
In [2]:
In [3]:
final=pd.read_excel('final_version_patrick.xlsx')
In [4]:
final.columns
Out[4]:
In [5]:
final[u'Satzzeichen'].head()
Out[5]:
In [6]:
Satzzeichen = final[[u'OeffnungsrateClean',u'Satzzeichen']]
In [7]:
mod = smf.ols(formula='OeffnungsrateClean ~ Satzzeichen',data=Satzzeichen)
res = mod.fit()
print res.summary()
In [8]:
# Satzzeichen scheint eine große Auswirkung auf die Oeffnungsrate zu haben
# der Schnittswert mit ! als Basis ist 0,2584
# Wenn stattdessen wir ein . als beenedes Satzzeichen haben steigt die Oeffnungsrate im Durchschnitt auf 0,2584 + 0,5544 = 0,8138
# 214.93808049% Steigerung (im Vergleich zu der Basis)
# Wenn wir ein Fragezeichen hier anwenden steigt der Wert im Durchschnitt auf 0,2584 + 0,1949 = 0,5553 #76.1997% Steigerung
In [8]:
In [8]:
In [9]:
mod = smf.ols(formula='OeffnungsrateClean ~ Anrede',data=final)
res = mod.fit()
print res.summary()
In [10]:
# Anrede = titel,anrede
# die Auswertung ist im Vergleich zu anrede
# hier haben wir keine signifikanten Ergebnisse
In [11]:
Partner = final[[u'OeffnungsrateClean',u'partner_0']]
In [12]:
mod = smf.ols(formula='OeffnungsrateClean ~ partner_0',data=Partner)
res = mod.fit()
print res.summary()
In [13]:
# Hier ist die Basis a.t.u. als Partner mit dem Durchschnitt von 0,1854
# Signifikant: dm als Partner in der Betreffzeile korreliert mit einem Offnungsrate von 0,1854 + 0,1072 = 0,2926 eine Steigerung von
# 57.8209%
# Signifikant: galeria als Partner in der Betreffzeile korreliert mit einem Offnungsrate von 0,1854 + 0,1556 = 0,3410 eine Steigerung von
# 83.9266%
# Signifikant: wmf als Partner in der Betreffzeile korreliert mit einem Offnungsrate von 0,1854 + 0,1718 = 0,3572 eine Steigerung von
# 92.6645%
In [14]:
Kategorie = final[[u'OeffnungsrateClean',u'Kategorie']]
In [15]:
mod = smf.ols(formula='OeffnungsrateClean ~ Kategorie',data=Kategorie)
res = mod.fit()
print res.summary()
In [16]:
# Signifikant:
# Basis ist Kategorie A
#HI von 0.3063 auf 0.3063-0.0848 = ,2251 # -26.50995755%
#HIHP von 0.3063 auf 0.3063-0.1316 = ,1747 # -42.96441397%
#IHHS von 0.3063 auf 0.3063-0.1104 = ,1959 # -36.043095%
#PHAS von 0.3063 auf 0.3063+0.2182 = ,5245 # 71.237349%
#PIH von 0.3063 auf 0.3063-0.1296 = = ,1767 # -42.31145935%
In [17]:
Highlight = final[[u'OeffnungsrateClean',u'highlight_0']]
In [18]:
mod = smf.ols(formula='OeffnungsrateClean ~ highlight_0',data=Highlight)
res = mod.fit()
print res.summary()
In [19]:
# Hier ist die Basis "angebot"
#highlight_0[T.exklusiv] 0.1188 0.034 3.520 0.001 0.052 0.185
#highlight_0[T.gewinn] 0.1461 0.032 4.616 0.000 0.084 0.209
#signifikant: das highlight exklusiv korreliert mit einer Steigerung von 0,2177 auf 0,2177 + 0,1199 = 0,3376 #55.07579237%
#signifikant: das highlight gewinn korreliert mit einer Steigerung von 0,2177 auf 0,2177 + 0,1461 = 0,3638 #67.1107028%
In [20]:
Incentive = final[[u'OeffnungsrateClean',u'Incentive_0']]
In [21]:
mod = smf.ols(formula='OeffnungsrateClean ~ Incentive_0',data=Incentive)
res = mod.fit()
print res.summary()
In [22]:
#signifikant
# Basis "%"
# punkte-gutschein 0.2685 +0.1197 = ,3882# 44.58100558%
# ° 0.2685 -0.0463 # = ,2222 #-17.24394785%
# doppelt punkten 0.2685 -.0714 = ,1971 # -26.59217877%
# extra ° 0.2685 -0.0811 = 1874 # -30.16759776%
In [23]:
final.columns
Out[23]:
In [24]:
AllElements = final[[u'OeffnungsrateClean',u'ifSatzzeichen',u'ifHighlight', u'ifAnrede', u'ifPartner',u'ifIncentive']]
In [25]:
mod = smf.ols(formula='OeffnungsrateClean ~ ifSatzzeichen+ifHighlight+ifAnrede+ifPartner+ifIncentive',data=AllElements)
res = mod.fit()
print res.summary()
In [26]:
# Coef muss als der Durchschnitt wenn keine Kategorie vorhanden ist interpretiert werden.
#Signifikant: das Vorhandensein eines Satzzeichens steigert die durchschnittliche Öffnungsrate von 0.2491 auf 0.0216 + 0.2491 = 0,2707
#eine 8.6712% Steigerung
#Signifikant: das Vorhandensein einer Anrede steigert die durchschnittliche Öffnungsrate von 0.2491 auf 0.0513 + 0.2491 = 0,3004
#eine 20.5941% Steigerung
#Signifikant: das Vorhandensein eines Partner steigert die durchschnittliche Öffnungsrate von 0.2491 auf 0.0152 + 0.2491 = 0,2643
#eine 6.1020% Steigerung
In [38]:
def Satzzeichen_Partner(data):
return 'P' in str(data) and 'S' in str(data)
final['Satzzeichen_Partner']=map(Satzzeichen_Partner,final['Kategorie'])
In [41]:
mod = smf.ols(formula='OeffnungsrateClean ~ Satzzeichen_Partner',data=final)
res = mod.fit()
print res.summary()
In [42]:
def Satzzeichen_Anrede(data):
return 'A' in str(data) and 'S' in str(data)
final['Satzzeichen_Anrede']=map(Satzzeichen_Anrede,final['Kategorie'])
In [43]:
mod = smf.ols(formula='OeffnungsrateClean ~ Satzzeichen_Anrede',data=final)
res = mod.fit()
print res.summary()
In [44]:
def Satzzeichen_Anrede_Partner(data):
return 'A' in str(data) and 'S' in str(data) and 'P' in str(data)
final['Satzzeichen_Anrede_Partner']=map(Satzzeichen_Anrede_Partner,final['Kategorie'])
In [45]:
mod = smf.ols(formula='OeffnungsrateClean ~ Satzzeichen_Anrede_Partner',data=final)
res = mod.fit()
print res.summary()
In [54]:
valueCounts = DataFrame()
#final['Kategorie'].value_counts().to_excel('value_counts.xls')
valueCounts['Kategorie']=final['Kategorie'].value_counts()
valueCounts.to_excel('value_counts.xls')
In [ ]: