In [23]:
import statsmodels.formula.api as smf
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
cscDF = pd.read_excel('csc_data.xlsx')
In [24]:
cscDF.head()
Out[24]:
In [25]:
cscDF.columns
Out[25]:
In [26]:
karte_verloren_gestohlen = cscDF[cscDF['COMREASONID']==117]
del karte_verloren_gestohlen['COM_CH']
del karte_verloren_gestohlen['COM_CH_DESC']
del karte_verloren_gestohlen['SSR_CREATED_START']
del karte_verloren_gestohlen['ROW_ID']
del karte_verloren_gestohlen['MEMBERID']
del karte_verloren_gestohlen['COMCHANNELID']
del karte_verloren_gestohlen['STATUS']
del karte_verloren_gestohlen['SUMMARY']
del karte_verloren_gestohlen['SSR_ROW_ID']
del karte_verloren_gestohlen['SSR_CREATED']
del karte_verloren_gestohlen['USER_ID_CREATED']
del karte_verloren_gestohlen['SSR_LAST_UPD']
del karte_verloren_gestohlen['USER_ID_LAST_UPD']
del karte_verloren_gestohlen['DWH_INSERTED']
del karte_verloren_gestohlen['DWH_UPDATED']
del karte_verloren_gestohlen['CATID']
del karte_verloren_gestohlen['END_DT']
del karte_verloren_gestohlen['DWH_UPDATED_BY']
del karte_verloren_gestohlen['BRANCHID']
del karte_verloren_gestohlen['DWH_INSERTED_BY']
del karte_verloren_gestohlen['VORGANGSID']
del karte_verloren_gestohlen['PAR_SSR_ROW_ID']
del karte_verloren_gestohlen['MOOD']
del karte_verloren_gestohlen['FWD_COUNT']
del karte_verloren_gestohlen['COM_REASON']
del karte_verloren_gestohlen['IDENT_MTHD']
del karte_verloren_gestohlen['ORIGIN_CARD']
del karte_verloren_gestohlen['SSR_KONTAKTGRUNDGRUPPE']
del karte_verloren_gestohlen['CATID_PB']
del karte_verloren_gestohlen['MODIFICATION_NUM']
del karte_verloren_gestohlen['CATID_SIEBEL']
del karte_verloren_gestohlen['PARTNERID']
del karte_verloren_gestohlen['COMSUBREASONID']
del karte_verloren_gestohlen['SSR_POINTS']
del karte_verloren_gestohlen['X_INCIDENT_DT']
del karte_verloren_gestohlen['X_ARCHIVE_REF']
del karte_verloren_gestohlen['POOLNAME']
In [27]:
karte_verloren_gestohlen.head()
Out[27]:
In [28]:
def createNewDesc(data):
try:
return str(data).split('Betreff')[1]
except:
return ''
karte_verloren_gestohlen['Betreff']=map(createNewDesc,karte_verloren_gestohlen['DESCRIPTION'])
In [32]:
karte_verloren_gestohlen.head(18)
Out[32]:
In [33]:
from nltk.tokenize import sent_tokenize, word_tokenize
In [38]:
def tokenizeSent(data):
try:
return nltk.sent_tokenize(str(data))
except:
return ''
karte_verloren_gestohlen['Sent_Token']=map(tokenizeSent,karte_verloren_gestohlen['DESCRIPTION'])
In [39]:
karte_verloren_gestohlen.head(18)
Out[39]:
In [ ]: