In [2]:
import pandas as pd
import numpy as np
%matplotlib inline
In [3]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
cols =["CRIM","ZN","INDUS","CHAS","NOX","RM","AGE","DIS","RAD","TAX","PTRATIO","B","LSTAT","TGT"]
boston = pd.read_csv(url, sep=" ", skipinitialspace=True, header=None, names=cols, index_col=False) # Dataframe
dateDownloaded = !date
dateDownloaded
Out[3]:
Infos über die Boston Housing Daten
In [4]:
shape = np.shape(boston)
print('Zeilen: {} und Spalten: {}'.format(shape[0],shape[1]))
Variablen erklärt:
Überprüfen ob Datensatz NULL Datensätze hat:
In [5]:
boston.isnull().any()
Out[5]:
Überprüfen, ob Zeilen doppelt vorkommen
In [6]:
boston.duplicated().any()
Out[6]:
count: Anzahl Messungen
mean: Mittelwert
std: Standardabweichung
min: Minimum
25%: 25-Perzentil
50%: 50-Perzentil
75%: 75-Perzentil
max: Maximum
In [28]:
boston.describe()
Out[28]:
In [27]:
boston.head(20)
Out[27]:
In [9]:
boston.dtypes
Out[9]:
Aus den Datentypen scheinen die Variablen "CHAS" und "RAD" Kategorisch zu sein. Über ein Histogram über diese beiden Variablen kann die Annahme verifiziert werden.
In [10]:
boston["CHAS"].plot(kind='hist', bins=50)
Out[10]:
boston["RAD"].plot(kind='hist', bins=50)
Die Variablen "CHAS" und "RAD" sind auf jeden Fall kategorisch! Evtl. ist die "TAX" Variable auch kategorisch, da sie trotz des Datentyps float, keine nachkommastellen hat (zumindest scheint die so in der Stichprobe so).
In [25]:
tax = boston["TAX"]
tax_bins = np.unique(tax).shape[0]
as_int = any([a.is_integer() for a in tax])
print("Die TAX Variable hat __{}__ unterschiedliche Werte".format(tax_bins))
tax.hist(bins=tax_bins)
Out[25]:
Die TAX Variable ist kategorisch da es "nur" 66 unterschiedliche Werte annimmt.
In [31]:
scatter = pd.scatter_matrix(boston, figsize=(14,14), marker='o', diagonal='kde');
In [29]:
boston.corr()
Out[29]:
In [ ]:
In [ ]:
In [ ]:
In [ ]:
In [34]:
%load_ext version_information
%version_information numpy,pandas
Out[34]:
In [ ]: