In [2]:
import pandas as pd
import numpy as np
Direkter Download vom USGS, Abruf des Downloaddatums, automatischer Import in Pandas-Dataframe
In [3]:
fileUrl = 'http://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/2.5_day.csv'
eData = pd.read_csv(fileUrl)
dateDownloaded = !date
dateDownloaded
Out[3]:
In [4]:
eData
Out[4]:
Kürzere Darstellung mit head(): nur die ersten 5 Einträge des Tabellenkopfes
In [5]:
eData.head()
Out[5]:
Anzahl der Reihen und Spalten mit Numpy shape().
In [6]:
np.shape(eData)
Out[6]:
Anzeige der einzelnen Spaltennamen mit Attribut DataFrame.columns
In [7]:
eData.columns
Out[7]:
Datentyp der einzelnen Variablen mit Attribut DataFrame.dtypes
In [8]:
eData.dtypes
Out[8]:
In [9]:
eData.isnull().any()
Out[9]:
Entfernung aller Zeilen bzw. Messungen mit NaNs durch DataFrame.dropna()
In [10]:
eData = eData.dropna()
eData.head()
Out[10]:
In [11]:
eData.isnull().any()
Out[11]:
Überprüfen, ob Zeilen bzw. Messungen doppelt vorkommen, mit DataFrame.duplicated()
In [12]:
eData.duplicated().any()
Out[12]:
In [ ]:
eData.describe()
Out[ ]:
Streumatrix für alle numerischen Variablen mit Pandas scattermatrix():
In [ ]:
pd.scatter_matrix(eData, figsize=(14,14), marker='o');
In [ ]:
eData['Lat']
Welche Erdbeben fanden oberhalb einer geographischen Breite von 40 Grad statt?
In [ ]:
eData['Lat'] > 40.0
Gab es überhaupt Erdbeben oberhalb 50 Grad Breite?
In [ ]:
(eData['Lat'] > 40.0).any()
Gab es also. Haben alle verzeichneten Erdbeben eine Breite größer als 18 Grad?
In [ ]:
(eData['Lat'] > 18.0).all()
Es sind also auch Erdbeben unterhalb von 18 Grad verzeichnet.
Alle unterschiedlichen Werte der kategorischen Variable 'Version' mit Dataframe['Variablenname'].unique()
In [ ]:
eData['Version'].unique()
Häufigkeit der verschiedenen Kategorien in 'Version' mit Dataframe['Variablenname'].value_counts():
In [ ]:
eData['Version'].value_counts()
Häufigkeit von Wertepaaren der beiden kategorischen Variablen 'Version' und 'Src' mit Pandas crosstab():
In [ ]:
pd.crosstab(eData['Src'], eData['Version'])
Darstellung der Häufigkeitsverteilung der Erdbebenstärken für die verschiedenen Quellen mit einer Kastengraphik durch Pandas boxplot():
In [ ]:
from pandas.tools.plotting import boxplot
boxplot(eData, column='Magnitude', by='Src');
In [ ]: