Die in KNIME durchgeführte Klassifikation der Kreditdaten soll mit Python umgesetzt werden.
Die Zellen für die Klassifikation sind bereits vorbereitet.
Sie müssen die vorbereitenden Schritte ausarbeiten, soll heißen das Preprocessing durchführen.
Hierzu die Daten credit_data.csv von github in ein directory /data oder direkt in das Arbeitsdirectory laden
Vorbereitend benötigen wir einige Bibliotheken die wir mit alias Namen laden:
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
Fügen Sie in die nächste Zelle den obigen Code ein.
In [ ]:
# hier Ihren Code einfügen und aufüühren
https://seaborn.pydata.org/tutorial/aesthetics.html
Es gibt fünf voreingestellte Seaborn-Themen: darkgrid, whitegrid, dark, white, and ticks
Fügen Sie in folgende Zelle den Code
sns.set_style("whitegrid")
ein
In [ ]:
# hier Ihren Code einfügen und ausführen
Warum sollte man %matplotlib inline ausführen ? Recherchieren Sie !
Fügen Sie
%matplotlib inline
in die nächste Zelle ein und führen Sie aus
In [ ]:
# hier Ihren Code einfügen und ausführen
Warum sollte warnings importiert werden ?
https://docs.python.org/3/library/warnings.html
Fügen Sie in die nächste Zelle den Code:
import warnings
warnings.filterwarnings("ignore")
ein.
In [ ]:
# hier Ihren Code einfügen und ausführen
Zum Lesen eines directories benötigen wir die Bibliothek os
mit
import os
wird die Bibliothek geladen
os.listdir("./data) liest dann das directory data aus
Das data directory muss ein Unterordner des aktuellen directories sein
z.B.:
/aktuell
/aktuell/data
Geben Sie in die nächste Zelle den Code:
import os
print(os.listdir("./data"))
ein. </b>
In [ ]:
# hier Ihren Code einfügen und ausführen
import os
print(os.listdir("./data"))
Die Daten liegen im directory /data
Zum Einlesen von csv Daten wird der Befehl pd.read_csv("") verwendet
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
Sollen Daten aus dem gleichen directory eingelesen werden dann:
pd.read_csv("credit_data.csv")
sonst muss der relative Pfad angegeben werden:
pd.read_csv("./data/credit_data.csv")
Achtung Linux: statt / bitte \ verwenden.
Geben Sie in die nächste Zelle den Code:
training = pd.read_csv("./data/credit_data.csv")
ein und führen Sie die Zelle aus </b>
In [ ]:
# hier Ihren Code einfügen und ausführen
# Wenn Sie keine Fehlermeldung erhalten haben, wurde die Datei erfolgreich geladen
# die Daten wurden dann in die Variable training als panda Dataframe geladen
Zu allererst sollte man sich die Daten einmal anschauen
shape, head(), tail(), describe() sind gute Möglichkeiten, sich einen Überblick zu verschaffen
Geben Sie in die nächste Zelle den Code:
training.shape
ein und führen Sie die Zelle aus </b>
In [ ]:
# hier Ihren Code einfügen und ausführen
Geben Sie in die nächste Zelle den Code:
training.head()
ein und führen Sie die Zelle aus </b>
In [ ]:
# hier Ihren Code einfügen und ausführen
Geben Sie in die nächste Zelle den Code:
training.tail()
ein und führen Sie die Zelle aus </b>
In [ ]:
# hier Ihren Code einfügen und ausführen
# Erkennen Sie den Unterschied zu training.head() ? <br>
# Geben Sie einfach in training.head() oder training.tail() mal eine Zahl ein. zB. traing.tail(25)
Wenden Sie doch einige Übungen aus dem panda Notebook /grundlagen auf diesen Dataframe in der Variablen training zur Übung an.
In [ ]:
# Speichern Sie die Daten aus der Spalte CLAGE des Dataframes training in der Variablen spalte1
In [ ]:
# Weitere Übungen
Im nächsten Schritt werden wir das Preprocessing durchführen
In [ ]: