Beispiel Credit Data - Aufgabe - Klassifikation:

AI, Machine Learning & Data Science

Author list: Ramon Rank


Die in KNIME durchgeführte Klassifikation der Kreditdaten soll mit Python umgesetzt werden. Die Zellen für die Klassifikation sind bereits vorbereitet. Sie müssen die vorbereitenden Schritte ausarbeiten, soll heißen das Preprocessing durchführen.
Hierzu die Daten credit_data.csv von github in ein directory /data oder direkt in das Arbeitsdirectory laden

Schritt: Bibliotheken laden - Plotting vorbereiten - Warnings unterdrücken - Inhalt eines Directories ausgeben

Vorbereitend benötigen wir einige Bibliotheken die wir mit alias Namen laden:
import numpy as np
import pandas as pd

import seaborn as sns
from matplotlib import pyplot as plt

Fügen Sie in die nächste Zelle den obigen Code ein.


In [ ]:
# hier Ihren Code einfügen und aufüühren

https://seaborn.pydata.org/tutorial/aesthetics.html
Es gibt fünf voreingestellte Seaborn-Themen: darkgrid, whitegrid, dark, white, and ticks

Fügen Sie in folgende Zelle den Code
sns.set_style("whitegrid")
ein


In [ ]:
# hier Ihren Code einfügen und ausführen

Warum sollte man %matplotlib inline ausführen ? Recherchieren Sie !
Fügen Sie
%matplotlib inline
in die nächste Zelle ein und führen Sie aus


In [ ]:
# hier Ihren Code einfügen und ausführen

Warum sollte warnings importiert werden ?
https://docs.python.org/3/library/warnings.html

Fügen Sie in die nächste Zelle den Code:
import warnings
warnings.filterwarnings("ignore")

ein.


In [ ]:
# hier Ihren Code einfügen und ausführen

Zum Lesen eines directories benötigen wir die Bibliothek os

mit
import os
wird die Bibliothek geladen

os.listdir("./data) liest dann das directory data aus

Das data directory muss ein Unterordner des aktuellen directories sein z.B.:
/aktuell
/aktuell/data

Geben Sie in die nächste Zelle den Code:
import os
print(os.listdir("./data"))

ein. </b>


In [ ]:
# hier Ihren Code einfügen und ausführen
import os 
print(os.listdir("./data"))

Schritt: Einlesen der Daten als Panda Dataframe

Die Daten liegen im directory /data
Zum Einlesen von csv Daten wird der Befehl pd.read_csv("") verwendet
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Sollen Daten aus dem gleichen directory eingelesen werden dann:
pd.read_csv("credit_data.csv")
sonst muss der relative Pfad angegeben werden: pd.read_csv("./data/credit_data.csv")

Achtung Linux: statt / bitte \ verwenden.

Geben Sie in die nächste Zelle den Code:
training = pd.read_csv("./data/credit_data.csv")
ein und führen Sie die Zelle aus </b>


In [ ]:
# hier Ihren Code einfügen und ausführen


# Wenn Sie keine Fehlermeldung erhalten haben, wurde die Datei erfolgreich geladen
# die Daten wurden dann in die Variable training als panda Dataframe geladen

Schritt: Exploration der Daten

Zu allererst sollte man sich die Daten einmal anschauen

shape, head(), tail(), describe() sind gute Möglichkeiten, sich einen Überblick zu verschaffen

Geben Sie in die nächste Zelle den Code:
training.shape
ein und führen Sie die Zelle aus </b>


In [ ]:
# hier Ihren Code einfügen und ausführen

Geben Sie in die nächste Zelle den Code:
training.head()
ein und führen Sie die Zelle aus </b>


In [ ]:
# hier Ihren Code einfügen und ausführen

Geben Sie in die nächste Zelle den Code:
training.tail()
ein und führen Sie die Zelle aus </b>


In [ ]:
# hier Ihren Code einfügen und ausführen

# Erkennen Sie den Unterschied zu training.head() ? <br>
# Geben Sie einfach in training.head() oder training.tail() mal eine Zahl ein. zB. traing.tail(25)

Wenden Sie doch einige Übungen aus dem panda Notebook /grundlagen auf diesen Dataframe in der Variablen training zur Übung an.


In [ ]:
# Speichern Sie die Daten aus der Spalte CLAGE des Dataframes training in der Variablen spalte1

In [ ]:
# Weitere Übungen

Sehr schön gelöst !

Im nächsten Schritt werden wir das Preprocessing durchführen


In [ ]: