Diese Folie ist absichtlich leer
"Statistik auf nem Mac."
=> Belastbare Erkenntnisse mittels Fakten liefern
=> Neue Erkenntnisse verständlich herausarbeiten
=> von der Frage über die Daten zur Erkenntnis!
Data Science & Software Data: Perfect match!
=> Krass viel!
=> Individuelle Analysen für individuelle Probleme!
Implementierung: Computational notebooks
Meta-Ziel: Grundmechaniken kennenlernen.
Wir laden Git Log Daten eines Git Repos.
In [ ]:
Was haben wir hier eigentlich?
In [ ]:
1 DataFrame (~ programmierbares Excel-Arbeitsblatt), 6 Series (= Spalten), 1128819 Rows (= Einträge)
Wir wandeln die Zeitstempel von Texte in Objekte um.
In [ ]:
Wir sehen uns nur die jüngsten Änderungen an.
In [ ]:
Wir wollen nur Java-Code verwenden.
In [ ]:
Wir aggregieren die Zeilen sowie die Anzahl der Änderungen pro Datei.
In [ ]:
Wir holen Infos über die Code-Zeilen hinzu...
In [ ]:
...und verschneiden diese mit den vorhandenen Daten.
In [ ]:
Wir zeigen die TOP 10 Hotspots an.
In [ ]:
Wir plotten die TOP 10 Liste als XY-Diagramm.
In [ ]: