"Statistik auf nem Mac."
=> Belastbare Erkenntnisse mittels Fakten liefern
=> Neue Erkenntnisse verständlich herausarbeiten
"Jemand, der mehr Ahnung von Statistik
hat als ein Softwareentwickler
und mehr Ahnung von Softwareentwicklung
als ein Statistiker."
Data Science & Software Data: Perfect match!
=> Krass viel!
=> vom **Problem** über die Daten zur Erkenntnis!
Meta-Ziel: Grundfunktionen anhand eines einfachen Show-Cases sehen.
Git Blame Log
Git Blame Log
Git Blame Log
In [1]:
Was haben wir hier eigentlich?
In [2]:
1 DataFrame (~ programmierbares Excel-Arbeitsblatt), 4 Series (= Spalten), 5665947 Rows (= Einträge)
Wir wandeln die Zeitstempel um
In [3]:
=> Dadurch werden mehrere Perspektiven auf ein Problem möglich
Wir berechnen und das Alter jeder Quellcodezeilenänderung
In [4]:
Wir ordnen jeder Zeilenänderung eine Komponente zu.
In [5]:
String-Operationen...die dauern. Gibt aber diverse Optimierungsmöglichkeiten!
Wir fassen nach Komponenten zusammen und arbeiten mit der jeweils jüngsten Zeilenänderung weiter.
In [6]:
Wir bauen uns ein Balkendiagramm mit dem minimalen Alter pro Komponente.
In [7]:
Beispiel: Abhängigkeitsanalyse mit Daten von jdeps
und Visualisierung mit D3
.