In [1]:

    
import pandas as pd
git_blame = pd.read_csv("linux_blame_log.csv")
git_blame.head()









    Out[1]:







  
    
      
      path
      author
      timestamp
      line
    
  
  
    
      0
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      1448528085000000000
      1
    
    
      1
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      1448528085000000000
      2
    
    
      2
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      1448528085000000000
      3
    
    
      3
      drivers/scsi/bfa/bfad_drv.h
      Jing Huang
      1253753175000000000
      4
    
    
      4
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      1448528085000000000
      5

Wir haben X Einträge. Es wird viel Speicher belegt, wenn wir die Daten roh einlesen



In [2]:

    
git_blame.info(memory_usage='deep')









    



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5665947 entries, 0 to 5665946
Data columns (total 4 columns):
path         object
author       object
timestamp    int64
line         int64
dtypes: int64(2), object(2)
memory usage: 971.8 MB

Wir können zuerst einmal noch bei den verwendeten Datentypen nachhelfen.

Categorical == kategoriale Variablen, also Variablen, die nur eine limitierte Anzahl an Werten annehmen können. Werte in den Spalten werden dann zu Referenzen, die auf die eigentlichen Werte zeigen. AKA => Auswertungn werden schneller. Hat bei sehr vielen Daten wie hier viel Sinn.



In [3]:

    
git_blame.path = pd.Categorical(git_blame.path)
git_blame.author = pd.Categorical(git_blame.author)
git_blame.timestamp = pd.to_datetime(git_blame.timestamp)
git_blame.info(memory_usage='deep')









    



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5665947 entries, 0 to 5665946
Data columns (total 4 columns):
path         category
author       category
timestamp    datetime64[ns]
line         int64
dtypes: category(2), datetime64[ns](1), int64(1)
memory usage: 109.9 MB

Einfach Auswertung dieser Art bringt nichts, müssen unseren Kontext beachten. Linus Torvalds hat den initialen Git-Commit mit dem alten Bestandscode vorgenommen, deshalb ist diese Auswertung nicht korrekt:



In [4]:

    
git_blame.author.value_counts().head(10)









    Out[4]:





Linus Torvalds           838200
Hans Verkuil             118432
Mauro Carvalho Chehab    102107
Michael Chan              53945
Mike Marciniszyn          44843
Ralph Campbell            42453
Nicholas Bellinger        41823
Laurent Pinchart          40438
Antti Palosaari           40390
Alexander Duyck           39307
Name: author, dtype: int64



In [5]:

    
git_blame.head()









    Out[5]:







  
    
      
      path
      author
      timestamp
      line
    
  
  
    
      0
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      1
    
    
      1
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      2
    
    
      2
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      3
    
    
      3
      drivers/scsi/bfa/bfad_drv.h
      Jing Huang
      2009-09-24 00:46:15
      4
    
    
      4
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      5

Was ist eigentlich Wissen? Unsere Annäherung / Modell: Geänderte Codezeilen im letzten Jahr



In [6]:

    
a_year_ago = pd.Timestamp("today") - pd.DateOffset(years=1)
a_year_ago









    Out[6]:





Timestamp('2017-04-19 10:31:08.020478')



In [7]:

    
(git_blame.timestamp >= a_year_ago).head()









    Out[7]:





0    False
1    False
2    False
3    False
4    False
Name: timestamp, dtype: bool



In [8]:

    
git_blame['knowing'] = git_blame.timestamp >= a_year_ago
git_blame.head()









    Out[8]:







  
    
      
      path
      author
      timestamp
      line
      knowing
    
  
  
    
      0
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      1
      False
    
    
      1
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      2
      False
    
    
      2
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      3
      False
    
    
      3
      drivers/scsi/bfa/bfad_drv.h
      Jing Huang
      2009-09-24 00:46:15
      4
      False
    
    
      4
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      5
      False



In [9]:

    
%matplotlib inline
git_blame.knowing.value_counts().plot.pie()









    Out[9]:





<matplotlib.axes._subplots.AxesSubplot at 0x16d894e04a8>



In [10]:

    
knowledge = git_blame[git_blame.knowing]
knowledge.head()









    Out[10]:







  
    
      
      path
      author
      timestamp
      line
      knowing
    
  
  
    
      316
      drivers/scsi/bfa/bfad_drv.h
      Kees Cook
      2017-10-16 21:43:17
      317
      True
    
    
      736
      drivers/scsi/bfa/bfad_im.c
      Hannes Reinecke
      2017-08-25 11:57:03
      376
      True
    
    
      739
      drivers/scsi/bfa/bfad_im.c
      Hannes Reinecke
      2017-08-25 11:57:03
      379
      True
    
    
      742
      drivers/scsi/bfa/bfad_im.c
      Hannes Reinecke
      2017-08-25 11:57:03
      382
      True
    
    
      748
      drivers/scsi/bfa/bfad_im.c
      Hannes Reinecke
      2017-08-25 11:57:03
      388
      True



In [11]:

    
knowledge_carrier = knowledge.author.value_counts() / len(knowledge)
knowledge_carrier.head(10)









    Out[11]:





Anirudh Venkataramanan    0.035256
Daniel Scheller           0.031053
Yasunari Takiguchi        0.024188
Aviad Krawczyk            0.023527
Stanimir Varbanov         0.020557
Salil                     0.019973
Mika Westerberg           0.016489
Todor Tomov               0.015829
Jakub Kicinski            0.015367
Tomer Tayar               0.012628
Name: author, dtype: float64



In [12]:

    
git_blame.head()









    Out[12]:







  
    
      
      path
      author
      timestamp
      line
      knowing
    
  
  
    
      0
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      1
      False
    
    
      1
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      2
      False
    
    
      2
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      3
      False
    
    
      3
      drivers/scsi/bfa/bfad_drv.h
      Jing Huang
      2009-09-24 00:46:15
      4
      False
    
    
      4
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      5
      False

Komponenten können aus dem Pfad gewonnen werden



In [13]:

    
git_blame.path.value_counts().head()









    Out[13]:





drivers/media/dvb-frontends/drx39xyj/drxj_map.h    15055
drivers/isdn/hardware/eicon/message.c              14954
drivers/net/ethernet/sfc/mcdi_pcol.h               14534
drivers/net/ethernet/intel/i40e/i40e_main.c        14484
drivers/staging/rdma/hfi1/chip.c                   13914
Name: path, dtype: int64

Split Schritt für Schritt auf bauen



In [14]:

    
git_blame['component'] = git_blame.path.str.split("/").str[:2].str.join(":")
git_blame.head()









    Out[14]:







  
    
      
      path
      author
      timestamp
      line
      knowing
      component
    
  
  
    
      0
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      1
      False
      drivers:scsi
    
    
      1
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      2
      False
      drivers:scsi
    
    
      2
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      3
      False
      drivers:scsi
    
    
      3
      drivers/scsi/bfa/bfad_drv.h
      Jing Huang
      2009-09-24 00:46:15
      4
      False
      drivers:scsi
    
    
      4
      drivers/scsi/bfa/bfad_drv.h
      Anil Gurumurthy
      2015-11-26 08:54:45
      5
      False
      drivers:scsi

Nun können wir unsere Daten nach den Komponenten gruppieren.



In [15]:

    
knowledge_per_component = git_blame.groupby('component')[['knowing']].mean()
knowledge_per_component.head()









    Out[15]:







  
    
      
      knowing
    
    
      component
      
    
  
  
    
      arch:arc
      0.000000
    
    
      arch:arm
      0.000588
    
    
      arch:i386
      0.000000
    
    
      arch:ia64
      0.000000
    
    
      arch:mips
      0.000000



In [16]:

    
knowledge_per_component.knowing.sort_values().plot.barh(figsize=[3,20])









    Out[16]:





<matplotlib.axes._subplots.AxesSubplot at 0x16d8a53da90>

Unnützes Wissen: arch:arc -Prozessor steck im SuperFX-Chip von Super Nintentdo Spielemodulen drin. Vielleicht wollte jdm da ja mal Linux drauf laufen lassen...



In [ ]:

	path	author	timestamp	line
0	drivers/scsi/bfa/bfad_drv.h	Anil Gurumurthy	1448528085000000000	1
1	drivers/scsi/bfa/bfad_drv.h	Anil Gurumurthy	1448528085000000000	2
2	drivers/scsi/bfa/bfad_drv.h	Anil Gurumurthy	1448528085000000000	3
3	drivers/scsi/bfa/bfad_drv.h	Jing Huang	1253753175000000000	4
4	drivers/scsi/bfa/bfad_drv.h	Anil Gurumurthy	1448528085000000000	5

	path	author	timestamp	line
0	drivers/scsi/bfa/bfad_drv.h	Anil Gurumurthy	2015-11-26 08:54:45	1
1	drivers/scsi/bfa/bfad_drv.h	Anil Gurumurthy	2015-11-26 08:54:45	2
2	drivers/scsi/bfa/bfad_drv.h	Anil Gurumurthy	2015-11-26 08:54:45	3
3	drivers/scsi/bfa/bfad_drv.h	Jing Huang	2009-09-24 00:46:15	4
4	drivers/scsi/bfa/bfad_drv.h	Anil Gurumurthy	2015-11-26 08:54:45	5

	path	author	timestamp	line	knowing
316	drivers/scsi/bfa/bfad_drv.h	Kees Cook	2017-10-16 21:43:17	317	True
736	drivers/scsi/bfa/bfad_im.c	Hannes Reinecke	2017-08-25 11:57:03	376	True
739	drivers/scsi/bfa/bfad_im.c	Hannes Reinecke	2017-08-25 11:57:03	379	True
742	drivers/scsi/bfa/bfad_im.c	Hannes Reinecke	2017-08-25 11:57:03	382	True
748	drivers/scsi/bfa/bfad_im.c	Hannes Reinecke	2017-08-25 11:57:03	388	True

	knowing
component
arch:arc	0.000000
arch:arm	0.000588
arch:i386	0.000000
arch:ia64	0.000000
arch:mips	0.000000