German Wikipedia Heading Frequency

This notebook serves to sort German Wikipedia section headers by frequency as related to this research project.



In [1]:

    
import numpy as np
import pandas as pd



In [2]:

    
# read in headers file by chunks of 100000 to conserve memory
# https://stackoverflow.com/questions/25962114/how-to-read-a-6-gb-csv-file-with-pandas
tp = pd.read_csv('dewiki_20161101_headings_3.tsv', sep='\t', header=0, dtype={'page_id': np.int32, 'page_title': object, 'page_ns': np.int16, 'heading_level': np.int8, 'heading_text': object}, iterator=True, chunksize=100000)



In [3]:

    
# concatenate all rows into a pandas dataframe
de_DF = pd.concat([chunk for chunk in tp])



In [4]:

    
de_DF.head()









    Out[4]:






  
    
      
      page_id
      page_title
      page_ns
      heading_level
      heading_text
    
  
  
    
      0
      425451
      Mariella Mehr
      0
      2
      Leben
    
    
      1
      425451
      Mariella Mehr
      0
      2
      Auszeichnungen (Auswahl)
    
    
      2
      425451
      Mariella Mehr
      0
      2
      Werke
    
    
      3
      425451
      Mariella Mehr
      0
      3
      Prosa, Lyrik
    
    
      4
      425451
      Mariella Mehr
      0
      3
      Bühnentexte



In [5]:

    
de_DF.page_ns.unique()









    Out[5]:





array([0])



In [6]:

    
# determine number of unique articles with sections
len(de_DF['page_title'].unique())









    Out[6]:





1723471



In [7]:

    
# remove leading and trailing whitespace from heading_text column
de_DF['heading_text'] = pd.core.strings.str_strip(de_DF['heading_text'])



In [8]:

    
# groupby heading_text and count the number of unique page_titles each heading appears in
# sort in descending order
# this returns a pandas series object
article_count = de_DF.groupby('heading_text')['page_title'].apply(lambda x: len(x.unique())).sort_values(ascending=False)



In [9]:

    
# turn pandas series object into pandas dataframe
de_article_count_DF = pd.DataFrame({'section_title':article_count.index, 'number_of_articles':article_count.values})



In [10]:

    
# add a column for the percentage of articles that header appears in
de_article_count_DF['article_percentage'] = (de_article_count_DF['number_of_articles']/1993198)*100



In [11]:

    
# set pandas options to display 100 rows
# round percentage to 2 decimal places and show top 100 results
pd.options.display.max_rows = 100
de_article_count_DF.round({'article_percentage': 2}).head(100)









    Out[11]:






  
    
      
      number_of_articles
      section_title
      article_percentage
    
  
  
    
      0
      1266663
      Weblinks
      63.55
    
    
      1
      929079
      Einzelnachweise
      46.61
    
    
      2
      561919
      Literatur
      28.19
    
    
      3
      297422
      Geschichte
      14.92
    
    
      4
      261187
      Leben
      13.10
    
    
      5
      182654
      Siehe auch
      9.16
    
    
      6
      78065
      Quellen
      3.92
    
    
      7
      59574
      Auszeichnungen
      2.99
    
    
      8
      58404
      Karriere
      2.93
    
    
      9
      57293
      Geographie
      2.87
    
    
      10
      52344
      Werke
      2.63
    
    
      11
      42128
      Sehenswürdigkeiten
      2.11
    
    
      12
      39915
      Handlung
      2.00
    
    
      13
      37414
      Beschreibung
      1.88
    
    
      14
      33011
      Geografie
      1.66
    
    
      15
      32742
      Erfolge
      1.64
    
    
      16
      32433
      Werdegang
      1.63
    
    
      17
      31757
      Verkehr
      1.59
    
    
      18
      30840
      Politik
      1.55
    
    
      19
      30571
      Lage
      1.53
    
    
      20
      29715
      Anmerkungen
      1.49
    
    
      21
      29445
      Schriften
      1.48
    
    
      22
      26928
      Diskografie
      1.35
    
    
      23
      25494
      Filmografie (Auswahl)
      1.28
    
    
      24
      25313
      Leben und Wirken
      1.27
    
    
      25
      24873
      Persönlichkeiten
      1.25
    
    
      26
      23077
      Bevölkerungsentwicklung
      1.16
    
    
      27
      22387
      Ehrungen
      1.12
    
    
      28
      22166
      Merkmale
      1.11
    
    
      29
      21014
      Hintergrund
      1.05
    
    
      30
      19620
      Sonstiges
      0.98
    
    
      31
      18932
      Biografie
      0.95
    
    
      32
      18639
      Werke (Auswahl)
      0.94
    
    
      33
      18339
      Kritik
      0.92
    
    
      34
      17799
      Wappen
      0.89
    
    
      35
      17705
      Filmografie
      0.89
    
    
      36
      17473
      Fußnoten
      0.88
    
    
      37
      17434
      Wirtschaft
      0.87
    
    
      38
      17427
      Rezeption
      0.87
    
    
      39
      16534
      Bevölkerung
      0.83
    
    
      40
      16185
      Familie
      0.81
    
    
      41
      16027
      Belege
      0.80
    
    
      42
      15423
      Veröffentlichungen
      0.77
    
    
      43
      15353
      Wirtschaft und Infrastruktur
      0.77
    
    
      44
      14724
      Kritiken
      0.74
    
    
      45
      14248
      Kultur und Sehenswürdigkeiten
      0.71
    
    
      46
      13712
      Leben und Werk
      0.69
    
    
      47
      13469
      Systematik
      0.68
    
    
      48
      13052
      Nationalmannschaft
      0.65
    
    
      49
      12961
      Inhalt
      0.65
    
    
      50
      12530
      Werk
      0.63
    
    
      51
      12024
      Verbreitung
      0.60
    
    
      52
      11542
      Schriften (Auswahl)
      0.58
    
    
      53
      11444
      Ergebnisse
      0.57
    
    
      54
      10761
      Alben
      0.54
    
    
      55
      10721
      Geographische Lage
      0.54
    
    
      56
      10252
      Lebensweise
      0.51
    
    
      57
      10025
      Einwohnerentwicklung
      0.50
    
    
      58
      9726
      Verlauf
      0.49
    
    
      59
      9590
      Quelle
      0.48
    
    
      60
      9585
      Singles
      0.48
    
    
      61
      9550
      Referenzen
      0.48
    
    
      62
      9327
      Söhne und Töchter der Stadt
      0.47
    
    
      63
      9288
      Verwendung
      0.47
    
    
      64
      9164
      Vorkommen
      0.46
    
    
      65
      9094
      Weblink
      0.46
    
    
      66
      9076
      Trivia
      0.46
    
    
      67
      8969
      Eigenschaften
      0.45
    
    
      68
      8869
      Architektur
      0.44
    
    
      69
      8192
      Gemeindegliederung
      0.41
    
    
      70
      8003
      Bildung
      0.40
    
    
      71
      7903
      Nachweise
      0.40
    
    
      72
      7882
      Technische Daten
      0.40
    
    
      73
      7724
      Publikationen
      0.39
    
    
      74
      7705
      Sport
      0.39
    
    
      75
      7688
      Erfolge und Auszeichnungen
      0.39
    
    
      76
      7545
      Entstehung
      0.38
    
    
      77
      7443
      Ausstattung
      0.37
    
    
      78
      7432
      Statistik
      0.37
    
    
      79
      7325
      Vorgeschichte
      0.37
    
    
      80
      7312
      Galerie
      0.37
    
    
      81
      7284
      Privates
      0.37
    
    
      82
      7199
      Bauwerke
      0.36
    
    
      83
      7093
      Finale
      0.36
    
    
      84
      6896
      Titelliste
      0.35
    
    
      85
      6862
      Verein
      0.34
    
    
      86
      6665
      Modus
      0.33
    
    
      87
      6592
      Produktion
      0.33
    
    
      88
      6565
      International
      0.33
    
    
      89
      6524
      Allgemeines
      0.33
    
    
      90
      6491
      Vereine
      0.33
    
    
      91
      6479
      Herkunft
      0.33
    
    
      92
      6470
      Bedeutung
      0.32
    
    
      93
      6265
      Gemeinden
      0.31
    
    
      94
      6227
      Städtepartnerschaften
      0.31
    
    
      95
      6106
      Bilder
      0.31
    
    
      96
      6087
      Einzel
      0.31
    
    
      97
      6026
      Leben und Karriere
      0.30
    
    
      98
      5972
      Gemeinderat
      0.30
    
    
      99
      5940
      Setzliste
      0.30



In [ ]:

	page_id	page_title	heading_level	heading_text
0	425451	Mariella Mehr	2	Leben
1	425451	Mariella Mehr	2	Auszeichnungen (Auswahl)
2	425451	Mariella Mehr	2	Werke
3	425451	Mariella Mehr	3	Prosa, Lyrik
4	425451	Mariella Mehr	3	Bühnentexte

	number_of_articles	section_title	article_percentage
0	1266663	Weblinks	63.55
1	929079	Einzelnachweise	46.61
2	561919	Literatur	28.19
3	297422	Geschichte	14.92
4	261187	Leben	13.10
5	182654	Siehe auch	9.16
6	78065	Quellen	3.92
7	59574	Auszeichnungen	2.99
8	58404	Karriere	2.93
9	57293	Geographie	2.87
10	52344	Werke	2.63
11	42128	Sehenswürdigkeiten	2.11
12	39915	Handlung	2.00
13	37414	Beschreibung	1.88
14	33011	Geografie	1.66
15	32742	Erfolge	1.64
16	32433	Werdegang	1.63
17	31757	Verkehr	1.59
18	30840	Politik	1.55
19	30571	Lage	1.53
20	29715	Anmerkungen	1.49
21	29445	Schriften	1.48
22	26928	Diskografie	1.35
23	25494	Filmografie (Auswahl)	1.28
24	25313	Leben und Wirken	1.27
25	24873	Persönlichkeiten	1.25
26	23077	Bevölkerungsentwicklung	1.16
27	22387	Ehrungen	1.12
28	22166	Merkmale	1.11
29	21014	Hintergrund	1.05
30	19620	Sonstiges	0.98
31	18932	Biografie	0.95
32	18639	Werke (Auswahl)	0.94
33	18339	Kritik	0.92
34	17799	Wappen	0.89
35	17705	Filmografie	0.89
36	17473	Fußnoten	0.88
37	17434	Wirtschaft	0.87
38	17427	Rezeption	0.87
39	16534	Bevölkerung	0.83
40	16185	Familie	0.81
41	16027	Belege	0.80
42	15423	Veröffentlichungen	0.77
43	15353	Wirtschaft und Infrastruktur	0.77
44	14724	Kritiken	0.74
45	14248	Kultur und Sehenswürdigkeiten	0.71
46	13712	Leben und Werk	0.69
47	13469	Systematik	0.68
48	13052	Nationalmannschaft	0.65
49	12961	Inhalt	0.65
50	12530	Werk	0.63
51	12024	Verbreitung	0.60
52	11542	Schriften (Auswahl)	0.58
53	11444	Ergebnisse	0.57
54	10761	Alben	0.54
55	10721	Geographische Lage	0.54
56	10252	Lebensweise	0.51
57	10025	Einwohnerentwicklung	0.50
58	9726	Verlauf	0.49
59	9590	Quelle	0.48
60	9585	Singles	0.48
61	9550	Referenzen	0.48
62	9327	Söhne und Töchter der Stadt	0.47
63	9288	Verwendung	0.47
64	9164	Vorkommen	0.46
65	9094	Weblink	0.46
66	9076	Trivia	0.46
67	8969	Eigenschaften	0.45
68	8869	Architektur	0.44
69	8192	Gemeindegliederung	0.41
70	8003	Bildung	0.40
71	7903	Nachweise	0.40
72	7882	Technische Daten	0.40
73	7724	Publikationen	0.39
74	7705	Sport	0.39
75	7688	Erfolge und Auszeichnungen	0.39
76	7545	Entstehung	0.38
77	7443	Ausstattung	0.37
78	7432	Statistik	0.37
79	7325	Vorgeschichte	0.37
80	7312	Galerie	0.37
81	7284	Privates	0.37
82	7199	Bauwerke	0.36
83	7093	Finale	0.36
84	6896	Titelliste	0.35
85	6862	Verein	0.34
86	6665	Modus	0.33
87	6592	Produktion	0.33
88	6565	International	0.33
89	6524	Allgemeines	0.33
90	6491	Vereine	0.33
91	6479	Herkunft	0.33
92	6470	Bedeutung	0.32
93	6265	Gemeinden	0.31
94	6227	Städtepartnerschaften	0.31
95	6106	Bilder	0.31
96	6087	Einzel	0.31
97	6026	Leben und Karriere	0.30
98	5972	Gemeinderat	0.30
99	5940	Setzliste	0.30