German Wikipedia Heading Frequency

This notebook serves to sort German Wikipedia section headers by frequency as related to this research project.


In [1]:
import numpy as np
import pandas as pd

In [2]:
# read in headers file by chunks of 100000 to conserve memory
# https://stackoverflow.com/questions/25962114/how-to-read-a-6-gb-csv-file-with-pandas
tp = pd.read_csv('dewiki_20161101_headings_3.tsv', sep='\t', header=0, dtype={'page_id': np.int32, 'page_title': object, 'page_ns': np.int16, 'heading_level': np.int8, 'heading_text': object}, iterator=True, chunksize=100000)

In [3]:
# concatenate all rows into a pandas dataframe
de_DF = pd.concat([chunk for chunk in tp])

In [4]:
de_DF.head()


Out[4]:
page_id page_title page_ns heading_level heading_text
0 425451 Mariella Mehr 0 2 Leben
1 425451 Mariella Mehr 0 2 Auszeichnungen (Auswahl)
2 425451 Mariella Mehr 0 2 Werke
3 425451 Mariella Mehr 0 3 Prosa, Lyrik
4 425451 Mariella Mehr 0 3 Bühnentexte

In [5]:
de_DF.page_ns.unique()


Out[5]:
array([0])

In [6]:
# determine number of unique articles with sections
len(de_DF['page_title'].unique())


Out[6]:
1723471

In [7]:
# remove leading and trailing whitespace from heading_text column
de_DF['heading_text'] = pd.core.strings.str_strip(de_DF['heading_text'])

In [8]:
# groupby heading_text and count the number of unique page_titles each heading appears in
# sort in descending order
# this returns a pandas series object
article_count = de_DF.groupby('heading_text')['page_title'].apply(lambda x: len(x.unique())).sort_values(ascending=False)

In [9]:
# turn pandas series object into pandas dataframe
de_article_count_DF = pd.DataFrame({'section_title':article_count.index, 'number_of_articles':article_count.values})

In [10]:
# add a column for the percentage of articles that header appears in
de_article_count_DF['article_percentage'] = (de_article_count_DF['number_of_articles']/1993198)*100

In [11]:
# set pandas options to display 100 rows
# round percentage to 2 decimal places and show top 100 results
pd.options.display.max_rows = 100
de_article_count_DF.round({'article_percentage': 2}).head(100)


Out[11]:
number_of_articles section_title article_percentage
0 1266663 Weblinks 63.55
1 929079 Einzelnachweise 46.61
2 561919 Literatur 28.19
3 297422 Geschichte 14.92
4 261187 Leben 13.10
5 182654 Siehe auch 9.16
6 78065 Quellen 3.92
7 59574 Auszeichnungen 2.99
8 58404 Karriere 2.93
9 57293 Geographie 2.87
10 52344 Werke 2.63
11 42128 Sehenswürdigkeiten 2.11
12 39915 Handlung 2.00
13 37414 Beschreibung 1.88
14 33011 Geografie 1.66
15 32742 Erfolge 1.64
16 32433 Werdegang 1.63
17 31757 Verkehr 1.59
18 30840 Politik 1.55
19 30571 Lage 1.53
20 29715 Anmerkungen 1.49
21 29445 Schriften 1.48
22 26928 Diskografie 1.35
23 25494 Filmografie (Auswahl) 1.28
24 25313 Leben und Wirken 1.27
25 24873 Persönlichkeiten 1.25
26 23077 Bevölkerungsentwicklung 1.16
27 22387 Ehrungen 1.12
28 22166 Merkmale 1.11
29 21014 Hintergrund 1.05
30 19620 Sonstiges 0.98
31 18932 Biografie 0.95
32 18639 Werke (Auswahl) 0.94
33 18339 Kritik 0.92
34 17799 Wappen 0.89
35 17705 Filmografie 0.89
36 17473 Fußnoten 0.88
37 17434 Wirtschaft 0.87
38 17427 Rezeption 0.87
39 16534 Bevölkerung 0.83
40 16185 Familie 0.81
41 16027 Belege 0.80
42 15423 Veröffentlichungen 0.77
43 15353 Wirtschaft und Infrastruktur 0.77
44 14724 Kritiken 0.74
45 14248 Kultur und Sehenswürdigkeiten 0.71
46 13712 Leben und Werk 0.69
47 13469 Systematik 0.68
48 13052 Nationalmannschaft 0.65
49 12961 Inhalt 0.65
50 12530 Werk 0.63
51 12024 Verbreitung 0.60
52 11542 Schriften (Auswahl) 0.58
53 11444 Ergebnisse 0.57
54 10761 Alben 0.54
55 10721 Geographische Lage 0.54
56 10252 Lebensweise 0.51
57 10025 Einwohnerentwicklung 0.50
58 9726 Verlauf 0.49
59 9590 Quelle 0.48
60 9585 Singles 0.48
61 9550 Referenzen 0.48
62 9327 Söhne und Töchter der Stadt 0.47
63 9288 Verwendung 0.47
64 9164 Vorkommen 0.46
65 9094 Weblink 0.46
66 9076 Trivia 0.46
67 8969 Eigenschaften 0.45
68 8869 Architektur 0.44
69 8192 Gemeindegliederung 0.41
70 8003 Bildung 0.40
71 7903 Nachweise 0.40
72 7882 Technische Daten 0.40
73 7724 Publikationen 0.39
74 7705 Sport 0.39
75 7688 Erfolge und Auszeichnungen 0.39
76 7545 Entstehung 0.38
77 7443 Ausstattung 0.37
78 7432 Statistik 0.37
79 7325 Vorgeschichte 0.37
80 7312 Galerie 0.37
81 7284 Privates 0.37
82 7199 Bauwerke 0.36
83 7093 Finale 0.36
84 6896 Titelliste 0.35
85 6862 Verein 0.34
86 6665 Modus 0.33
87 6592 Produktion 0.33
88 6565 International 0.33
89 6524 Allgemeines 0.33
90 6491 Vereine 0.33
91 6479 Herkunft 0.33
92 6470 Bedeutung 0.32
93 6265 Gemeinden 0.31
94 6227 Städtepartnerschaften 0.31
95 6106 Bilder 0.31
96 6087 Einzel 0.31
97 6026 Leben und Karriere 0.30
98 5972 Gemeinderat 0.30
99 5940 Setzliste 0.30

In [ ]: