In [1]:
import pyspark
import json

sc = pyspark.SparkContext('local[*]')

wikiFile = sc.textFile('wikidata-20170306-all.json.gz')

result = wikiFile \
  .filter(lambda x: '{' in x) \
  .map(lambda x: json.loads(x[:-1])) \
  .map(lambda x: { \
    'label': x.get('labels').get('de').get('value'), \
    'description': x.get('descriptions').get('de').get('value') \
  }) \
  .take(10)


print(result)

sc.stop()


[{'label': 'Schottland', 'description': 'Landesteil im Vereinigten Königreich Großbritannien und Nordirland'}, {'label': 'Belgien', 'description': 'Staat in Westeuropa'}, {'label': 'Universum', 'description': 'Gesamtheit der Energie, des Raumes und der Materie'}, {'label': 'Triskaidekaphobie', 'description': 'abergläubische Angst vor der Zahl Dreizehn'}, {'label': 'George Washington', 'description': 'erster Präsident der Vereinigten Staaten von Amerika'}, {'label': 'Dänemark', 'description': 'Staat in Nordeuropa'}, {'label': 'Bier', 'description': 'alkohol- und kohlensäurehaltiges Getränk'}, {'label': 'Berlin', 'description': 'Hauptstadt und Land der Bundesrepublik Deutschland'}, {'label': 'Drucker', 'description': 'Peripheriegerät eines Computers'}, {'label': 'London', 'description': 'Hauptstadt des Vereinigten Königreichs'}]

In [ ]: