In [6]:
from nltk.corpus import PlaintextCorpusReader
import nltk

In [5]:
corpus_root = '.'

word_lists = PlaintextCorpusReader(corpus_root, 'all_hoax.txt')
len(word_lists.words())


Out[5]:
8654

In [9]:
corpus = nltk.Text(word_lists.words())
corpus


Out[9]:
<Text: Terungkapnya jaringan Saracen menjadi pemberitaan yang menyedot perhatian...>

In [10]:
corpus.concordance("pesan")


Displaying 25 of 58 matches:
oleh banyak pengguna Facebook lain . Pesan berantai di media sosial dan grup ko
 dada atau serangan jantung . Sebuah pesan berantai beredar di WhatsApp grup se
n umrah pada bulan Ramadhan ini . Di pesan yang beredar tersebut penerima dimin
ga Khusnul Khaatimah ," begitu bunyi pesan berantai yang beredar pagi tadi , Ra
an lalu beredar informasi di layanan pesan singkat WhatsApp mengenai bahaya tel
pp mengenai bahaya telur berbintik . Pesan tersebut berisi gambar telur berbint
 bakteri streptococcus . Berikut isi pesan tersebut : Jika menemui telur ayam n
telur dan masuk ke dalamnya . Muncul pesan berantai yang berisi informasi akan 
online dan angkot di Bandung . Dalam pesan berantai tersebut tertulis bentrokan
engan diawali demo besar - besaran . Pesan berantai itu menyebut bentrokan terj
 Bandung . Tak hanya di lokasi itu , pesan berantai itu juga menyebut pengemudi
ewas di Jalan Buahbatu oleh angkot . Pesan kaleng itu pun menyebutkan pengemudi
 di Jalan Karapitan , Bandung . Lalu pesan itu juga menyebut ada pengemudi ojek
ikat langsung !! Hatur Nuhun ," kata pesan berantai itu . Dalam pesan berantai 
n ," kata pesan berantai itu . Dalam pesan berantai itu tertulis informasi ters
 . 00 wib oleh BPK setempat . Sebuah pesan berantai beredar di aplikasi pesan i
h pesan berantai beredar di aplikasi pesan instan pada Minggu ( 1 / 10 / 2017 )
ikade supaya jamaah tidak mendekat . Pesan yang beredar menyebutkan itu adalah 
eluas lokasi peristiwanya . Di dalam pesan , pengguna jalan diminta berhati - h
lan diminta berhati - hati . Ada dua pesan yang disebar . Berikut bunyi pesanny
g disebar . Berikut bunyi pesannya : Pesan kesatu : Kepada teman2 semua .. hind
wuran akan berlanjut sampai malam .. Pesan kedua : Kepada teman2s . hindari . j
akan segera di publikasikan . Sebuah pesan berisi peringatan kepada pengguna ja
rsebar melalui broadcast di aplikasi pesan instan . Dalam pesan tersebut dikata
ast di aplikasi pesan instan . Dalam pesan tersebut dikatakan Pemerintah Kota D

In [11]:
corpus.similar('pesan')


broadcast status bunga artikel hal hanya kode karawang situs
sembarangan facebook gubuk makanan atau kecelakaan bawahnya

In [18]:
corpus.common_contexts(['pesan', 'broadcast'])


dalam_itu isi_tersebut

In [19]:
# collocations is the most common bigrams
corpus.collocations()


ojek online; media sosial; daging manusia; DKI Jakarta; Sri Mulyani;
pesan berantai; Stop Line; BPBD DKI; pembuluh darah; cepat saji; Lalu
Lintas; pesan ini; semua kontak; pengemudi ojek; Bendungan Katulampa;
Cool Fever; Government Summit; Sami Khan; World Government; kramat
jati

In [21]:
from nltk.probability import FreqDist

In [25]:
fd = FreqDist(corpus)
fd['pesan']


Out[25]:
49

In [29]:
%matplotlib inline
fd.plot()