In [1]:
from gensim import corpora, models, similarities

In [108]:
documents=[]
for line in open('ghalib-concordance/output/lemma_documents.txt').readlines():
    documents.append(line.strip())

# kii should not be there
stoplist=['lenaa','honaa','karnaa','ko','jis','jo','kih','kyaa','me;n','par','to','nahii;n','kaa','har','kis','kii','nah',          'aur',
'tamaam',
'bhii',
';haalaa;nkih',
'chaahiye',
'hogaa',
'rahnaa',
'kabhii',
'tujhe',
'kisii',
'ham',
'lagnaa',
'ik',
'in',
':tara;h',
'liye',
'ne',
'kyuu;n',
'bahut',
'mat',
'yuu;n',
'so',
'magar',
'hotaa',
'pahle',
'ek',
'kahaa;n',
'ko))ii',
'yih',
'dast',
'honaaa',##### ERRROR
'jise',
'tuu',
'yaa;n',
'mai;n',
'teraa',
'haa;n',
'denaa',
'yaa',
'ab',
'ay',
'az',
'itnaa',
'tumhaaraa',
'agar',
'vale',
'kuchh',
'abhii',
'kyuu;nkar',
'lekin',
'hote',
'kab',
'hii',
'aap',
'gar',
'yihii',
'aisaa',
'us',
'un',
'vuhii',
'dekho', #### <- ERROR
'use',
'taa',
'tab',
'se',
'ho',
'jab',
'jaa',
'hotii', ##### <— ERROR
'tujh',
'vaa;n',
'varnah',
'achchhaa',
'jitnaa',
'saknaa',
'meraa',
'apnaa'
'phir',
'bah',
'pah',
'milnaa',
'phir',
'aanaa'

]


texts = [[word for word in document.lower().split() if word not in stoplist]
           for document in documents]
texts[0:5]


Out[108]:
[['ta;hriir',
  'sho;xii',
  'faryaadii',
  'naqsh',
  'kaa;ga;zii',
  'pairaahan',
  'paikar',
  'ta.sviir'],
 ['puuchhnaa',
  'tanhaa))ii',
  'kaav-kaav',
  'sa;xt-jaanii',
  'laanaa',
  'shiir',
  'juu',
  '.sub;h',
  'shaam'],
 ['be-i;xtiyaar',
  'ja;zbah',
  'dekhnaa',
  'shauq',
  'baahar',
  'siinah',
  'shamshiir',
  'shamshiir',
  'dam'],
 ['aagahii',
  'daam',
  'shuniidan',
  'qadar',
  'chaahe',
  'bichhaanaa',
  'taqriir',
  '((aalam',
  'apnaa',
  '((anqaa',
  'mudda((aa'],
 ['paa',
  'asiirii',
  ';gaalib',
  'baskih',
  'zer',
  'aatish',
  'zanjiir',
  'muu',
  'aatish-diidah',
  ';halqah']]

In [109]:
all_tokens = sum(texts, [])
tokens_once = set(word for word in set(all_tokens) if all_tokens.count(word) == 1)
texts = [[word for word in text if word not in tokens_once]
         for text in texts]

In [110]:
tokens_once # interesting...


Out[110]:
{'((a;zaab',
 '((aadat',
 '((aalam-aaraa))ii',
 '((aalam-taab',
 '((aalii-guhar',
 '((aashiqii',
 '((adaalat',
 '((aib',
 '((al;aa-al-ra;gm',
 '((alaavah',
 '((alam',
 '((aliih',
 '((amaarii',
 '((anaa.sir',
 '((anbar-baar',
 '((anbarii;n',
 '((aqiidah',
 '((arbadah-juu',
 '((arbadah-maidaa;n',
 '((ayaar',
 '((azm',
 '((i:tr',
 '((i:tr-saa',
 '((ibrat-nigaah',
 '((iimaa',
 '((inaan-guse;xtah',
 '((inaayat',
 '((ishrat-gah',
 '((ishvah',
 '((itaab',
 '((iyaadat',
 '((izz',
 '((uhdah',
 '((unvaan',
 '((uquubat',
 '((uyuub',
 '.sa;hraa-dast-gaah',
 '.sa;hraa-gard',
 '.sa;hraa-navard',
 '.saa((iqah',
 '.saaf',
 '.sabr-:talab',
 '.sad-daanah',
 '.sad-guunah',
 '.sad-hazaar',
 '.sad-jalvah',
 '.sad-na:zar',
 '.sadaf',
 '.sadmah',
 '.saf',
 '.safaa',
 '.saiyaad',
 '.sanam-kadah',
 '.sanobar',
 '.sarfah',
 '.sariir',
 '.si;h;hat',
 '.sifaat',
 '.sile',
 '.sul;h',
 '.suur',
 '.suurat-;xaanah',
 '.suvar',
 '.zarar',
 '.zaruur',
 '.zauq',
 ':ta((n',
 ':taa))uus',
 ':taali((',
 ':taalib',
 ':taaqat-rubaa',
 ':tab((',
 ':tabii((ii',
 ':tahuur',
 ':talabgaar',
 ':tama((',
 ':tannaaz',
 ':tarab-inshaa',
 ':tavaaf',
 ':tay',
 ':tayuur',
 ':tiflaan',
 ':tu((mah',
 ':turfah',
 ':tuufaan-gaah',
 ':tuufaanii',
 ':tuul',
 ':tuulaanii',
 ':tuumaar',
 ':zaahira:n',
 ':zuhuur',
 ':zuhuurii',
 ':zulmat-gustarii',
 ':zulmat-kadah',
 ';daraanaa',
 ';dhaa;npnaa',
 ';dubo',
 ';duboyaa',
 ';duubnaa',
 ';gaaliyah-mo',
 ';gaarat',
 ';gaarat-garii',
 ';gaazah',
 ';gaflat-shi((aarii',
 ';gala:t-andaaz',
 ';gala:t-bardaar',
 ';gam-;xaanah',
 ';gam-;xvaaragii',
 ';gam-gusaar',
 ';gam-gusaarii',
 ';gam-kadah',
 ';gam-naak',
 ';gammaazii',
 ';gariib',
 ';gariib-navaaz',
 ';gariibaa;n',
 ';gariibii',
 ';garqah',
 ';garrah',
 ';gayuur',
 ';gazaal',
 ';gazal-;xvaa;n',
 ';gazal-saraa',
 ';gulaam',
 ';gusl',
 ';ha:z:z',
 ';haa))il',
 ';haajaat',
 ';haajat-mand',
 ';habaab',
 ';hadii;s',
 ';hairaanii',
 ';hairat-kadah',
 ';haj',
 ';hall',
 ';hammaam',
 ';hamzah',
 ';haq-shinaas',
 ';haqq',
 ';haraam',
 ';harakat',
 ';harii.s',
 ';hasb',
 ';hasrat-sanj',
 ';hasrat-zadah',
 ';hasuud',
 ';hau.salah',
 ';hiilah',
 ';hijraa;n',
 ';hikaayaat',
 ';hikaayat',
 ';hikmat',
 ';hubaab',
 ';hujjat',
 ';hujrah',
 ';hukm',
 ';husain',
 ';husn-parastii',
 ';huuraan',
 ';saanii',
 ';sabaat',
 ';taalnaa',
 ';tapkaanaa',
 ';te;rhaa',
 ';thaanii',
 ';tuk;raa',
 ';xa:tar',
 ';xaak-andaaz',
 ';xaakistar',
 ';xaakistar-nishiinii',
 ';xaaliq',
 ';xaam',
 ';xaamah-farsaa',
 ';xaan-maan',
 ';xaan-maan-;xaraab',
 ';xaanah-;xaraabii',
 ';xaanah-aaraa))ii',
 ';xaanah-viiraan-saaz',
 ';xaanah-viiraan-saazii',
 ';xaanah-zaad',
 ';xaanaqaah',
 ';xaar-;xaar',
 ';xaaraa',
 ';xaatim',
 ';xaatir',
 ';xafaa))ii',
 ';xafaqaanii',
 ';xair',
 ';xair-baad',
 ';xajaalat',
 ';xajlat',
 ';xalal',
 ';xanjar-aazmaa',
 ';xaraabaat',
 ';xaraash',
 ';xarosh',
 ';xastah-jaa;n',
 ';xastah-tan',
 ';xatm',
 ';xayaalii',
 ';xemah',
 ';xi:t:tah',
 ';xirad',
 ';xirqah',
 ';xissat',
 ';xizaanii',
 ';xo',
 ';xudaa))ii',
 ';xudaa-parast',
 ';xudaa-saaz',
 ';xudaavand',
 ';xuftah',
 ';xum-kadah',
 ';xusrau',
 ';xusrav',
 ';xuu-gar',
 ';xuu-kardah',
 ';xuub-ruu',
 ';xuubaan',
 ';xuun-;galtiidah',
 ';xuun-;galtiidan',
 ';xuun-gashtah',
 ';xuun-naab',
 ';xuun-naabah',
 ';xuun-naabah-fishaan',
 ';xuun-naabah-fishaanii',
 ';xuun-naabah-mashrab',
 ';xuun-rez',
 ';xuun-shudah',
 ';xuuniin-navaa',
 ';xvaab-naak',
 ';xvaahishe',
 ';xvaastah',
 ';xvud-aaraa))ii',
 ';xvud-bii;n',
 ';xvud-biin',
 ';xvud-daarii',
 ';xvud-raftah',
 ';xvudaa',
 ';xvurshed',
 ';xvurshiid-jamaal',
 ';xvush-;haal',
 ';xvush-navaayaan',
 ';xvushaamad-:talab',
 ';xvushtar',
 ';zaahir',
 ';zaat',
 ';zahn',
 ';zaliil',
 ';zarii((ah',
 ';zauq-fizaa',
 ';zillat',
 ';zimmah',
 'a((.zaa',
 'a((:zam',
 'a((maar',
 'a.snaam',
 'a:tfaal',
 'a;hmaq',
 'a;ndherii',
 'a;xtar',
 'a;xtar-shumaarii',
 'aa))iinah-;xaanah',
 'aa))iinah-daarii',
 'aa))inah-;xaanah',
 'aa))inah-daar',
 'aa))inah-daarii',
 'aa))inah-pardaaz',
 'aa))iyo',
 'aa;gosh-kushaa',
 'aa;gosh-kushaa))ii',
 'aa;nsuu',
 'aa;zar-fishaa;n',
 'aab-daar',
 'aab-juu',
 'aab-ruu',
 'aabaadii',
 'aafaaq',
 'aafiriinish',
 'aaftaab-parast',
 'aahan',
 'aalaat',
 'aaluudah',
 'aamad-aamad',
 'aaramiidagii',
 'aare',
 'aarzuu)',
 'aarzuu-;xiraamii',
 'aas',
 'aasaa))ish',
 'aashnaa))ii',
 'aashtii',
 'aashuftah-navaa',
 'aasmaanii',
 'aastiin',
 'aatish-afshaanii',
 'aatish-baar',
 'aatish-diidah',
 'aatish-nafas',
 'aatish-parast',
 'aatishiin',
 'aavaarah',
 'aazaadah',
 'aazurdagii',
 'abnaa',
 'abruu',
 'adab',
 'afgaar',
 'afsaanah',
 'afshardah',
 'afshurdan',
 'afsuun',
 'afsuus',
 'afzaa))ish',
 'aham',
 'akbar',
 'al-amaan',
 'amaa;n',
 'amn',
 'anaa-al-ba;hr',
 'andoh-rubaa',
 'angabiin',
 'angez',
 'anguur',
 'anjaam',
 'anjum',
 'armaan',
 'armu;gaa;n',
 'arzaa;n',
 'asaamii',
 'ashyaa',
 'au.zaa((',
 'auraaq',
 'aurang',
 'ayaa;g',
 'ayyaam',
 'az-baskih',
 'az-dast-raftah',
 'azal',
 'ba((iid',
 'ba:t',
 'ba;gal',
 'ba;xsh',
 'baa))i;s',
 'baa-ham-digar',
 'baa-vujuud',
 'baa:til',
 'baa:tin',
 'baa;g-baanii',
 'baa;ndhaa',
 'baa;ng',
 'baa;xtan',
 'baad-pemaa))ii',
 'baadah-;xvaar',
 'baadah-aashaamii',
 'baadbaan',
 'baag',
 'baajaa',
 'baalii',
 'baam',
 'baanii',
 'baarbud',
 'baarish',
 'baavar',
 'baavujuud',
 'baaz-gasht',
 'baaziichah',
 'bachchaa',
 'bad-((ahdii',
 'bad-;xvaah',
 'bad-aamozii',
 'bad-mast',
 'bad-mastii',
 'bad-naam',
 'bad-tar',
 'badaa',
 'badalnaa',
 'badr',
 'bah-;zarrah',
 'bahaa))ii',
 'bahaadur',
 'bahman',
 'bahnaa',
 'bahraa',
 'bai.zah-aasaa',
 'baidaa',
 'bairuun',
 'baknaa',
 'bal;gamii',
 'banaat-ul-na((sh',
 'bandah-parvar',
 'baqaa',
 'bar-;xvurdaar',
 'bar-paa',
 'bar-ruu',
 'bar-sabiil',
 'baraa))e',
 'baraat',
 'barahnagii',
 'barasnaa',
 'bard',
 'barhaman',
 'bariin',
 'barjaa-maa;ndah',
 'barq-;xiraam',
 'barsh-kaal',
 'barshkaal',
 'bastii',
 'be-((ishq',
 'be-.sadaa',
 'be-.sarfah',
 'be-:talab',
 'be-;haa.sil',
 'be-;hau.salagii',
 'be-;hau.slagii',
 'be-;hijaabii',
 'be-;his',
 'be-;xabar',
 'be-;xarosh',
 'be-;xuun',
 'be-;xvaab',
 'be-;xvaabii',
 'be-;xvud',
 'be-aabruu',
 'be-adab',
 'be-ayyaam',
 'be-baak',
 'be-bahrah',
 'be-bunyaad',
 'be-chain',
 'be-daad-fan',
 'be-daad-gar',
 'be-dard',
 'be-darvaazah',
 'be-davaa',
 'be-dil',
 'be-dilii',
 'be-dimaa;g',
 'be-dimaa;gii',
 'be-gah',
 'be-girah',
 'be-gunah',
 'be-gunah-kush',
 'be-havaa',
 'be-i((tidaalii',
 'be-iltifaatii',
 'be-jurm',
 'be-ka;saafat',
 'be-kaar',
 'be-kaarii',
 'be-kafan',
 'be-karaan',
 'be-mai',
 'be-mazaa',
 'be-minnat',
 'be-mudda((aa',
 'be-nang',
 'be-panaah',
 'be-par',
 'be-pardah',
 'be-partav',
 'be-rab:tii',
 'be-savaal',
 'be-shaanah',
 'be-sham((a',
 'be-sharaab',
 'be-shiiraazah',
 'bebaakii',
 'bed',
 'bedaar',
 'begaanah',
 'berab:tii',
 'bhaa))ii',
 'bharam',
 'bho;n',
 'bhuukaa',
 'bichhaanaa',
 'bihisht-shamaa))il',
 'biimaarii',
 'biinaa))ii',
 'bikharnaa',
 'biknaa',
 'bo',
 'bojh',
 'bole',
 'boriyaa',
 'bos',
 'bote',
 'bove',
 'bu((d',
 'bujhaanaa',
 'burdah',
 'burdan',
 'burrish',
 'bustaanii',
 'but-kadah',
 'but-shikanii',
 'buu-turaab',
 'buu;nd',
 'buzurg',
 'cha;rh',
 'cha;rhnaa',
 'cha;taknaa',
 'chaah',
 'chaahne-vaalaa',
 'chaaho',
 'chaalaak',
 'chaar-duham',
 'chaar-mauj',
 'chaarah-gar',
 'chaarah-juu))ii',
 'chaarah-saaz',
 'chaarah-saazii',
 'chain',
 'chakiidan',
 'chakkar',
 'chaman-:taraazii',
 'chande',
 'chashm-numaa))ii',
 'chashmak',
 'chhallaa',
 'chhidnaa',
 'chho;re;nge',
 'chhupnaa',
 'chhurii',
 'chii;xnaa',
 'chiin',
 'chiirnaa',
 'chipaknaa',
 'chor',
 'chorii',
 'chubho',
 "chun'naa",
 'churaanaa',
 'da((vah',
 'daa))im-ul-;habs',
 'daa;g-saamaan',
 'daa;nt',
 'daad-;xvaah',
 'daadah',
 'daam-gaah',
 'daaman-afshaanii',
 'daar',
 'daaraab',
 'daastaan',
 'daf((',
 'dafiinah',
 'dafn',
 'dai',
 'dair',
 'dallaal',
 'dar-;xvar',
 'dar-havaa',
 'dar-kaar',
 'dar-maa;ndagii',
 'dar-pa',
 'dar-pardah',
 'dar-qafaa',
 'dar-tishnagii-murdah',
 'dara;xshaan',
 'daraaz-dastii',
 'daraazii',
 'darbaanii',
 'dard-mand',
 'dare;gaa',
 'darmaa;ndagii',
 'daruun',
 'darvaazah',
 'daryaa-aashnaa',
 'dast-gaah',
 'dast-gardaan',
 'dast-giirii',
 'dastaar',
 'dau;raanaa',
 'daulat',
 'davaam',
 'dhabbah',
 'dhamkii',
 'dhaul-dhappaa',
 'dhoke',
 'dhotaa',
 'dhuvaan',
 'dii',
 'diidaar-jo',
 'diijiyo',
 'diin-daar',
 'diivaan',
 'diivaar-juu',
 'dijlah',
 'dikhaa))ii',
 'dikhlaavnaa',
 'dil-aashuftagaan',
 'dil-aazaar',
 'dil-aazurdagaan',
 'dil-barii',
 'dil-bastagii',
 'dil-daar',
 'dil-furoz',
 'dil-jam((ii',
 'dil-kash',
 'dil-kushaa',
 'dil-pa;ziir',
 'dil-sitaan',
 'dil-sitaanii',
 'dilaanaa',
 'dilbar',
 'dilbaraan',
 'dillii',
 'diyaar',
 'do-((aalam-dasht',
 'do-dam',
 'do-niim',
 'doshiinah',
 'dost-daar',
 'dost-daarii',
 'dukaan',
 'dukhnaa',
 'durd',
 'durdii-kash',
 'dushnaam',
 'dushvaar-pasand',
 'dushvaarii',
 'duu))ii',
 'duunaa',
 'duur-daraaz',
 'duurii',
 'ek-saa',
 'fa.zaa',
 'faanuus',
 'faaqah-mastii',
 'faarsii',
 'fanaa-ta((liim',
 'faqa:t',
 'faqiir',
 'far.z',
 'faraaz',
 'fardaa',
 'fariiduun',
 'farmaa))o',
 'farmaan-ravaa',
 'farmaanaa',
 'faro',
 'farqat',
 'fasaad',
 'fasaan',
 'fasaanah-;xvaanii',
 'fashaar',
 'fat;h',
 'fatiilah',
 'faujdaarii',
 'faut',
 'fi;gaa;n',
 'fidaa',
 'firdaus',
 'fishaar',
 'fitnah-;xuu',
 'fitraak',
 'fu.zuul',
 'furozaan',
 'furuu((',
 'fusurdagii',
 'fusuun',
 'fusuun-gar',
 'ga;nvaanaa',
 'gaa;rho',
 'gah',
 'gahvaarah-junbaanii',
 'ganj',
 'ganjifah-baaz',
 'garebaanii',
 'garm-baazaar',
 'gauhar-farosh',
 'gaz',
 'gesuu',
 'ghaas',
 'ghabraana',
 'giiraa))ii',
 'gil',
 'giraan-baarii',
 'giraan-maayagii',
 'giraan-maayah',
 'giraan-nishiin',
 'giraanii',
 'girah-kushaa',
 'gird-baad',
 'girdaab',
 'giyaah',
 'gomago',
 'goshe',
 'gosht',
 'gudaa;xtah',
 'guftago',
 'guftah',
 'guftguu',
 'guhar-baar',
 'gul-afshaanii',
 'gul-baaz',
 'gul-dastah',
 'gul-faam',
 'gul-katar',
 'gulbaa;ng',
 'guldastah',
 'gulfaam',
 'guluu',
 'gum-gashtah',
 'gunaahgaar',
 'gunbad',
 'gurez-paa',
 'guunah',
 'guzashtah',
 'hadaf',
 'hadyah',
 'haft',
 'haihaat',
 'hajr',
 'hal-min-maziid',
 'ham-:tar;hii',
 'ham-damii',
 'ham-diigar',
 'ham-mashrab',
 'ham-naamii',
 'ham-nafas',
 'ham-nishiin',
 'ham-peshah',
 'ham-raah',
 'ham-raaz',
 'hamvaar',
 'hangaamah-aaraa',
 'harzah',
 'hath-ka;n;daa',
 'haul',
 'havaa-;xvaah',
 'havaa-;xvaahii',
 'hech-madaanii',
 'hilaal',
 'hilnaa',
 'hinduustaan',
 'ho;ngii',
 'hogii',
 'hoshyaarii',
 'humaa',
 'hushyaar',
 'hushyaarii',
 'huujiyo',
 'huujo',
 'i((tidaal',
 'i((tiqaad',
 'i;htiyaa:t',
 'i;xfaa',
 'i;xlaa.s',
 'i;xtilaa:t',
 'i;xtiraa((',
 'ibn',
 'ibraam',
 'ihtizaaz',
 'iin',
 'ijaabat',
 'ijaaraa',
 'ikraam',
 'il;aahii',
 'iltihaab',
 'iltijaa',
 'imtiyaaz',
 'in.saaf',
 'infa((aal',
 'infi((aal',
 'inkaar',
 'inti.zaar',
 'inti:zaam',
 'inti;xaab',
 'intiqaam',
 'iqaamat',
 'iqbaal',
 'iram',
 'ishaaraa',
 'ishaarat',
 'ishtiyaaq-angez',
 'itne',
 'ittifaaqii',
 'jaa))iyo',
 'jaa))oge',
 'jaa;n',
 'jaadaad',
 'jaagiir',
 'jaagnaa',
 'jaah',
 'jaan-daadah',
 'jaan-fizaa',
 'jaan-gudaazii',
 'jaan-gusil',
 'jaan-kaahii',
 'jaan-sipaarii',
 'jaan-sitaan',
 'jaan-sitaan-tar',
 'jaano',
 'jaavidaan',
 'jaavidaanii',
 'jalaanaa',
 'jalvah-farmaa))ii',
 'jalvah-gaah',
 'jalvah-gar',
 'jalvah-numaa',
 'jalvah-rezii',
 'jalvah-zaar',
 'jalvat',
 'jam((iyyat',
 'jamshed',
 'janaab',
 'jangal',
 'javaan-marg',
 'javvaalah',
 'jazaa',
 'jhaa;rnaa',
 'jhaga;rnaa',
 'jhuu;t',
 'jigar-;xaraash',
 'jigar-daarii',
 'jinnat',
 'jism',
 'jitnii',
 'jor',
 'judaa))ii',
 'junuun-((alaamat',
 'junuun-jaulaan',
 'jur))at-aazmaa',
 'jurm',
 'just-juu',
 'juu))ibaar',
 'ka;raa',
 'ka;srat-aaraa))ii',
 'kaa))ii',
 'kaa))inaat',
 'kaa;ga.z',
 'kaa;ga;zii',
 'kaa;n;taa',
 'kaa;tnaa',
 'kaaf',
 'kaafii',
 'kaalbud',
 'kaamil',
 'kaamyaab',
 'kaar-gaah',
 'kaar-gar',
 'kaav-kaav',
 'kabaab',
 'kafiil',
 'kahaar',
 'kai;xusrav',
 'kaifiiyat',
 'kaifiyyat',
 'kaimuus',
 'kalejaa',
 'kaliisaa',
 'kam-aazaar',
 'kam;xvaab',
 'kamand',
 'kandhaa',
 'kap;rah',
 'karishmah',
 'karo;r',
 'karoge',
 'kasb',
 'kashash',
 'kasnaa',
 'kaukabah',
 'kavaakib-sipah',
 'kesh',
 'khaa))iyo',
 'khapaanaa',
 'kharaa',
 'khe;ncho',
 'khet',
 'kho',
 'kho))e',
 'khonaa',
 'khujaanaa',
 'kinaar',
 'kirishmah',
 'kishtii',
 'kishvar',
 'kisuu',
 'kisvat',
 'ko;nd',
 'korii',
 'kos',
 'koshish',
 'kufr',
 'kujaa',
 'kul',
 'kulah',
 'kungur',
 'kunisht',
 'kurednaa',
 'kushaadah',
 'kushaayish',
 'kushuudah',
 'kuudakii',
 'kuuzah',
 'la))iim',
 'la:taafat',
 'la:tmah',
 'la;h:zah',
 'la;rakpan',
 'la;rkaa',
 'la;xt-la;xt',
 'la;z;zat-yaab',
 'laa))iq',
 'laa;gar',
 'laaf',
 'laal',
 'laalah-zaar',
 'laam',
 'laash',
 'lab-tishnah',
 'lagaava;t',
 'lagaavnaa',
 'lagan',
 'lahnaa',
 'lai',
 'lakad-kob',
 'lakhna))uu',
 'lakiir',
 'laraznnaa',
 'lashkar',
 'lat',
 'lau;h',
 'liijo',
 'liyaalii',
 'lu;taanaa',
 'lu;ttnaa',
 'ma((;zuur',
 'ma((aanii',
 'ma((aash',
 'ma((dan',
 'ma((muure',
 'ma((ri.z',
 'ma((shuuq-farebii',
 'ma((shuuqii',
 'ma((zuulii',
 'ma-aal',
 'ma.sla;hat',
 'ma:tlaq',
 'ma:tluub',
 'ma;gfarat',
 'ma;hmil',
 'ma;hram',
 'ma;hramii',
 'ma;hsharistaan',
 'ma;zkuur',
 'maa',
 'maa))idah',
 'maa;ndagii',
 'maafaat',
 'maah-ru;x',
 'maajraa',
 'maanii',
 'maatam-;xaanah',
 'madfan',
 'madrasah',
 'magas',
 'mah-:tal((at',
 'mahiinah',
 'mahjuur',
 'mahshar',
 'mai-kash',
 'mai-parast',
 'mai-parastii',
 'majaal',
 'majbuur',
 'majbuurii',
 'majlis-furoz',
 'majmuu((ah',
 'majruu;h',
 'makiin',
 'mala;x',
 'malak-ul-maut',
 'malnaa',
 'man.sab',
 'man.suur',
 'mansuub',
 'maq:ta((',
 'maqbuul',
 'maqtal',
 'mar;guub',
 'mar;siyah',
 'mara.z',
 'mard-afgan',
 'mardaanah',
 'mardumak',
 'marhuun',
 'marii.z',
 'martabah',
 'maryam',
 'masaa))il',
 'mash;guul',
 'mashhad',
 'mashhuud',
 'mashhuur',
 'masjuud',
 'mastaanah',
 ...}

In [111]:
print(texts[0:5])


[['ta;hriir', 'sho;xii', 'faryaadii', 'naqsh', 'pairaahan', 'paikar', 'ta.sviir'], ['puuchhnaa', 'tanhaa))ii', 'laanaa', 'juu', '.sub;h', 'shaam'], ['be-i;xtiyaar', 'ja;zbah', 'dekhnaa', 'shauq', 'baahar', 'siinah', 'shamshiir', 'shamshiir', 'dam'], ['aagahii', 'daam', 'qadar', 'chaahe', 'taqriir', '((aalam', 'apnaa', '((anqaa', 'mudda((aa'], ['paa', 'asiirii', ';gaalib', 'baskih', 'zer', 'aatish', 'zanjiir', 'muu', ';halqah']]

In [112]:
s=set(word for word in set(all_tokens))

In [113]:
for x in s:
    count = all_tokens.count(x)
    if count>5:
        print "'"+x+"',"


';xi.zr',
'pasand',
'mur;g',
'aasaan',
'maarnaa',
'.su;hbat',
'saadagii',
'.sub;h',
'dahr',
'pairaahan',
'nikalnaa',
'jalvah',
';xayaal',
'su;xan',
'giryah',
'jauhar',
'((ishq',
';zarrah',
'kahnaa',
'bahaar',
'qadam',
'lab',
'qadar',
';xas',
'((ahd',
';gaalib',
'lail;aa',
'namak',
'ban'naa',
'sailaab',
'inti:zaar',
'band',
'pursish',
'garebaan',
'sharaab',
'aa))iinah',
'ka((bah',
'gulistaan',
'la;z;zat',
'jaadah',
';gair',
'aavaaz',
'baadah',
'har-chand',
'rang',
'fa.sl',
'ranj',
'ruknaa',
'rag',
'rab',
'rah',
'dimaa;g',
'sunaanaa',
'bhaagnaa',
';xaamah',
'zabaan',
'buraa',
'havaa',
'suu',
'imti;haan',
'havas',
'hangaamah',
'do',
'raftaar',
'phirnaa',
'bas',
'chhe;rnaa',
'aa;xir',
'vidaa((',
'mu;nh',
'jalnaa',
'ma;hv',
'chiraa;ga',
'sair',
'zindagii',
';hariif',
'gulshan',
';xaanah',
'firaaq',
'yaad',
'muqaabil',
';xudaa',
'piinaa',
':zaahir',
'tang',
'laalah',
'yuusuf',
'rauzan',
'rahii',
'kaash',
'ta.savvur',
'shikvah',
'te;g',
'josh',
'hay',
';gam',
'fareb',
'naa;xun',
'shabnam',
'kholnaa',
'zindaan',
'((aish',
'((aduu',
'paanaa',
'qafas',
';xuu',
'ghabraanaa',
'ahl',
'faryaad',
'vaqt',
'ghar',
'soz',
'aarzuu',
'bazm',
'kuuchah',
'bulbul',
'ba;gair',
'siinah',
'shor',
'davaa',
'saa;gar',
'baa;ndhnaa',
'rusvaa',
'lahuu',
'naamah-bar',
'dil',
'din',
'.suurat',
'gul',
'haath',
'salaamat',
';haqiiqat',
'aastaan',
'lu:tf',
';haal',
';xiraam',
'qiyaamat',
'kahii;n',
'partav',
'aazaar',
'aadmii',
'mai',
'mah',
';haa.sil',
'va((dah',
'char;x',
'bisaa:t',
'jii',
'dikhaanaa',
'hanuuz',
'puuchhnaa',
'tavaqqu((',
'laanaa',
'((ar.z',
'gardish',
'bayaan',
'surmah',
'paidaa',
'chaak',
'sitamgar',
'aashnaa',
';xam',
'chalnaa',
'tamaashaa',
'.sad',
':zaalim',
'dashnah',
'javaab',
'ajzaa',
'sham((a',
'tasallii',
'naqaab',
'daryaa',
'qadr',
'duur',
'duud',
'junuun',
'sab',
'sun'naa',
'sar',
';gunchah',
'((adam',
';halqah',
'qasam',
'zamaanah',
';xaar',
'daad',
'daam',
'ru;x',
';hairat',
'bai;thnaa',
'jaan',
'maah',
'u;rnaa',
'vuh',
'tum',
';xandah',
'qatl',
'marg',
'qaatil',
'baal',
'bekasii',
';gamzah',
'baad',
'sho;xii',
';zauq',
'((ajz',
'dunyaa',
'raqiib',
'saath',
';husn',
'paa',
'na:zar',
'taskiin',
'kaam',
'muu',
'baskih',
'takalluf',
'maan'naa',
'na:z:zaarah',
'dard',
'nigaah',
'rusvaa))ii',
'fanaa',
'naam',
'mi;tnaa',
'ma:tlab',
'naaz',
';xaraab',
'vaa))e',
'vahm',
'((aziiz',
';darnaa',
'asad',
'.zu((f',
'karam',
'gard',
'ma((luum',
'samjhnaa',
';xvaab',
'jigar',
'yak',
'gardan',
'jafaa',
'juz',
'.sa;hraa',
'dekhnaa',
':tarz',
'dasht',
'shauq',
'naalah',
'mast',
'bhalaa',
'adaa',
'taab',
'maana((',
'mai-;xaanah',
'taa;siir',
'roz',
'sang',
'go',
'tez',
'sivaa',
'nang',
'abr',
'tiir',
'nairang',
'mauj',
'dandaan',
'daa;g',
'gosh',
';hinaa',
'ronaa',
'bajaa',
'sharm',
'aatish',
'diidah',
';xa:t',
'gumaan',
'umiid',
'rakhnaa',
'giriftaar',
'baar',
'diivaar',
'baat',
'mataa((',
'kal',
'bhar',
'rashk',
'va;hshat',
'pardah',
'jiinaa',
'paa;nv',
';xuun',
';xuub',
'bedaad',
'((aalam',
'pa;rnaa',
'pinhaan',
';xaa:tir',
'muddat',
'jeb',
';daalnaa',
'girnaa',
'aazmaa))ish',
'aag',
'aasmaan',
'kaafir',
'aab',
'aah',
'aaj',
'qa:trah',
'((aashiq',
'judaa',
'kaf',
'majnuun',
'kah',
'kam',
';xvurshiid',
'raah',
'goyaa',
'yaar',
'raaz',
'raat',
'.sabaa',
'aage',
'qismat',
'pareshaan',
';hisaab',
'khe;nchnaa',
'aa;gosh',
'barq',
'sahii',
'shikaayat',
'lagaanaa',
'khaanaa',
'chashm',
'bistar',
'miinaa',
'himmat',
'sabzah',
'qada;h',
'jaanaa',
'sitam',
'u;thaanaa',
'shab',
'zulf',
'((umr',
'haa))e',
'ta;gaaful',
'tamannaa',
'bin',
'saaz',
'bosah',
'sho;x',
'khulnaa',
'ruu',
'bhuulnaa',
'dushman',
';haif',
'ba((d',
'chaahnaa',
';xaak',
';hairaa;n',
'jahaan',
'shikast',
'du((aa',
'maa;ngnaa',
'tark',
'qaid',
'aavnaa',
'kushtah',
'mu;habbat',
'gilah',
'samajhnaa',
'na;gmah',
'jaise',
'tangii',
'man:zuur',
'andaaz',
'a;sar',
'be-;xvudii',
'mizhah',
'u;thnaa',
';gaafil',
'ra;hm',
';hasrat',
'naqsh',
'ya((nii',
'hujuum',
'zamiin',
'vafaa',
'nashaa:t',
'nihaan',
';xaamoshii',
'mazah',
'nafas',
'vaah',
'fur.sat',
'bayaabaan',
'aa;nkh',
'ashk',
'mubaarak',
'tar',
'tan',
'tak',
';xalq',
'talak',
'sham((',
'garchih',
'nigah',
'garm',
'chho;rnaa',
'aamad',
'dam',
'.sadaa',
'dar',
'saaqii',
';xabar',
'kaun',
'baaqii',
'aa))inah',
';xvush',
'paas',
':taaqat',
'saamaan',
'mi;sl',
';haq',
'jaam',
'taqaa.zaa',
'furo;g',
'biimaar',
'fitnah',
'shu((lah',
'da((v;aa',
'shaah',
'hamaaraa',
'guzarnaa',
'shiishah',
'kaho',
'sarv',
'baazaar',
'rishtah',
'garmii',
'chaman',
'be-taab',
';xvud',
'falak',
'bharnaa',
'za;xm',
'dost',
'taar',
'saayah',
'ulfat',
'baare',
';zikr',
'va.sl',
'baa;g',
'kashmakash',
'daaman',
'mudda((aa',
';xanjar',
'mizhgaan',
'diidaar',
'mihr',
'gauhar',
'vah',
'vaa',
';hayaa',
'apnaa',
'but',
'buu',
'hastii',
'marnaa',
'jaan'naa',
'mushkil',
'vagarnah',
'balaa',
'zanjiir',
'log',
'ma;hfil',
'likhnaa',
'chiraa;g',

In [101]:
dictionary = corpora.Dictionary(texts)

In [102]:
dictionary.save('tmp/ghalib.dict')

In [103]:
print(dictionary)


Dictionary(1511 unique tokens: [u';xi.zr', u'jihat', u'jam((', u'be-zabaanii', u'((umr']...)

In [104]:
print(dictionary.token2id)


{u';xi.zr': 1076, u'jihat': 824, u'jam((': 687, u'be-zabaanii': 629, u'((umr': 714, u'((aalii': 1426, u'maktab': 74, u'pasand': 214, u'pa;rhnaa': 672, u'mur;g': 1095, u'bijlii': 779, u'auj': 1179, u'baaliin': 936, u'suud': 68, u'maatam': 462, u'dandaan-numaa': 1413, u'jam((a': 663, u'sa:tvat': 274, u'aasaan': 178, u';hu.zuur': 1007, u'((arsh': 429, u'maarnaa': 627, u'vaas:tah': 405, u'idhar': 574, u'dil-farebii': 1432, u'rafuu': 1466, u'kuu': 1239, u'va;hshii': 778, u'arzaanii': 992, u'mu;xta.sar': 639, u'.sub;h': 7, u'dahr': 229, u':ta((nah': 1172, u'ravish': 1506, u'mashq': 1058, u'ma.zmuun': 707, u'ugnaa': 293, u'nikalnaa': 156, u'jalvah': 201, u';xayaal': 63, u'hamah': 794, u'ma((aa.sii': 804, u'su;xan': 731, u'((aari.z': 1491, u'tadbiir': 822, u'maq.sad': 1002, u'baadah-noshii': 1418, u'jauhar': 144, u';xa:taa': 816, u';xastagii': 1475, u'numaayaan': 1286, u'naa-kaam': 1484, u'dikhlaana': 878, u'((ishq': 90, u';zarrah': 443, u'dushmanii': 1391, u'gurezaan': 758, u';zarre': 695, u'raa.zii': 245, u'bahaar': 146, u'mu((taqid': 800, u'farsh': 431, u'batlaa))o': 887, u'((ilaaj': 966, u'nii;nd': 1211, u'dho': 1349, u'.sahbaa': 979, u'reshah': 273, u'kahyo': 1369, u'qadam': 315, u'lab': 176, u'qadar': 28, u'kha;raa': 788, u'zangaar': 889, u'iqliim': 1028, u';xas': 565, u'miir': 786, u'darbaan': 289, u'suruur': 1398, u'yaaraan': 1257, u'((ahd': 535, u';gaalib': 30, u'iimaan': 1084, u'lail;aa': 507, u'namak': 119, u'((u;zr': 411, u"ban'naa": 542, u'sailaab': 417, u'gavaaraa': 1196, u'tamaashaa))ii': 1480, u're;xtah': 791, u'((alii': 1240, u'i;sbaat': 1253, u'inti:zaar': 453, u'idraak': 935, u'band': 402, u'pursish': 947, u'fai.z': 219, u'qaraar': 1238, u'sharaar': 548, u'garebaan': 502, u'((iis;aa': 259, u'dharnaa': 719, u'sharaab': 908, u'ulfa:t': 1264, u'nekii': 1387, u'aa))iinah': 223, u'ka((bah': 595, u'aahuu': 613, u'gulistaan': 490, u'la;z;zat': 175, u'rusuum': 84, u're': 1347, u';gair': 301, u'ham-su;xan': 1371, u'ro': 1447, u'gor': 297, u'durust': 59, u'jur))at': 767, u'daanah': 268, u';xa:t:t': 690, u'mushkiin': 1401, u'daanaa': 659, u'aavaaz': 1040, u'jigar-tishnah': 763, u'baadah': 346, u'har-chand': 1004, u';xvaarii': 1396, u"maan'naa": 530, u'diivaar': 478, u'nashv': 919, u'ranj': 777, u'goshah': 348, u'kamiin': 1138, u'be-zaar': 1407, u';xaanah-viiraanii': 1301, u'rasaa': 911, u'nashtar': 373, u'sa((ii': 973, u'be-takalluf': 641, u':tuur': 1019, u'tuhmat': 1050, u'.sarf': 649, u'ruknaa': 670, u'piir': 1065, u'hangaam': 1379, u'dono;n': 708, u'rag': 545, u'rab': 165, u'rah': 815, u'dimaa;g': 571, u'((aafiyat': 836, u'vi.saal': 532, u'sunaanaa': 1325, u'faari;g': 1071, u'bhaagnaa': 528, u"vaj'h": 234, u';xaamah': 847, u'parvaanah': 877, u'kyuu;nkih': 1323, u'sharar-baar': 1008, u'khod': 1404, u'musht': 1165, u'zabaan': 633, u'za;hmat': 895, u'bayaabaan-navard': 207, u'saamne': 1273, u'be-qaraarii': 1389, u'tajallii': 1020, u';xvaahish': 1237, u'guzar': 766, u'buraa': 552, u'havaa': 226, u'jaraa;hat': 46, u'abr': 407, u'imti;haan': 650, u'havas': 557, u'kulfat': 680, u'badan': 1397, u'do': 523, u'sa((y': 517, u'mu:trib': 1190, u'paarsaa))ii': 617, u'raftaar': 316, u'phirnaa': 1023, u'bas': 954, u'chhe;rnaa': 1176, u'taa;xiir': 770, u'bad': 1303, u'te;g': 470, u'baa': 1200, u'aa;xir': 658, u'bashar': 1358, u'aadam': 1206, u'.saa;hib': 813, u'besh': 744, u'piyaalah': 1281, u'tamhiid': 1386, u'vidaa((': 986, u'ruu;h': 915, u';gala:t': 589, u'jalnaa': 125, u'ma;hv': 425, u'sail': 458, u':taaq': 261, u'chiraa;ga': 147, u'sair': 228, u'zindagii': 194, u'jamaal': 1142, u'likhvaanaa': 1509, u';hariif': 236, u'be-;hijaab': 1227, u'shiiriin': 667, u'bose': 1320, u'falak': 688, u'naa-umiidii': 795, u'ba;ndhnaa': 536, u'gulshan': 960, u'.sabr': 1500, u'naumed': 1201, u'qumrii': 961, u'zamzam': 1479, u'sub;hah': 216, u'yaas': 705, u';xaanah': 438, u'shaadii': 1275, u'firaaq': 682, u'yaad': 135, u';haram': 1309, u';xudaa': 717, u'aaraam': 981, u'piinaa': 842, u'hijr': 1266, u'zuhd': 1440, u'nargis': 978, u':zaahir': 57, u'asiirii': 33, u';xuun-chakaa;n': 848, u'naa-tavaanii': 260, u'((anqaa': 22, u'mu.siibat': 1412, u'gulzaar': 1252, u'tang': 713, u'jallaad': 1041, u'laalah': 724, u'qiblah': 1150, u'((inaan-giir': 410, u'yuusuf': 300, u'tanhaa))ii': 12, u'rauzan': 1049, u'hunar': 859, u';thahrnaa': 1365, u'hone': 718, u'sazaa': 1283, u'ma;hruumii': 256, u'rahii': 653, u'kaisaa': 390, u':taraavat': 1103, u'kaash': 716, u'vaa-bastah': 1495, u'ra;hmat': 876, u'ta.savvur': 918, u'jaaved': 221, u'naa-sazaa': 1505, u'itraanaa': 1474, u'nihaanii': 1437, u'shikvah': 631, u'almaas': 41, u'guzaaraa': 1069, u'safiinah': 1218, u'((araq': 749, u'pardah-daarii': 1394, u'ha;nsnaa': 845, u'talvaar': 1011, u'fareb': 369, u'josh': 349, u'hay': 1099, u':tiflaa;n': 1373, u';gam': 70, u'raqiib': 159, u'ri.zvaan': 264, u'ziyaadah': 1280, u'naa;xun': 352, u';hayaat': 1313, u'i;hsaan': 861, u'.zid': 1344, u'shabnam': 1022, u'libaas': 77, u'kholnaa': 706, u'zindaan': 208, u'((aish': 677, u'shi((r': 955, u'((aduu': 733, u'be-taabii': 1381, u'ta.sviir': 5, u';gala:tii': 761, u'mi;tnaa': 630, u'paanaa': 89, u'bahr': 1376, u'kotaahii': 1291, u'to;r': 538, u'((ajab': 209, u'chupnaa': 950, u'saraab': 469, u';xum': 1378, u';xushk': 793, u'qafas': 1097, u'bar-ham': 1131, u';xuu': 1209, u'i.z:tiraab': 674, u'ghabraanaa': 880, u'daur': 1213, u'dukh': 340, u'puuchhnaa': 10, u'ma.zaamiin': 1278, u'zunnaar': 1015, u'rakhyo': 362, u'soz': 128, u'aarzuu': 151, u';xisht': 1307, u'raftah': 943, u';had': 518, u'mar;habaa': 1272, u'mahtaab': 645, u'fa.sl': 921, u'laf:z': 230, u':talab': 1120, u'bazm': 167, u'pesh': 192, u'kuuchah': 768, u'diigar': 959, u'daabnaa': 1345, u'naamah': 399, u'zabaanii': 1111, u'raho': 1061, u'rahn': 325, u'saa))il': 703, u'nabard': 189, u'qudrat': 1267, u'javaahir': 1269, u'gul;xan': 1054, u'ba;gair': 81, u'((ibaarat': 586, u'ishaarah': 975, u'gunjaa))ish': 1162, u';gubaar': 736, u'be-a;sar': 96, u'vahm': 870, u'sote': 304, u'patthar': 1063, u'ta((ajjub': 1262, u'saraapaa-naaz': 559, u'bulaanaa': 1169, u'naved': 991, u'tim;saal': 839, u'gul-farosh': 1073, u'javaanii': 1433, u'madaar': 291, u'juuyaa': 1342, u'.sad-rang': 488, u'shor': 120, u'kha;taknaa': 190, u';than;daa': 781, u'davaa': 93, u';hijr': 644, u'vabaal': 1135, u'baa;ndhnaa': 524, u'dil-lagii': 1306, u'bai;thnaa': 684, u'rusvaa': 554, u'aazmaanaa': 664, u'.sub;h-dam': 1463, u'lahuu': 306, u'jaa))o': 1177, u'naamah-bar': 400, u'qaamat': 1207, u'mauquuf': 1055, u'man:zuur': 841, u'dil': 72, u'nishaan': 1034, u'din': 452, u'.suurat': 281, u'.sar.sar': 1482, u'naa-;xvush': 1070, u'gum': 86, u'gul': 170, u'gul-chiin': 1251, u'haath': 371, u'qaa.sid': 817, u'buud': 71, u'si;hr': 1219, u'aazmaa))ish': 1499, u'ta;hriir': 6, u'salaamat': 932, u';haqiiqat': 1052, u'kaakul': 240, u'dihqaan': 285, u'jhuknaa': 1163, u'faryaadii': 0, u'mu((aamilah': 1334, u'aastaan': 853, u'be-raunaqii': 1353, u'daliil': 1455, u'lu:tf': 1186, u'na:zaarah': 335, u'iijaad': 1128, u'nadiim': 1230, u'payaam': 948, u'iltifaat': 1006, u'na((sh': 466, u'nishaanii': 929, u';haal': 113, u'qaabil': 819, u'aab-giinah': 1422, u'ummiid': 704, u'manzil': 1429, u'justajuu': 1346, u'bad-gumaanii': 750, u';xvushii': 533, u'fikr': 729, u'savaal': 1421, u'diivaaro': 1154, u'nishaa:t': 558, u'batlaanaa': 773, u'mukarrar': 802, u'aafat': 837, u'rab:t': 1384, u'qiyaamat': 308, u';xvud-aaraa': 869, u'za;xmii': 1385, u'kahii;n': 302, u'((ishrat': 484, u'partav': 280, u'qa.zaa': 760, u'afsos': 323, u'sitam-gar': 1091, u'aazaar': 952, u';tapknaa': 476, u'aadmii': 473, u'aazaad': 211, u'qar.z': 353, u'but-;xaanah': 1132, u'mai': 249, u'mah': 643, u'ghisnaa': 855, u'utarnaa': 1431, u'kau;sar': 1221, u'gulsitaan': 1467, u';hau.slah': 1390, u'banaa))o': 1217, u':zarf': 328, u'girah': 351, u';gazal-;xvaanii': 1471, u'chuknaa': 1297, u'shakl': 1328, u';haa.sil': 322, u'va((dah': 255, u'jin': 927, u'char;x': 1107, u'bisaa:t': 347, u'jii': 661, u'((ushshaaq': 1408, u'dikhaanaa': 148, u'sabaq': 75, u'naa-kaamii': 1494, u'hanuuz': 73, u'shoriidah': 1430, u'ahl': 153, u'tavaqqu((': 657, u'laanaa': 9, u'shaa;x': 1508, u'ghar': 132, u'((ar.z': 141, u'gardish': 833, u'bayaan': 266, u'surmah': 863, u'paidaa': 592, u'puuchhmaa': 1234, u'sitamgar': 246, u'guzar-gaah': 247, u'aashnaa': 830, u'ru;x.sat': 867, u';xam': 1086, u'aahang': 1350, u'chalnaa': 964, u'a;gyaar': 1173, u'tamaashaa': 217, u'.sad': 212, u'chaal': 1470, u'baras': 901, u';xa:t': 237, u'laraznaa': 1012, u'u;thaanaa': 186, u'baraa': 1487, u'maanind': 126, u';xalvat': 809, u':zaalim': 864, u'khilnaa': 109, u'dashnah': 366, u'yaqiin': 1124, u'kahnaa': 87, u'na:zaarah-soz': 1311, u'((uryaanii': 1044, u'yak-qalam': 1082, u'sipaas': 632, u'rind': 1094, u'zar': 1075, u'ajzaa': 309, u'tasallii': 233, u'naqaab': 384, u'daryaa': 199, u'aa))o': 1488, u'doza;x': 1330, u'duur': 1137, u'alam': 1406, u';xirman': 283, u'pech': 1214, u'duud': 60, u'siilii': 1250, u'tu;hfah': 49, u'junuun': 444, u'.sayyaad': 1089, u'ba;xyah': 1292, u'kaarii': 1395, u'muqaabil': 1248, u'sab': 600, u'saa': 381, u"sun'naa": 580, u'chaarah': 894, u'chaahe': 25, u'tamkiin': 1088, u'sar': 161, u'sau': 735, u';gunchah': 106, u'naa-rasaa': 100, u'zor': 1032, u'aashuftah-bayaanii': 1481, u'shevah': 1183, u';xaa.s': 1184, u'((adam': 137, u'charchaa': 607, u'numaa': 920, u';xaamosh': 122, u'nisbat': 1343, u'.zaamin': 572, u'i;xtiyaar': 1115, u'naz((': 1443, u'sau;npnaa': 1496, u';halqah': 31, u'phir': 111, u';xuun-fishaa;n': 655, u'aabruu': 1010, u'qasam': 1174, u'suvaidaa': 62, u'sham((a': 810, u';ganiimat': 1182, u'be-vafaa))ii': 620, u'sarmaayah': 61, u'zahe': 924, u'daad': 163, u'zahr': 1175, u'daam': 26, u'ru;x': 751, u'bahtar': 1428, u';xiraam': 412, u'zer': 38, u';saabit': 619, u'dildaar': 1435, u';hairat': 689, u';zaraa': 1468, u'udhar': 394, u'hamaaraa': 220, u'farmaavnaa': 516, u'biinaa': 609, u'qabuul': 875, u'shumaar': 215, u'qahr': 593, u'baaz': 823, u'shahr': 1036, u'u;rnaa': 193, u'tum': 115, u'aavaaragii': 570, u'khodnaa': 290, u'shikan': 1216, u';zauq': 129, u'mudda((ii': 1502, u'vuh': 235, u'aablah-paa': 1080, u'na.siib': 1181, u'miirzaa': 1497, u';xandah': 681, u'qatl': 498, u'dahan': 1100, u';ha.zrat': 521, u'qufl': 893, u'piichhe': 1454, u'man((': 1284, u'mard': 188, u'marg': 191, u'qaatil': 227, u'bolaa': 1261, u';xauf': 1140, u'bekasii': 988, u'((aar': 1191, u';gara.z': 1377, u'mushtaaq': 1056, u'baab': 187, u'((aam': 1009, u'ash((aar': 357, u';gamzah': 980, u'guhar': 355, u'sho;xii': 4, u'sa;xt': 182, u'ham-dam': 1367, u'gustaa;x': 1382, u'yaktaa': 556, u'lipa;tnaa': 391, u'dunyaa': 154, u'laazim': 1060, u'par-afshaan': 164, u':tabii((at': 91, u'kardah': 1167, u';husn': 102, u'paa': 36, u';havaadi;s': 396, u'na:zar': 310, u'pai': 1293, u'takraar': 956, u'jahaan-taab': 1042, u';haalat': 1424, u'kaan': 1339, u'kaam': 174, u'kaar': 53, u"nak'hat": 635, u'pareshaanii': 1146, u'jaur': 879, u'giitii': 1419, u'takalluf': 365, u'garduun': 455, u'nasiim': 1127, u'naa-daan': 662, u'na:z:zaarah': 485, u'la;xt': 513, u'shu((aa((': 1109, u'ziyaan': 69, u'dars': 504, u'mor': 1351, u'bar-:taraf': 1059, u';dhuu;n;dnaa': 1414, u'va.z((a': 1316, u'hijraan': 356, u'zulf': 386, u'dard': 92, u'majlis': 1410, u'nigaah': 564, u'rusvaa))ii': 512, u'jalvah-garii': 1256, u';dhuu;n;dhnaa': 112, u';haajat': 1473, u'jagah': 651, u'naaf': 1402, u'lagaa))o': 884, u'pusht': 1029, u'fanaa': 179, u'naam': 604, u'qais': 54, u'sijdah': 856, u'ma:tlab': 1078, u'qaid': 527, u'naaz': 336, u';xaraab': 737, u'andher': 1155, u'tangii': 56, u'vaa))e': 482, u'shuhuud': 1226, u'niyaaz': 818, u'((aziiz': 1083, u':tuu:tii': 699, u'dushvaar': 474, u'par-fishaanii': 1113, u';darnaa': 828, u'asad': 42, u'.zu((f': 755, u'chhu;tnaa': 526, u'sharmaanaa': 1337, u'rahguzar': 202, u'siyaah': 1362, u'thamnaa': 549, u'mabaadaa': 866, u'karam': 415, u'taazah': 732, u'jastah': 871, u'garm': 286, u'naqshah': 279, u'gard': 200, u'ma((luum': 99, u'tausan': 1277, u';xuun-bahaa': 573, u';tapaknaa': 544, u'bai.zah': 1388, u'samjhnaa': 377, u';xvaab': 64, u'dau;rnaa': 917, u'jigar': 47, u'log': 671, u'saakinaan': 1436, u'buu-ul-havas': 1315, u'darmiyaan': 1185, u';xaraabii': 282, u'gardan': 626, u'aablah': 1016, u'((ataab': 1188, u'jafaa': 497, u'rozgaar': 472, u'juz': 52, u'((uqdah': 218, u'vohii': 1449, u'raa;hat': 976, u'((unvaa;n': 740, u'paasbaan': 846, u'begaanagii': 1336, u'.sa;hraa': 50, u'i((jaaz': 905, u'taqriir': 29, u'taqriib': 698, u'bachnaa': 551, u'taubah': 499, u'be-mu;haabaa': 123, u'diivaanah': 367, u'dekhnaa': 16, u'qaul': 1199, u':tarz': 150, u'a;hraam': 1476, u'dasht': 467, u'ma;hshar': 656, u';xalish': 540, u'safar': 696, u'shauq': 19, u':tarf': 1215, u'naalah': 101, u';gazal': 953, u';gaib': 1229, u'bihisht': 1255, u'mast': 993, u'bhalaa': 581, u'angusht': 900, u'shuguftan': 337, u'adaa': 587, u'vaa-rastagii': 1139, u'giriftaarii': 747, u'pur-;xaar': 1017, u'pahu;nchnaa': 1102, u'ulajhnaa': 1348, u'suno': 1459, u'vadii((at': 460, u'ma;hruum': 897, u'rizq': 603, u'nab.z': 754, u'baraabar': 797, u'mai-;xaanah': 834, u'rahguzaar': 1265, u'baadshaah': 1360, u'((ibrat': 1335, u'u;nglii': 851, u'kaun-saa': 1067, u'roz': 931, u'sang': 547, u'faraa;gat': 812, u'kaashaanah': 479, u'haay': 1319, u';hinaa))ii': 899, u'puuchho': 1405, u'banaanaa': 1372, u'tez': 342, u'sivaa': 827, u'andoh': 204, u'usii': 668, u'vafaadaarii': 1341, u'nang': 78, u'tihii': 1322, u'suu': 292, u'darvesh': 623, u'.saiqal': 742, u'naa.si;h': 118, u'tiir': 166, u'nairang': 764, u'navaa': 332, u'raushan': 427, u'kashaakash': 982, u'dandaan': 173, u'saa;gar': 251, u'chiiz': 1442, u'ka;tnaa': 720, u'kan((aan': 1288, u';xuun-baar': 1409, u'.zab:t': 343, u'chhuu;tnaa': 244, u'jaamah': 1478, u'agarchih': 550, u'daa;g': 44, u'navaazish': 562, u'gosh': 253, u'mazah': 1118, u'naa-mihrbaan': 1187, u'afsurdah': 299, u'faryaad': 762, u'kaar-farmaa': 149, u'bataanaa': 1210, u'shamshiir': 18, u'jaan-gudaaz': 344, u';xamyaazah': 329, u'vo': 1363, u'janaazah': 553, u'ronaa': 989, u';hijaab': 331, u'bajaa': 1090, u'sharm': 618, u'gul-fishaanii': 1392, u'raaz-daan': 840, u'sharar': 1122, u'i((timaad': 98, u'zinhaar': 1383, u'suraa;g': 739, u':tab((a': 1043, u'i:zhaar': 1399, u'yak-bayaabaan': 317, u'saath': 885, u'figaar': 850, u'daraaz': 339, u'gumaan': 1033, u'gadaa))ii': 624, u'umiid': 1203, u'takliif': 683, u'qadr': 177, u'mushaahadah': 1005, u'aglaa': 790, u'ru;xsaar': 511, u'rakhnaa': 787, u'bad-;xuu': 753, u'ta((n': 1159, u'bahaanah': 974, u'giriftaar': 529, u'ham-aa;goshii': 1129, u'rang': 158, u'rotaa': 1039, u'insaan': 475, u'baazuu': 1268, u'dahaan': 637, u'baar': 114, u'rokaa': 457, u'baat': 374, u'hazaaro': 1304, u'mataa((': 994, u'zaanuu': 722, u'baal': 139, u'be-i;xtiyaar': 14, u'baad': 43, u'ja;zb': 1368, u'guftaguu': 1003, u'ganjiinah': 360, u'ma((nii': 231, u'baalish': 413, u'naa-muraad': 1274, u'ak;sar': 398, u'maujah': 314, u'be-vafaa': 636, u'rahzan': 1048, u'bhar': 886, u'rashk': 832, u'va;hshat': 145, u'giryah': 184, u'pardah': 157, u'jiinaa': 531, u'zindaanii': 1305, u'bast': 958, u'faa))idah': 660, u'asbaab': 746, u'paa;nv': 648, u'dhokaa': 882, u';xuun': 107, u'baa((i;s': 634, u';xuub': 601, u'bedaad': 267, u'pur': 1469, u'((aalam': 21, u'taq.siir': 1198, u'pa;rnaa': 88, u'kunj': 1205, u'pinhaan': 303, u'naavuk': 1312, u';xaa:tir': 678, u'rone': 1464, u'muddat': 723, u'a;hbaab': 206, u'koh': 1490, u'jeb': 1072, u';daalnaa': 1014, u'girnaa': 996, u'pare': 140, u'biga;rnaa': 780, u':tuufaa;n': 183, u'mai-kadah': 738, u'tesah': 85, u'va:tan': 401, u'sar-garm': 752, u'aag': 130, u'aasmaan': 430, u'kaafir': 585, u'aab': 406, u'kisht': 826, u'aan': 1321, u'aah': 95, u'aaj': 108, u'naqd': 1427, u';gam-;xvaarii': 514, u'vujuud': 79, u'qa:trah': 185, u'tapish': 697, u'bahaarii': 888, u'siimaab': 1444, u'junbish': 1338, u'pii;tnaa': 1232, u'karo': 1276, u'naagahaan': 433, u'ba;rhnaa': 382, u'((aashiq': 436, u'judaa': 709, u'ustaad': 792, u'tamannaa': 487, u'andaazah': 799, u'be-daad': 1453, u';xiyaabaa;n': 1204, u'kaf': 414, u'majnuun': 508, u'kah': 389, u'kam': 313, u';xvurshiid': 278, u'raah': 311, u'rangiin': 563, u'goyaa': 124, u'raaz': 333, u'be-dast': 628, u'raat': 456, u'.sabaa': 569, u'mu;ndnaa': 937, u'aage': 198, u'qi.s.sah': 608, u'gau;n': 1242, u'ta((liim': 654, u'zindagaanii': 1110, u'qismat': 257, u'utnaa': 1223, u'paimaan': 1279, u'mi.sr': 1289, u'baskih': 34, u'paikar': 2, u'shash': 825, u'pareshaan': 172, u'be-mihrii': 225, u'naumiidii': 222, u'mausam': 912, u'bazm-aaraa))ii': 1287, u';hisaab': 459, u'ubharnaa': 1294, u';hashr': 1356, u'khe;nchnaa': 465, u'aa;gosh': 985, u'imkaan': 505, u'asiir': 446, u'punbah': 416, u'galii': 464, u'sharmindah': 232, u'anjuman': 970, u'halaak': 811, u'nayaa': 1161, u'barq': 284, u'laag': 883, u'viiraanii': 294, u'barg': 934, u'sahii': 252, u'dabistaan': 1025, u'shikaayat': 258, u'paanii': 307, u'andeshah': 142, u'lagaanaa': 110, u'khaanaa': 372, u'makaan': 844, u'dikhlaanaa': 849, u'bujhnaa': 983, u'parvaaz': 1030, u'chashm': 51, u'pho;rnaa': 1021, u'badlaa': 854, u'pa))e': 616, u';xarj': 686, u'thaknaa': 1260, u'andar': 380, u'ka))ii': 1038, u'((aba;s': 852, u'gustaa;xii': 1197, u';xumaar': 80, u'ravaa': 669, u'aanaa': 40, u'bistar': 388, u'be-mihr': 831, u'vus((at': 1079, u'miinaa': 1013, u'minnat-kash': 254, u'himmat': 180, u';darnaae': 1445, u'ma((shuuq': 1202, u'sabzah': 241, u'((aarif': 1064, u'aazaadii': 1126, u'qada;h': 872, u'jaanaa': 66, u'saadagii': 104, u'furqat': 642, u'minnat': 1121, u';xafaa': 694, u'sitam': 640, u':tuufaan': 914, u'dasht-navardii': 1195, u'((ar.sah': 387, u'vaadii': 1415, u'ijaazat': 1457, u'shab': 364, u'qad': 801, u'shah': 404, u'shai': 1493, u'dostii': 543, u'ruu-kash': 445, u'ranjish': 1438, u'abjad': 892, u'((andaliib': 1486, u'badii': 1241, u'hangaamah': 923, u'aashiyaan': 1366, u'afsurdagii': 152, u'saraapaa': 326, u'chaar': 501, u'haa))e': 496, u';xariidaar': 860, u'masii;haa': 969, u'ta;gaaful': 105, u'chaak': 745, u'tasliim': 1249, u'bin': 998, u'be-zabaan': 296, u'raunaq': 1157, u':tilism': 701, u'ka;srat': 1327, u'bulbul': 728, u'bahaa': 1194, u'baham': 1026, u'sunaa': 1324, u'kohkan': 82, u'maanaa': 1160, u'sha;x.s': 1144, u'bataa))o': 1364, u'talaafii': 1375, u';zikr': 605, u'kisliye': 1282, u'jaarii': 806, u'sar-navisht': 1192, u'saaz': 334, u'bosah': 647, u'chiraa;gaan': 1133, u';xaa;n': 1092, u'saat': 881, u'saal': 1141, u'daamaan': 1461, u'saa;hil': 203, u'nigaar': 1104, u'la;raa))ii': 769, u'na;xvat': 1152, u'daa))im': 1228, u'sho;x': 385, u'khulnaa': 67, u'kal': 447, u'la((l': 1270, u'ruu': 55, u'qiimat': 578, u'aazurdah': 1380, u';savaab': 1331, u'chhi;raknaa': 117, u'muzhdah': 1096, u'kushaad': 1498, u'vaah': 1119, u'dushman': 97, u'naazuk': 1263, u';haif': 500, u'javaab': 1212, u'javaan': 785, u'ba((d': 495, u'chaahnaa': 243, u';xaak': 489, u';xaal': 1143, u'shaahid': 1225, u';hairaa;n': 480, u'jahaan': 890, u'shikast': 579, u';xaar': 808, u'aaraa))ish': 1087, u'i((tibaar': 534, u'fi;gaan': 962, u';xvushaa': 922, u'z': 873, u'millat': 1295, u'du((aa': 1077, u'samandar': 807, u'shahiid': 933, u'.sabr-aazmaa': 583, u'taskiin': 916, u':turrah': 868, u'tark': 1134, u'kamar': 1236, u'hazaar': 1046, u'tishnah': 1098, u'aavnaa': 522, u'nau': 1108, u'hove': 838, u':zann': 1220, u'bad-gumaan': 646, u'pairaahan': 3, u'mu;habbat': 320, u';xaalii': 928, u'binaa': 1180, u'samajhnaa': 546, u'na;gmah': 1085, u'jaise': 652, u'a;hvaal': 984, u'shikaar': 963, u'andaaz': 224, u';tuu;tnaa': 1125, u'ashk-baarii': 1448, u'a;sar': 434, u'be-;xvudii': 103, u'chahrah': 865, u'go': 376, u'mizhah': 341, u'dare;g': 1245, u'baa;g-baan': 1460, u'aashuftah-sar': 783, u'aatish': 32, u'u;thnaa': 555, u'maal': 1145, u';gaafil': 138, u'maan': 1299, u'maah': 1066, u'dho))e': 1477, u'pusht-garmii': 1189, u'khi;nchnaa': 1425, u'((aqd': 926, u'taqdiir': 772, u'naa-tamaamii': 1116, u'naqsh': 1, u'muqaddamah': 1450, u'((aql': 829, u'hujuum': 419, u'ziyaarat-gaah': 1452, u'tim;saal-daar': 463, u'giraan': 1037, u'tundii': 1423, u'zamiin': 432, u'vafaa': 197, u'chhupaanaa': 1310, u'chand': 990, u'chang': 1222, u'nihaan': 127, u';xaamoshii': 295, u';hasrat-parast': 1374, u'nafas': 250, u'mu;nh': 383, u'ul;tnaa': 596, u'fur.sat': 275, u'shar;h': 748, u'bhuulnaa': 774, u'qatl-gah': 486, u'bayaabaan': 477, u'buraa))ii': 1271, u'aa;nkh': 65, u'jabiin': 741, u'sabz': 906, u';hasrat': 685, u'alif': 743, u'tar': 423, u'diidah': 393, u':zulm': 796, u'farhaad': 784, u'tan': 721, u'tah': 1510, u'tak': 133, u'kamaan': 1035, u';xalq': 1000, u'kamaal': 972, u'talak': 450, u'al-l;aah': 896, u'fard': 195, u'((iid': 483, u'paarah': 494, u'muhr': 621, u'ba;hr': 710, u'farq': 424, u'be-dar': 403, u'paar': 541, u'paas': 568, u'sham((': 428, u'ranjuur': 1243, u'bodaa': 537, u'ruubaruu': 599, u'paak': 1507, u'garchih': 370, u'nigah': 420, u'lo': 968, u'zahrah': 409, u'da((vat': 1416, u'nafrat': 1068, u'khel': 611, u';xastah': 1318, u'da((vaa': 1483, u'chho;rnaa': 798, u'kise': 727, u'aamad': 938, u'dam': 15, u'.sadaa': 437, u'daftar': 358, u'giraan-jaanii': 1489, u';xuld': 379, u';xizaa;n': 679, u'dar': 359, u'vaa((i:z': 1446, u'bar': 1439, u'sitam-zadah': 676, u'muft': 862, u'diivaanagii': 481, u'ravaanii': 1451, u'saaqii': 330, u'sataanaa': 1308, u'sarshaar': 945, u'pataa': 776, u'namak-daan': 493, u'pilaanaa': 1492, u';hazii;n': 1352, u'malaamat': 1503, u'mu;hii:t': 503, u'faraaham': 1136, u'faraa;g': 734, u'nikohish': 1302, u'mubaarak': 48, u'((aks': 1018, u'.su;hbat': 426, u'kaun': 506, u'baaqii': 131, u'aa))inah': 461, u'sakuun': 1171, u';xvush': 397, u'sach': 1370, u';huur': 1244, u'jaadah': 248, u'nisyaan': 263, u'aabaad': 1254, u'saraasar': 693, u';xabar': 612, u':taaqat': 725, u'na;zr': 615, u'saamaan': 160, u';gaarat-gar': 576, u'masjid': 1359, u'bulandii': 843, u';xaashaak': 1053, u'kushtah': 820, u'.said': 451, u'zaahid': 265, u'kidhar': 1233, u'vahaa;n': 1441, u'marjaan': 270, u'biim': 1114, u'dar-;xvur': 590, u'mi;sl': 468, u'mai-kashii': 1465, u'aashob': 726, u'muu': 35, u'aa))inah-siimaa': 598, u'vaqf': 442, u';haq': 210, u';gurbat': 395, u'ravaan': 422, u'pahluu': 441, u'vaqt': 338, u'jaam': 691, u'jaan': 45, u'marham': 1027, u'taqaa.zaa': 354, u'rasaa))ii': 949, u'qulzum': 1504, u'furo;g': 566, u';gaflat': 1411, u':taala((': 1051, u'juu': 8, u'bhed': 375, u'bhes': 1208, u'rasm': 1333, u'jam': 1246, u'naazish': 440, u'biimaar': 602, u';ga.zab': 588, u'fitnah': 584, u'laavnaa': 525, u';ha;zar': 1403, u'shu((lah': 408, u'zaar': 1300, u'da((v;aa': 582, u'sitaarah': 1458, u'munfa((il': 1168, u'jannat': 1462, u'zulai;xaa': 1290, u'shaad': 946, u'qa:t((': 1417, u'shaah': 1285, u'kahaanii': 1456, u'shaam': 11, u'zamaanah': 277, u'kaa;ga;z': 1047, u'kafan': 76, u'aatish-zadah': 1045, u'rah-guzar': 1235, u'kinaarah': 965, u'nashaa:t': 491, u'isti;gnaa': 510, u'nashshah': 730, u'qabaa': 1130, u'((uryaa;n': 155, u'hameshah': 999, u'baal-kushaa': 907, u'guzarnaa': 520, u'be-qaraar': 1485, u'bismil': 162, u'mihrbaan': 1170, u'nikaalnaa': 1105, u'((amal': 378, u'ustuvaar': 539, u'paikaan': 759, u'shiishah': 350, u'sard': 898, u'kaho': 1147, u'yak': 454, u'sarv': 276, u'baazaar': 939, u'baahar': 13, u'qalam': 1332, u'ta((miir': 288, u'aagahii': 23, u'rishtah': 692, u'asad-ul-l;aah': 1093, u':taa((at': 1329, u'garmii': 143, u'guftaar': 951, u';xvur': 1106, u'maana((': 272, u'taa;siir': 782, u'maut': 1314, u'chaman': 318, u'be-taab': 435, u'((ajz': 700, u';xvud': 1101, u'mauj': 319, u'farishtah': 789, u'mad;h': 1166, u';hinaa': 509, u'mazaa': 94, u'hayuul;aa': 287, u'arbaab': 835, u'ba;xt': 910, u':tauq': 957, u';gam-;xvaar': 39, u'biimaar-daar': 967, u'ja;zbah': 17, u'ham-safar': 1434, u'bharnaa': 515, u'sozan': 1158, u'aa))iin': 1472, u'viiraan': 712, u';gash': 1149, u'puujnaa': 1001, u'naamuus': 567, u'be-parvaa': 1117, u'tanhaa': 1062, u'dosh': 1296, u'za;xm': 121, u';harf': 930, u'mastii': 1178, u'barsaat': 904, u'dost': 368, u'maqaam': 1258, u'taab': 942, u'gaalii': 665, u'maqduur': 1231, u'taak': 909, u'taar': 421, u'ya((quub': 1024, u'yaar': 136, u'be-niyaazii': 519, u'sar-taa-sar': 1081, u'shiiraazah': 312, u'ham-zabaan': 857, u'maqdam': 439, u'siinah': 20, u'ulfat': 327, u'baare': 715, u'zumurrud': 242, u'joshish': 891, u'aatish-kadah': 805, u'va.sl': 134, u'rote': 711, u'aaftaab': 1153, u'paimaanah': 1247, u'baa;g': 262, u'kashmakash': 205, u'kaavish': 269, u'sa;har': 1123, u'na;xchiir': 775, u'daaman': 803, u'ra;hm': 1151, u'.salaa': 987, u'ya((nii': 116, u'((u;zr-;xvaah': 1400, u'aashuftagii': 58, u'mudda((aa': 27, u'hosh': 925, u'diid': 971, u'diin': 1317, u'kitnaa': 666, u'ashk': 418, u';xanjar': 821, u'mizhgaan': 271, u'diidaar': 941, u'nus;xah': 196, u':tarab': 913, u':taraf': 977, u'a.sl': 1224, u'bandagii': 594, u'be-jaa': 560, u'laalah-kaarii': 1393, u'saudaa': 995, u'mihr': 448, u'ba;xshnaa': 903, u'gauhar': 361, u'gadaa': 614, u'vah': 1148, u'man:zar': 363, u'vaa': 597, u'shabistaan': 757, u'biinish': 622, u'jins': 577, u'gavaah': 1357, u';hayaa': 1361, u'kaasah': 625, u'dabnaa': 239, u'apnaa': 24, u'jaulaan': 902, u'khai;nchnaa': 1501, u'but': 213, u'buu': 168, u'namuud': 1164, u'bun': 606, u'af((ii': 238, u'hastii': 324, u'kalaam': 1193, u'maktuub': 675, u'marnaa': 83, u'ham-saa': 591, u'shaayad': 940, u"jaan'naa": 471, u'.sirf': 1112, u':tauf': 1355, u'gunaah': 874, u'mushkil': 181, u'ham-saayah': 997, u'tabassum': 305, u';garq': 492, u'vagarnah': 345, u'laakh': 298, u';hasad': 1326, u'do-((aalam': 1057, u'la;rnaa': 1031, u'vaa-maa;ndagii': 765, u'balaa': 392, u'saayah': 756, u'maa;ngnaa': 702, u'be-sabab': 858, u'shahiidaan': 575, u'((aajiz': 1354, u'zanjiir': 37, u'barahman': 1340, u'juzv': 610, u'ma;hfil': 171, u'pur-;xuun': 944, u';guruur': 814, u'kuhan': 1074, u'((adaavat': 1298, u'naa-chaar': 1259, u'pai;gaam': 1420, u'nuur': 1156, u';xuubii': 771, u'((ibaadat': 321, u'gilah': 673, u'likhnaa': 638, u'chiraa;g': 169, u'parvaa': 449, u'gilaa': 561}

In [105]:
corpus = [dictionary.doc2bow(text) for text in texts]

In [106]:
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=10, update_every=1, chunksize=1, passes=5)

In [107]:
lda.print_topics(10)


Out[107]:
[u'0.090*aanaa + 0.038*;xudaa + 0.037*shauq + 0.034*jigar + 0.028*;gam + 0.022*inti:zaar + 0.020*lab + 0.018*asad + 0.017*baar + 0.016*rang',
 u'0.152*jaanaa + 0.068*jaan + 0.047*dam + 0.040*qafas + 0.035*;xalq + 0.032*aa;nkh + 0.020*sab + 0.016*mad;h + 0.015*havaa + 0.014*kuu',
 u'0.121*vuh + 0.060*nigaah + 0.052*balaa + 0.033*jii + 0.032*sitam + 0.027*tamaashaa + 0.025*apnaa + 0.023*dar + 0.021*aarzuu + 0.020*mataa((',
 u"0.149*dil + 0.040*mizhgaan + 0.032*aa))iinah + 0.027*;hasrat + 0.027*aage + 0.025*((umr + 0.024*chaak + 0.021*.sa;hraa + 0.019*jaan'naa + 0.019*havas",
 u'0.036*naaz + 0.036*bahaar + 0.032*yaar + 0.032*zabaan + 0.030*qaatil + 0.025*but + 0.025*bai;thnaa + 0.025*chalnaa + 0.024*;xaak + 0.019*((ar.z',
 u"0.093*ban'naa + 0.045*rakhnaa + 0.035*tum + 0.034*sahii + 0.030*sair + 0.020*((ishq + 0.020*ru;x + 0.020*jahaan + 0.018*naam + 0.018*yak",
 u'0.048*te;g + 0.045*baat + 0.038*bazm + 0.037*buraa + 0.030*ma;hv + 0.024*sharaab + 0.024*na:z:zaarah + 0.023*fur.sat + 0.023*rashk + 0.023*aa))inah',
 u'0.093*;gaalib + 0.059*gul + 0.036*naalah + 0.029*josh + 0.028*;xas + 0.022*zulf + 0.022*chashm + 0.022*((aish + 0.020*vaa((i:z + 0.020*bulbul',
 u'0.056*dekhnaa + 0.043*aasmaan + 0.041*na:zar + 0.036*duur + 0.030*chiraa;ga + 0.026*kam + 0.022*tez + 0.021*marnaa + 0.020*gadaa + 0.020*sitaarah',
 u'0.155*phir + 0.103*kahnaa + 0.056*nikalnaa + 0.032*mai + 0.032*u;thnaa + 0.032*adaa + 0.030*;xayaal + 0.029*;xuun + 0.029*sar + 0.027*pa;rnaa']

In [ ]: