In [1]:
import pandas as pd

In [95]:
import sys,json
sys.path.append('../graphparser')
import graphparser as gp
reload(gp)
from networkx.readwrite import json_graph

urdu_data_file = '../graphparser/settings/urdu.yaml'
devanagari_data_file = '../graphparser/settings/devanagari.yaml'
diacritics_data_file = '../graphparser/settings/diacritics.yaml'
meter_data_file = '../graphparser/settings/urdu-meter.yaml'

urdu_parser = gp.GraphParser(urdu_data_file)
diacritics_parser = gp.GraphParser(diacritics_data_file)
devanagari_parser = gp.GraphParser(devanagari_data_file)
meter_parser = gp.GraphParser(meter_data_file)

divan = pd.DataFrame.from_csv('../ghalib-concordance/input/verses.csv',header=None,index_col=False )
divan.columns=['number','verse','meter']

tokens = divan.verse.map(lambda x:x.strip().split(' '))

from collections import Counter
def flatten(lst):
    for elem in lst:
        if type(elem) in (tuple, list):
            for i in flatten(elem):
                yield i
        else:
            yield elem
c = Counter(list(flatten(tokens.values)))

tokens = pd.DataFrame.from_dict(dict(c).items())
tokens.columns = ['plain_roman','count']
tokens['diacritics'] = tokens.plain_roman.map(lambda x: diacritics_parser.parse(x).output)#
tokens['urdu'] = tokens.plain_roman.map(lambda x: urdu_parser.parse(x).output)#
tokens['devanagari'] = tokens.plain_roman.map(lambda x: devanagari_parser.parse(x).output)#
tokens['meter'] = tokens.plain_roman.map(lambda x: meter_parser.parse(x).output)
tokens.to_csv('tokens.csv',encoding='utf-8', index=False)
tokens = tokens [['plain_roman','diacritics','devanagari','urdu','count','meter']]

In [96]:
tokens


Out[96]:
plain_roman diacritics devanagari urdu count meter
0 tashviish-e tashvīsh-e तशवीश-ए تشویشِ 1 csccvcz
1 ;haalaa;nkih ḥālāñkih हालांकि حالانکہ 2 cvcvncsc<h+wb>
2 ;xi.zr ḳhiẓr ख़िज़्र خضر 6 cscc
3 jihat jihat जिहत جہت 3 cscsc
4 mushkii;n mushkīñ मुशकीं مشکیں 2 csccvn
5 bad-naam bad-nām बद-नाम بد نام 1 cscbcvc
6 rang-o-saaz'haa rang-o-sāz'hā रंग‐ओ‐साज़हा رنگ و سازہا 1 csccocvcbcv
7 ;xuu;n-;galtiidan-e ḳhūñ-ġhaltīdan-e ख़ूँ-ग़लतीदन-ए خوں غلتیدنِ 1 cvnbcsccvcscz
8 ((araq ʿaraq अरक़ عرق 1 cscsc
9 ;xuub-ruuyo;n ḳhūb-rūyoñ ख़ूब-रूयों خوب رویوں 1 cvcbcvcvn
10 ((aalii ʿālī आली عالی 2 cvcv
11 yak-((ar.sah yak-ʿarṣah यक-अर्सा یک عرصہ 1 cscbcsccsc<h+wb>
12 pasand pasand पसंद پسند 8 cscscc
13 mur;g murġh मुर्ग़ مرغ 1 cscc
14 auj auj औज اوج 2 vc
15 aur aur और اور 129 v<aur>c
16 ;hinaa-e ḥinā-e हिना-ए حنائے 2 cscv<aa+z>z
17 but-kade but-kade बुत-कदे بت کدے 1 cscbcscv
18 fur.sat-e furṣat-e फ़ुर्सत-ए فرصتِ 5 csccscz
19 tapiidah tapīdah तपीदा تپیدہ 1 cscvcsc<h+wb>
20 furuu(( furūʿ फ़ुरू فروع 1 cscvc
21 tapiidan tapīdan तपीदन تپیدن 1 cscvcsc
22 khapaataa khapātā खपाता کھپاتا 1 cscvcv
23 khaayaa khāyā खाया کھایا 1 cvcv
24 sitam-diidah-e sitam-dīdah-e सितम-दीदा-ए ستم دیدۂ 1 cscscbcvcscz
25 a((:zam aʿz̤am आज़म اعظم 1 sccsc
26 phirtii phirtī फिरती پھرتی 1 csccv
27 baa;ndhte bāñdhte बांधते باندھتے 15 cvnccv
28 ;hiile ḥīle हीले حیلے 1 cvcv
29 saa((at sāʿat साअत ساعت 1 cvcsc
... ... ... ... ... ... ...
4851 ganj'haa-e ganj'hā-e गंज्हा-ए گنجہائے 1 csccbcv<aa+z>z
4852 agle agle अग्ले اگلے 2 sccv
4853 ma;hv-e maḥv-e महव-ए محوِ 12 csccz
4854 sail-e sail-e सैल-ए سیلِ 4 cvcz
4855 de;nge deñge देंगे دیں گے 2 cv_e_futncv
4856 ;xirad ḳhirad ख़िरद خرد 1 cscsc
4857 pas-e pas-e पस-ए پسِ 1 cscz
4858 la))iim laʾīm लईम لئیم 1 cscvc
4859 surme surme सुर्मे سرمے 2 csccv
4860 jalte jalte जलते جلتے 1 csccv
4861 ma;hruumii-e maḥrūmī-e महरूमी-ए محرومیِ 3 csccvcv<ii+z>z
4862 ma;hfil maḥfil महफ़िल محفل 7 csccsc
4863 doshiinah doshīnah दोशीना دوشینہ 1 cvcvcsc<h+wb>
4864 ;guruur ġhurūr ग़ुरूर غرور 1 cscvc
4865 ;xarosh-aamaadah ḳharosh-āmādah ख़रोश-आमादा خروش آمادہ 1 cscvcbvcvcsc<h+wb>
4866 kuhan kuhan कुहन کہن 2 cscsc
4867 aabilo;n ābiloñ आबिलों آبلوں 2 vcscvn
4868 jalvah-zaar-e jalvah-zār-e जल्वा-ज़ार-ए جلوہ زارِ 1 csccsc<h+wb>bcvcz
4869 khulaa khulā खुला کھلا 15 cscv
4870 yagaanah yagānah यगाना یگانہ 1 cscvcsc<h+wb>
4871 naa-chaar nā-chār ना-चार نا چار 3 cvbcvc
4872 pai;gaam paiġhām पैग़ाम پیغام 2 cvcvc
4873 aavaaragiihaa-e āvāragīhā-e आवारगीहा-ए آوارگیہائے 1 vcvcscvcv<aa+z>z
4874 samand-e samand-e समंद-ए سمندِ 1 cscsccz
4875 rusuum-o-quyuud rusūm-o-quyūd रुसूम‐ओ‐क़ुयूद رسوم و قیود 1 cscvcocscvc
4876 shaahid-e shāhid-e शाहिद-ए شاہدِ 2 cvcscz
4877 chiraa;g chirāġh चिराग़ چراغ 2 cscvc
4878 parvaa parvā परवा پروا 2 csccv
4879 mar;guub-e marġhūb-e मरग़ूब-ए مرغوبِ 1 csccvcz
4880 janaab janāb जनाब جناب 1 cscvc

4881 rows × 6 columns


In [ ]: