notebook.community

Edit and run



In [1]:

    
import pandas as pd



In [95]:

    
import sys,json
sys.path.append('../graphparser')
import graphparser as gp
reload(gp)
from networkx.readwrite import json_graph

urdu_data_file = '../graphparser/settings/urdu.yaml'
devanagari_data_file = '../graphparser/settings/devanagari.yaml'
diacritics_data_file = '../graphparser/settings/diacritics.yaml'
meter_data_file = '../graphparser/settings/urdu-meter.yaml'

urdu_parser = gp.GraphParser(urdu_data_file)
diacritics_parser = gp.GraphParser(diacritics_data_file)
devanagari_parser = gp.GraphParser(devanagari_data_file)
meter_parser = gp.GraphParser(meter_data_file)

divan = pd.DataFrame.from_csv('../ghalib-concordance/input/verses.csv',header=None,index_col=False )
divan.columns=['number','verse','meter']

tokens = divan.verse.map(lambda x:x.strip().split(' '))

from collections import Counter
def flatten(lst):
    for elem in lst:
        if type(elem) in (tuple, list):
            for i in flatten(elem):
                yield i
        else:
            yield elem
c = Counter(list(flatten(tokens.values)))

tokens = pd.DataFrame.from_dict(dict(c).items())
tokens.columns = ['plain_roman','count']
tokens['diacritics'] = tokens.plain_roman.map(lambda x: diacritics_parser.parse(x).output)#
tokens['urdu'] = tokens.plain_roman.map(lambda x: urdu_parser.parse(x).output)#
tokens['devanagari'] = tokens.plain_roman.map(lambda x: devanagari_parser.parse(x).output)#
tokens['meter'] = tokens.plain_roman.map(lambda x: meter_parser.parse(x).output)
tokens.to_csv('tokens.csv',encoding='utf-8', index=False)
tokens = tokens [['plain_roman','diacritics','devanagari','urdu','count','meter']]



In [96]:

    
tokens









    Out[96]:






  
    
      
      plain_roman
      diacritics
      devanagari
      urdu
      count
      meter
    
  
  
    
      0
      tashviish-e
      tashvīsh-e
      तशवीश-ए
      تشویشِ
      1
      csccvcz
    
    
      1
      ;haalaa;nkih
      ḥālāñkih
      हालांकि
      حالانکہ
      2
      cvcvncsc<h+wb>
    
    
      2
      ;xi.zr
      ḳhiẓr
      ख़िज़्र
      خضر
      6
      cscc
    
    
      3
      jihat
      jihat
      जिहत
      جہت
      3
      cscsc
    
    
      4
      mushkii;n
      mushkīñ
      मुशकीं
      مشکیں
      2
      csccvn
    
    
      5
      bad-naam
      bad-nām
      बद-नाम
      بد نام
      1
      cscbcvc
    
    
      6
      rang-o-saaz'haa
      rang-o-sāz'hā
      रंग‐ओ‐साज़हा
      رنگ و سازہا
      1
      csccocvcbcv
    
    
      7
      ;xuu;n-;galtiidan-e
      ḳhūñ-ġhaltīdan-e
      ख़ूँ-ग़लतीदन-ए
      خوں غلتیدنِ
      1
      cvnbcsccvcscz
    
    
      8
      ((araq
      ʿaraq
      अरक़
      عرق
      1
      cscsc
    
    
      9
      ;xuub-ruuyo;n
      ḳhūb-rūyoñ
      ख़ूब-रूयों
      خوب رویوں
      1
      cvcbcvcvn
    
    
      10
      ((aalii
      ʿālī
      आली
      عالی
      2
      cvcv
    
    
      11
      yak-((ar.sah
      yak-ʿarṣah
      यक-अर्सा
      یک عرصہ
      1
      cscbcsccsc<h+wb>
    
    
      12
      pasand
      pasand
      पसंद
      پسند
      8
      cscscc
    
    
      13
      mur;g
      murġh
      मुर्ग़
      مرغ
      1
      cscc
    
    
      14
      auj
      auj
      औज
      اوج
      2
      vc
    
    
      15
      aur
      aur
      और
      اور
      129
      v<aur>c
    
    
      16
      ;hinaa-e
      ḥinā-e
      हिना-ए
      حنائے
      2
      cscv<aa+z>z
    
    
      17
      but-kade
      but-kade
      बुत-कदे
      بت کدے
      1
      cscbcscv
    
    
      18
      fur.sat-e
      furṣat-e
      फ़ुर्सत-ए
      فرصتِ
      5
      csccscz
    
    
      19
      tapiidah
      tapīdah
      तपीदा
      تپیدہ
      1
      cscvcsc<h+wb>
    
    
      20
      furuu((
      furūʿ
      फ़ुरू
      فروع
      1
      cscvc
    
    
      21
      tapiidan
      tapīdan
      तपीदन
      تپیدن
      1
      cscvcsc
    
    
      22
      khapaataa
      khapātā
      खपाता
      کھپاتا
      1
      cscvcv
    
    
      23
      khaayaa
      khāyā
      खाया
      کھایا
      1
      cvcv
    
    
      24
      sitam-diidah-e
      sitam-dīdah-e
      सितम-दीदा-ए
      ستم دیدۂ
      1
      cscscbcvcscz
    
    
      25
      a((:zam
      aʿz̤am
      आज़म
      اعظم
      1
      sccsc
    
    
      26
      phirtii
      phirtī
      फिरती
      پھرتی
      1
      csccv
    
    
      27
      baa;ndhte
      bāñdhte
      बांधते
      باندھتے
      15
      cvnccv
    
    
      28
      ;hiile
      ḥīle
      हीले
      حیلے
      1
      cvcv
    
    
      29
      saa((at
      sāʿat
      साअत
      ساعت
      1
      cvcsc
    
    
      ...
      ...
      ...
      ...
      ...
      ...
      ...
    
    
      4851
      ganj'haa-e
      ganj'hā-e
      गंज्हा-ए
      گنجہائے
      1
      csccbcv<aa+z>z
    
    
      4852
      agle
      agle
      अग्ले
      اگلے
      2
      sccv
    
    
      4853
      ma;hv-e
      maḥv-e
      महव-ए
      محوِ
      12
      csccz
    
    
      4854
      sail-e
      sail-e
      सैल-ए
      سیلِ
      4
      cvcz
    
    
      4855
      de;nge
      deñge
      देंगे
      دیں گے
      2
      cv_e_futncv
    
    
      4856
      ;xirad
      ḳhirad
      ख़िरद
      خرد
      1
      cscsc
    
    
      4857
      pas-e
      pas-e
      पस-ए
      پسِ
      1
      cscz
    
    
      4858
      la))iim
      laʾīm
      लईम
      لئیم
      1
      cscvc
    
    
      4859
      surme
      surme
      सुर्मे
      سرمے
      2
      csccv
    
    
      4860
      jalte
      jalte
      जलते
      جلتے
      1
      csccv
    
    
      4861
      ma;hruumii-e
      maḥrūmī-e
      महरूमी-ए
      محرومیِ
      3
      csccvcv<ii+z>z
    
    
      4862
      ma;hfil
      maḥfil
      महफ़िल
      محفل
      7
      csccsc
    
    
      4863
      doshiinah
      doshīnah
      दोशीना
      دوشینہ
      1
      cvcvcsc<h+wb>
    
    
      4864
      ;guruur
      ġhurūr
      ग़ुरूर
      غرور
      1
      cscvc
    
    
      4865
      ;xarosh-aamaadah
      ḳharosh-āmādah
      ख़रोश-आमादा
      خروش آمادہ
      1
      cscvcbvcvcsc<h+wb>
    
    
      4866
      kuhan
      kuhan
      कुहन
      کہن
      2
      cscsc
    
    
      4867
      aabilo;n
      ābiloñ
      आबिलों
      آبلوں
      2
      vcscvn
    
    
      4868
      jalvah-zaar-e
      jalvah-zār-e
      जल्वा-ज़ार-ए
      جلوہ زارِ
      1
      csccsc<h+wb>bcvcz
    
    
      4869
      khulaa
      khulā
      खुला
      کھلا
      15
      cscv
    
    
      4870
      yagaanah
      yagānah
      यगाना
      یگانہ
      1
      cscvcsc<h+wb>
    
    
      4871
      naa-chaar
      nā-chār
      ना-चार
      نا چار
      3
      cvbcvc
    
    
      4872
      pai;gaam
      paiġhām
      पैग़ाम
      پیغام
      2
      cvcvc
    
    
      4873
      aavaaragiihaa-e
      āvāragīhā-e
      आवारगीहा-ए
      آوارگیہائے
      1
      vcvcscvcv<aa+z>z
    
    
      4874
      samand-e
      samand-e
      समंद-ए
      سمندِ
      1
      cscsccz
    
    
      4875
      rusuum-o-quyuud
      rusūm-o-quyūd
      रुसूम‐ओ‐क़ुयूद
      رسوم و قیود
      1
      cscvcocscvc
    
    
      4876
      shaahid-e
      shāhid-e
      शाहिद-ए
      شاہدِ
      2
      cvcscz
    
    
      4877
      chiraa;g
      chirāġh
      चिराग़
      چراغ
      2
      cscvc
    
    
      4878
      parvaa
      parvā
      परवा
      پروا
      2
      csccv
    
    
      4879
      mar;guub-e
      marġhūb-e
      मरग़ूब-ए
      مرغوبِ
      1
      csccvcz
    
    
      4880
      janaab
      janāb
      जनाब
      جناب
      1
      cscvc
    
  

4881 rows × 6 columns



In [ ]:

	plain_roman	diacritics	devanagari	urdu	count	meter
0	tashviish-e	tashvīsh-e	तशवीश-ए	تشویشِ	1	csccvcz
1	;haalaa;nkih	ḥālāñkih	हालांकि	حالانکہ	2	cvcvncsc<h+wb>
2	;xi.zr	ḳhiẓr	ख़िज़्र	خضر	6	cscc
3	jihat	jihat	जिहत	جہت	3	cscsc
4	mushkii;n	mushkīñ	मुशकीं	مشکیں	2	csccvn
5	bad-naam	bad-nām	बद-नाम	بد نام	1	cscbcvc
6	rang-o-saaz'haa	rang-o-sāz'hā	रंग‐ओ‐साज़हा	رنگ و سازہا	1	csccocvcbcv
7	;xuu;n-;galtiidan-e	ḳhūñ-ġhaltīdan-e	ख़ूँ-ग़लतीदन-ए	خوں غلتیدنِ	1	cvnbcsccvcscz
8	((araq	ʿaraq	अरक़	عرق	1	cscsc
9	;xuub-ruuyo;n	ḳhūb-rūyoñ	ख़ूब-रूयों	خوب رویوں	1	cvcbcvcvn
10	((aalii	ʿālī	आली	عالی	2	cvcv
11	yak-((ar.sah	yak-ʿarṣah	यक-अर्सा	یک عرصہ	1	cscbcsccsc<h+wb>
12	pasand	pasand	पसंद	پسند	8	cscscc
13	mur;g	murġh	मुर्ग़	مرغ	1	cscc
14	auj	auj	औज	اوج	2	vc
15	aur	aur	और	اور	129	v<aur>c
16	;hinaa-e	ḥinā-e	हिना-ए	حنائے	2	cscv<aa+z>z
17	but-kade	but-kade	बुत-कदे	بت کدے	1	cscbcscv
18	fur.sat-e	furṣat-e	फ़ुर्सत-ए	فرصتِ	5	csccscz
19	tapiidah	tapīdah	तपीदा	تپیدہ	1	cscvcsc<h+wb>
20	furuu((	furūʿ	फ़ुरू	فروع	1	cscvc
21	tapiidan	tapīdan	तपीदन	تپیدن	1	cscvcsc
22	khapaataa	khapātā	खपाता	کھپاتا	1	cscvcv
23	khaayaa	khāyā	खाया	کھایا	1	cvcv
24	sitam-diidah-e	sitam-dīdah-e	सितम-दीदा-ए	ستم دیدۂ	1	cscscbcvcscz
25	a((:zam	aʿz̤am	आज़म	اعظم	1	sccsc
26	phirtii	phirtī	फिरती	پھرتی	1	csccv
27	baa;ndhte	bāñdhte	बांधते	باندھتے	15	cvnccv
28	;hiile	ḥīle	हीले	حیلے	1	cvcv
29	saa((at	sāʿat	साअत	ساعت	1	cvcsc
...	...	...	...	...	...	...
4851	ganj'haa-e	ganj'hā-e	गंज्हा-ए	گنجہائے	1	csccbcv<aa+z>z
4852	agle	agle	अग्ले	اگلے	2	sccv
4853	ma;hv-e	maḥv-e	महव-ए	محوِ	12	csccz
4854	sail-e	sail-e	सैल-ए	سیلِ	4	cvcz
4855	de;nge	deñge	देंगे	دیں گے	2	cv_e_futncv
4856	;xirad	ḳhirad	ख़िरद	خرد	1	cscsc
4857	pas-e	pas-e	पस-ए	پسِ	1	cscz
4858	la))iim	laʾīm	लईम	لئیم	1	cscvc
4859	surme	surme	सुर्मे	سرمے	2	csccv
4860	jalte	jalte	जलते	جلتے	1	csccv
4861	ma;hruumii-e	maḥrūmī-e	महरूमी-ए	محرومیِ	3	csccvcv<ii+z>z
4862	ma;hfil	maḥfil	महफ़िल	محفل	7	csccsc
4863	doshiinah	doshīnah	दोशीना	دوشینہ	1	cvcvcsc<h+wb>
4864	;guruur	ġhurūr	ग़ुरूर	غرور	1	cscvc
4865	;xarosh-aamaadah	ḳharosh-āmādah	ख़रोश-आमादा	خروش آمادہ	1	cscvcbvcvcsc<h+wb>
4866	kuhan	kuhan	कुहन	کہن	2	cscsc
4867	aabilo;n	ābiloñ	आबिलों	آبلوں	2	vcscvn
4868	jalvah-zaar-e	jalvah-zār-e	जल्वा-ज़ार-ए	جلوہ زارِ	1	csccsc<h+wb>bcvcz
4869	khulaa	khulā	खुला	کھلا	15	cscv
4870	yagaanah	yagānah	यगाना	یگانہ	1	cscvcsc<h+wb>
4871	naa-chaar	nā-chār	ना-चार	نا چار	3	cvbcvc
4872	pai;gaam	paiġhām	पैग़ाम	پیغام	2	cvcvc
4873	aavaaragiihaa-e	āvāragīhā-e	आवारगीहा-ए	آوارگیہائے	1	vcvcscvcv<aa+z>z
4874	samand-e	samand-e	समंद-ए	سمندِ	1	cscsccz
4875	rusuum-o-quyuud	rusūm-o-quyūd	रुसूम‐ओ‐क़ुयूद	رسوم و قیود	1	cscvcocscvc
4876	shaahid-e	shāhid-e	शाहिद-ए	شاہدِ	2	cvcscz
4877	chiraa;g	chirāġh	चिराग़	چراغ	2	cscvc
4878	parvaa	parvā	परवा	پروا	2	csccv
4879	mar;guub-e	marġhūb-e	मरग़ूब-ए	مرغوبِ	1	csccvcz
4880	janaab	janāb	जनाब	جناب	1	cscvc