In [ ]:
<h1 style=color:#3366CC;> SCRIPT PARA EXTRAIR N-GRAMAS DO CORPUS ABG </h1>

In [32]:
#Script pra extrair os unigramas, bigramas e trigramas do Corpus ABG -criando uma tabela 
#em .txt para cada um dos tipos de n-gramas

## 0 - imports para brincar: codecs por causa das codificações

import codecs, random
from __future__ import unicode_literals
##################################################################
##1- Abrir e armazenar o corpus
arquivo = codecs.open('corpus_transcrito.csv','r','utf8')
corpus = arquivo.read().split('\n')
arquivo.close()
#
#1.2 - formata o corpus pra a extração - separando corpus treino e corpus teste - salva o corpus teste num arquivo
k = int(round(len(corpus)*0.8))
corpus_treino = random.sample(corpus,k)
corpus_teste =[]
for item in corpus:
    if item not in corpus_treino:
        corpus_teste.append(item)
        
## transformar em set pra fazer isso mais rápido!


arq = codecs.open('corpus_teste.csv','w','utf8')
for item in corpus_teste:
    uni = unicode(item) + '\n'
    arq.write(uni)
arq.close()
corpus_pronto = []
separador = ';' #nessa variável vai o separador, no caso aqui estava como ';' mas pode ser '\t',':',','...
for linha in corpus_treino:
    corpus_pronto.append(linha.split(separador))



#corpus = [['ba-t1-t@',234],['ko-b1W-tw',21],['es-p5-sJy',32]]

##################################################################
## 2 - Funções auxiliares
#conjunto de funções que pegam uma palavra e retorna os n-gramas
#Extraídas dos slides do curso de linguística computacional da FFLCH-USP - MARCELO BARRA e MARCOS LOPES
def extrai_unigramas(palavra):
    return [palavra[i:i+1] for i in range(len(palavra))]
def extrai_bigramas(palavra):
    return [palavra[i:i+2] for i in range(len(palavra)-1)]
def extrai_trigramas(palavra):
    return [palavra[i:i+3] for i in range(len(palavra)-2)]


#um loop pelo corpus, nele eu já extraio os n-gramas de uma palavra
#e começo a alimentar os dicionarios com os números de ocorrências N e M de cada uma
# só lembrando: N é o número nos types e M nos tokens.
def contaNgramas (corpus):
    dic_uni_typ = {}
    dic_uni_tok = {}
    dic_bi_typ = {}
    dic_bi_tok = {}
    dic_tri_typ = {}
    dic_tri_tok = {}
    for item_lex in corpus:
        freq = 7 #nessa variável eu salvo o índice de onde está a frequência no item lexical (representado como lista)
        try:
            pal = item_lex[4].strip(' ')
        except:
            print item_lex
            break
        unigramas = extrai_unigramas(pal) 
        bigramas = extrai_bigramas(pal) #salvo os bigramas do item
        trigramas = extrai_trigramas(pal)
        for item in unigramas:
            try:
                dic_uni_tok[item] += int(item_lex[freq])
                dic_uni_typ[item] += 1
            except:
                dic_uni_tok[item] = int(item_lex[freq])
                dic_uni_typ[item] = 1
                
        for item in bigramas: #loop pra acumular as freq dos bigramas
            try:
                dic_bi_tok[item] += int(item_lex[freq])
                dic_bi_typ[item] += 1
            except:
                dic_bi_tok[item] = int(item_lex[freq])
                dic_bi_typ[item] = 1
        for item in trigramas:
            try:
                dic_tri_tok[item] += int(item_lex[freq])
                dic_tri_typ[item] += 1
            except:
                dic_tri_tok[item] = int(item_lex[freq])
                dic_tri_typ[item] = 1
            

#preciso fazer uma rotina pra juntar os dicionario de types
#e tokens num só. de modo que acessar uma chave me retorne uma lista
#com a freq tok no indice 0 e a freq typ no indice 1
    dic_uni = {}
    dic_bi = {}
    dic_tri = {}

    for item in dic_uni_tok.keys():
        dic_uni[item] = []
        dic_uni[item].append(dic_uni_tok[item])
        dic_uni[item].append(dic_uni_typ[item])

    for item in dic_bi_tok.keys():
        dic_bi[item] = []
        dic_bi[item].append(dic_bi_tok[item])
        dic_bi[item].append(dic_bi_typ[item])

    for item in dic_tri_tok.keys():
        dic_tri[item] = []
        dic_tri[item].append(dic_tri_tok[item])
        dic_tri[item].append(dic_tri_typ[item])

    filA = codecs.open('TAB-Uni.txt','w','utf8')
    filB = codecs.open('TAB-Bi.txt','w','utf8')
    filC = codecs.open('TAB-Tri.txt','w','utf8')
    
    for item in dic_uni.keys():
        uni = item + ':\t' + str(dic_uni[item]) + '\n'
        filA.write(uni)
    filA.close()
    
    for item in dic_bi.keys():
        uni = item + ':\t' + str(dic_bi[item]) + '\n'
        filB.write(uni)
    filB.close()
        
    for item in dic_tri.keys():
        uni = item + ':\t' + str(dic_tri[item]) + '\n'
        filC.write(uni)
    filC.close()

In [33]:
contaNgramas(corpus_pronto)

In [27]:
print corpus_pronto[0:100]


[[u'de', u'   PRP', u'   de', u'   &de*', u'   &d4*', u'   &CV*', u'   mono', u'125749', u'41622', u'84127', u'V', u'leve', u'1\r'], [u'que', u'   PR', u'   que', u'   &ke*', u'   &k4*', u'   &CV*', u'   mono', u'116882', u'75207', u'41675', u'V', u'leve', u'1\r'], [u'a', u'   DET', u'   a', u'   &a*', u'   &1*', u'   &V*', u'   mono', u'102779', u'42400', u'60379', u'V', u'leve', u'1\r'], [u'o', u'   DET', u'   o', u'   &o*', u'   &o*', u'   &V*', u'   mono', u'91246', u'37153', u'54093', u'V', u'leve', u'1\r'], [u'e', u'   CONJ', u'   e', u'   &e*', u'   &e*', u'   &V*', u'   mono', u'87868', u'43915', u'43953', u'V', u'leve', u'1\r'], [u'\xe9', u'   V', u'   \xe9', u'   &3*', u'   &3*', u'   &V*', u'   mono', u'61550', u'46353', u'15197', u'V', u'leve', u'1\r'], [u'eu', u'   P', u'   eu', u'   &eW*', u'   &4W*', u'   &VG*', u'   mono', u'46558', u'44748', u'1810', u'V', u'leve', u'1\r'], [u'do', u'   PRP+DET', u'   de', u'   &do*', u'   &d9*', u'   &CV*', u'   mono', u'46538', u'14241', u'32297', u'V', u'leve', u'1\r'], [u'n\xe3o', u'   V', u'   n\xe3o', u'   &nAW*', u'   &n2W*', u'   &CVG*', u'   mono', u'43919', u'30699', u'13220', u'N', u'pesado', u'1\r'], [u'da', u'   PRP+DET', u'   de', u'   &da*', u'   &d1*', u'   &CV*', u'   mono', u'40205', u'12494', u'27711', u'V', u'leve', u'1\r'], [u'em', u'   PRP', u'   em', u'   &EJ*', u'   &6J*', u'   &VG*', u'   mono', u'37053', u'10895', u'26158', u'N', u'pesado', u'1\r'], [u'um', u'   DET', u'   um', u'   &U*', u'   &%*', u'   &V*', u'   mono', u'35188', u'20036', u'15152', u'N', u'pesado', u'1\r'], [u'voc\xea', u'   V', u'   voc\xea', u'   &vo-se*', u'   &vo-s4*', u'   &CV-CV*', u'   ox\xedtona', u'29544', u'27949', u'1595', u'V', u'leve', u'1\r'], [u'na', u'   PRP+DET', u'   em', u'   &na*', u'   &n1*', u'   &CV*', u'   mono', u'29447', u'15069', u'14378', u'V', u'leve', u'1\r'], [u'com', u'   PRP', u'   com', u'   &kO*', u' &k#*', u'   &CV*', u'   mono', u'29013', u'12326', u'16687', u'N', u'pesado', u'1\r'], [u'uma', u'   DET', u'   uma', u'   &u-ma*', u'   &$-m@*', u'   &V-CV*', u'   parox\xedtona', u'28659', u'16421', u'12238', u'V', u'leve', u'1\r'], [u'no', u'   PRP+DET', u'   em', u'   &no*', u'   &n9*', u'   &CV*', u'   mono', u'28427', u'11866', u'16561', u'V', u'leve', u'1\r'], [u'n\xe9', u'   V', u'   n\xe9', u'   &n5*', u'   &n5*', u'   &CV*', u'   ox\xedtona', u'25291', u'25223', u'68', u'V', u'leve', u'1\r'], [u'assim', u'   ADV', u'   assim', u'   &a-sI*', u'   &1-sI*', u'   &V-CV*', u'   ox\xedtona', u'24666', u'23749', u'917', u'N', u'pesado', u'1\r'], [u'tem', u'   V', u'   ter', u'   &tEJ*', u'   &t6J*', u'   &CVG*', u'   ox\xedtona', u'23936', u'20599', u'3337', u'N', u'pesado', u'1\r'], [u'para', u'   PRP', u'   para', u'   &pa-ra*', u'   &p1-r@*', u'   &CV-CV*', u'   parox\xedtona', u'20496', u'1563', u'18933', u'V', u'leve', u'1\r'], [u'se', u'   P', u'   se', u'   &se*', u'   &s4*', u'   &CV*', u'   mono', u'20323', u'10638', u'9685', u'V', u'leve', u'1\r'], [u'mais', u'   ADV', u'   mais', u'   &maJs*', u'   &m1Js*', u'   &CVGC*', u'   ox\xedtona', u'20293', u'11861', u'8432', u'S', u'pesado', u'1\r'], [u'os', u'   DET', u'   o', u'   &os*', u'   &9s*', u'   &VC*', u'   mono', u'20238', u'6571', u'13667', u'S', u'pesado', u'1\r'], [u'ele', u'   P', u'   ele', u'   &e-le*', u'   &4-ly*', u'   &V-CV*', u'   parox\xedtona', u'19376', u'16417', u'2959', u'V', u'leve', u'1\r'], [u'pra', u'   PRP+DET', u'   pro', u'   &pra*', u'   &pr1*', u'   &CCV*', u'   mono', u'18896', u'18291', u'605', u'V', u'leve', u'1\r'], [u'ent\xe3o', u'   V', u'   ent\xe3o', u'   &E-tAW*', u'   &E-t2W*', u'   &V-CVG*', u'   ox\xedtona', u'18258', u'17481', u'777', u'N', u'pesado', u'1\r'], [u'por', u'   PRP', u'   por', u'   &por*', u'   &p9r*', u'   &CVC*', u'   mono', u'18036', u'7313', u'10723', u'r', u'pesado', u'1\r'], [u'mas', u'   CONJ', u'   mas', u'   &mas*', u'   &m1s*', u'   &CVC*', u'   ox\xedtona', u'17916', u'13289', u'4627', u'S', u'pesado', u'1\r'], [u'muito', u'   ADV', u'   muito', u'   &muJ-to*', u'   &m$J-tw*', u'   &CVG-CV*', u'   parox\xedtona', u'16747', u'14785', u'1962', u'V', u'leve', u'1\r'], [u'a\xed', u'   V', u'   a\xed', u'   &a-7*', u'   &a-7*', u'   &V-V*', u'   ox\xedtona', u'15093', u'14854', u'239', u'V', u'leve', u'1\r'], [u'as', u'   DET', u'   a', u'   &as*', u'   &1s*', u'   &VC*', u'   ox\xedtona', u'15066', u'5427', u'9639', u'S', u'pesado', u'1\r'], [u'como', u'   CONJ', u'   como', u'   &ko-mo*', u'   &k9-mw*', u'   &CV-CV*', u'   parox\xedtona', u'14907', u'6743', u'8164', u'V', u'leve', u'1\r'], [u'gente', u'   NOM', u'   gente', u'   &jE-te*', u'   &j6-ty*', u'   &CV-CV*', u'   parox\xedtona', u'14124', u'13533', u'591', u'V', u'leve', u'1\r'], [u'porque', u'   CONJ', u'   porque', u'   &por-ke*', u'   &p9r-ky*', u'   &CVC-CV*', u'   parox\xedtona', u'14021', u'12852', u'1169', u'V', u'leve', u'1\r'], [u'foi', u'   V', u'   ir', u'   &foJ*', u'   &f9J*', u'   &CVG*', u'   ox\xedtona', u'13876', u'8283', u'5593', u'V', u'leve', u'1\r'], [u'l\xe1', u'   V', u'   l\xe1', u'   &l1*', u'   &l1*', u'   &CV*', u'   ox\xedtona', u'13185', u'12761', u'424', u'V', u'leve', u'1\r'], [u'tamb\xe9m', u'   V', u'   tamb\xe9m', u'   &tA-b6*', u'   &tA-b6*', u'   &CV-CV*', u'   ox\xedtona', u'12848', u'9578', u'3270', u'N', u'pesado', u'1\r'], [u'ela', u'   P', u'   ela', u'   &e-la*', u'   &4-l@*', u'   &V-CV*', u'   parox\xedtona', u'12415', u'11083', u'1332', u'V', u'leve', u'1\r'], [u'num', u'   PRP+DET', u'   em', u'   &nU*', u'   &n%*', u'   &CV*', u'   mono', u'11563', u'10987', u'576', u'N', u'pesado', u'1\r'], [u'era', u'   V', u'   ser', u'   &e-ra*', u'   &4-r@*', u'   &V-CV*', u'   parox\xedtona', u'11505', u'9818', u'1687', u'V', u'leve', u'1\r'], [u'est\xe1', u'   V', u'   est\xe1', u'   &es-t1*', u'   &es-t1*', u'   &VC-CV*', u'   ox\xedtona', u'11391', u'8729', u'2662', u'V', u'leve', u'1\r'], [u's\xe3o', u'   V', u'   s\xe3o', u'   &sAW*', u'   &s2W*', u'   &CVG*', u'   ox\xedtona', u'11018', u'7332', u'3686', u'N', u'pesado', u'1\r'], [u'tinha', u'   V', u'   ter', u'   &Ti-Na*', u'   &T7-N@*', u'   &CV-CV*', u'   parox\xedtona', u'10924', u'10248', u'676', u'V', u'leve', u'1\r'], [u'dos', u'   PRP+DET', u'   de', u'   &dos*', u'   &d9s*', u'   &CVC*', u'   ox\xedtona', u'10842', u'1910', u'8932', u'S', u'pesado', u'1\r'], [u'j\xe1', u'   V', u'   j\xe1', u'   &j1*', u'   &j1*', u'   &CV*', u'   ox\xedtona', u'10525', u'7829', u'2696', u'V', u'leve', u'1\r'], [u'minha', u'   ADJ', u'   minha', u'   &mi-Na*', u'   &m7-N@*', u'   &CV-CV*', u'   parox\xedtona', u'9751', u'9149', u'602', u'V', u'leve', u'2\r'], [u'vai', u'   V', u'   ir', u'   &vaJ*', u'   &v1J*', u'   &CVG*', u'   ox\xedtona', u'9310', u'7581', u'1729', u'V', u'leve', u'2\r'], [u'quando', u'   CONJ', u'   quando', u'   &kWA-do*', u'   &kW2-dw*', u'   &CGV-CV*', u'   parox\xedtona', u'9135', u'6992', u'2143', u'V', u'leve', u'2\r'], [u'ao', u'   PRP+DET', u'   a', u'   &a-o*', u'   &1-w*', u'   &V-V*', u'   mono', u'9115', u'1041', u'8074', u'V', u'leve', u'2\r'], [u'coisa', u'   NOM', u'   coisa', u'   &koJ-za*', u'   &k9J-z@*', u'   &CVG-CV*', u'   parox\xedtona', u'9058', u'8671', u'387', u'V', u'leve', u'2\r'], [u'ou', u'   CONJ', u'   ou', u'   &oW*', u'   &9W*', u'   &VG*', u'   mono', u'8951', u'4673', u'4278', u'V', u'leve', u'2\r'], [u'aqui', u'   ADV', u'   aqui', u'   &a-ki*', u'   &1-ky*', u'   &V-CV*', u'   parox\xedtona', u'8887', u'8017', u'870', u'V', u'leve', u'2\r'], [u'isso', u'   P', u'   isso', u'   &i-so*', u'   &7-sw*', u'   &V-CV*', u'   parox\xedtona', u'8850', u'7114', u'1736', u'V', u'leve', u'2\r'], [u'mesmo', u'   ADJ', u'   mesmo', u'   &mes-mo*', u'   &m4s-mw*', u'   &CVC-CV*', u'   parox\xedtona', u'8154', u'6091', u'2063', u'V', u'leve', u'2\r'], [u'eles', u'   P', u'   ele', u'   &e-les*', u'   &e-l4s*', u'   &V-CVC*', u'   ox\xedtona', u'8099', u'7108', u'991', u'S', u'pesado', u'2\r'], [u'paulo', u'   NOM', u'   paulo', u'   &paW-lo*', u'   &p1W-lw*', u'   &CVG-CV*', u'   parox\xedtona', u'7929', u'6286', u'1643', u'V', u'leve', u'2\r'], [u's\xf3', u'   V', u'   s\xf3', u'   &s!*', u'   &s!*', u'   &CV*', u'   mono', u'7796', u'5972', u'1824', u'V', u'leve', u'2\r'], [u'acho', u'   V', u'   achar', u'   &a-So*', u'   &1-Sw*', u'   &V-CV*', u'   parox\xedtona', u'7311', u'7124', u'187', u'V', u'leve', u'2\r'], [u'contextuais', u'   ADJ', u'   contextual', u'   &kO-tes-tWaJs*', u'   &kO-tes-tW1Js*', u'   &CV-CVC-CGVGC*', u'   ox\xedtona', u'7269', u'7267', u'2', u'S', u'pesado', u'2\r'], [u'das', u'   PRP+DET', u'   de', u'   &das*', u'   &d1s*', u'   &CVC*', u'   ox\xedtona', u'7261', u'1392', u'5869', u'S', u'pesado', u'2\r'], [u'fazer', u'   V', u'   fazer', u'   &fa-zer*', u'   &fa-z4r*', u'   &CV-CVC*', u'   ox\xedtona', u'7054', u'5675', u'1379', u'r', u'pesado', u'2\r'], [u'ser', u'   V', u'   ser', u'   &ser*', u'   &s4r*', u'   &CVC*', u'   mono', u'6963', u'2796', u'4167', u'r', u'pesado', u'2\r'], [u'meu', u'   ADJ', u'   meu', u'   &meW*', u'   &m4W*', u'   &CVG*', u'   mono', u'6936', u'6357', u'579', u'V', u'leve', u'2\r'], [u'\xe0', u'   V', u'   \xe0', u'   a&a*', u'   &1*', u'   &V*', u'   mono', u'6887', u'1108', u'5779', u'V', u'leve', u'2\r'], [u'at\xe9', u'   V', u'   at\xe9', u'   &a-t5*', u'   &a-t5*', u'   &V-CV*', u'   ox\xedtona', u'6810', u'4343', u'2467', u'V', u'leve', u'2\r'], [u'tudo', u'   P', u'   tudo', u'   &tu-do*', u'   &t$-dw*', u'   &CV-CV*', u'   parox\xedtona', u'6697', u'5988', u'709', u'V', u'leve', u'2\r'], [u'agora', u'   ADV', u'   agora', u'   &a-go-ra*', u'   &a-g9-r@*', u'   &V-CV-CV*', u'   parox\xedtona', u'6061', u'5144', u'917', u'V', u'leve', u'2\r'], [u'anos', u'   NOM', u'   ano', u'   &a-nos*', u'   &a-n9s*', u'   &V-CVC*', u'   ox\xedtona', u'6037', u'2987', u'3050', u'S', u'pesado', u'2\r'], [u'casa', u'   NOM', u'   casa', u'   &ka-za*', u'   &k1-z@*', u'   &CV-CV*', u'   parox\xedtona', u'5996', u'4787', u'1209', u'V', u'leve', u'2\r'], [u'bem', u'   ADV', u'   bem', u'   &bEJ*', u'   &b6J*', u'   &CVG*', u'   ox\xedtona', u'5742', u'4356', u'1386', u'N', u'pesado', u'2\r'], [u'me', u'   P', u'   me', u'   &me*', u'   \xe1tono', u'   &CV*', u'   mono', u'5737', u'4928', u'809', u'V', u'leve', u'2\r'], [u'depois', u'   ADV', u'   depois', u'   &de-poJs*', u'   &de-p9Js*', u'   &CV-CVGC*', u'   ox\xedtona', u'5681', u'4488', u'1193', u'S', u'pesado', u'2\r'], [u'sua', u'   ADJ', u'   sua', u'   &su-a*', u'   &s$-@*', u'   &CGV*', u'   parox\xedtona', u'5558', u'1505', u'4053', u'V', u'leve', u'2\r'], [u'estava', u'   V', u'   estar', u'   &es-ta-va*', u'   &es-t1-v@*', u'   &VC-CV-CV*', u'   parox\xedtona', u'5519', u'4774', u'745', u'V', u'leve', u'2\r'], [u'pessoas', u'   NOM', u'   pessoa', u'   &pe-so-as*', u'   &pe-so-1s*', u'   &CV-CV-VC*', u'   ox\xedtona', u'5249', u'3918', u'1331', u'S', u'pesado', u'2\r'], [u'ter', u'   V', u'   ter', u'   &ter*', u'   &t4r*', u'   &CVC*', u'   mono', u'4951', u'2891', u'2060', u'r', u'pesado', u'2\r'], [u'ainda', u'   ADV', u'   ainda', u'   &a-I-da*', u'   &a-8-d@*', u'   &V-V-CV*', u'   parox\xedtona', u'4947', u'2665', u'2282', u'V', u'leve', u'2\r'], [u'sei', u'   V', u'   saber', u'   &seJ*', u'   &s4J*', u'   &CVG*', u'   mono', u'4944', u'4771', u'173', u'V', u'leve', u'2\r'], [u'pelo', u'   PRP+DET', u'   por', u'   &pe-lo*', u'   &p4-lw*', u'   &CV-CV*', u'   parox\xedtona', u'4938', u'1265', u'3673', u'V', u'leve', u'2\r'], [u'seu', u'   ADJ', u'   seu', u'   &seW*', u'   &s4W*', u'   &CVG*', u'   mono', u'4922', u'1343', u'3579', u'V', u'leve', u'2\r'], [u'cidade', u'   NOM', u'   cidade', u'   &si-da-de*', u'   &si-d1-dy*', u'   &CV-CV-CV*', u'   parox\xedtona', u'4827', u'3618', u'1209', u'V', u'leve', u'2\r'], [u'pode', u'   V', u'   poder', u'   &po-de*', u'   &p9-dy*', u'   &CV-CV*', u'   parox\xedtona', u'4691', u'2579', u'2112', u'V', u'leve', u'2\r'], [u'tempo', u'   NOM', u'   tempo', u'   &tE-po*', u'   &t6-pw*', u'   &CV-CV*', u'   parox\xedtona', u'4637', u'3027', u'1610', u'V', u'leve', u'2\r'], [u'sempre', u'   ADV', u'   sempre', u'   &sE-pre*', u'   &s6-pry*', u'   &CV-CCV*', u'   parox\xedtona', u'4628', u'3736', u'892', u'V', u'leve', u'2\r'], [u'essa', u'   DET', u'   essa', u'   &e-sa*', u'   &4-s@*', u'   &V-CV*', u'   parox\xedtona', u'4599', u'3434', u'1165', u'V', u'leve', u'2\r'], [u'pela', u'   PRP+DET', u'   por', u'   &pe-la*', u'   &p4-l@*', u'   &CV-CV*', u'   parox\xedtona', u'4515', u'814', u'3701', u'V', u'leve', u'2\r'], [u'outro', u'   ADJ', u'   outro', u'   &oW-tro*', u'   &9W-trw*', u'   &VG-CCV*', u'   parox\xedtona', u'4505', u'3456', u'1049', u'V', u'leve', u'2\r'], [u'dia', u'   NOM', u'   dia', u'   &Di-a*', u'   &D7-@*', u'   &CV-V*', u'   proparox\xedtona', u'4477', u'2826', u'1651', u'V', u'leve', u'2\r'], [u'esse', u'   P', u'   esse', u'   &e-se*', u'   &4-sy*', u'   &V-CV*', u'   parox\xedtona', u'4473', u'3237', u'1236', u'V', u'leve', u'2\r'], [u'sobre', u'   PRP', u'   sobre', u'   &so-bre*', u'   &s9-bry*', u'   &CV-CCV*', u'   parox\xedtona', u'4372', u'811', u'3561', u'V', u'leve', u'2\r'], [u'sabe', u'   V', u'   saber', u'   &sa-be*', u'   &s1-by*', u'   &CV-CV*', u'   parox\xedtona', u'4322', u'4026', u'296', u'V', u'leve', u'2\r'], [u'hoje', u'   ADV', u'   hoje', u'   &o-je*', u'   &9-jy*', u'   &V-CV*', u'   parox\xedtona', u'4293', u'3314', u'979', u'V', u'leve', u'2\r'], [u'tenho', u'   V', u'   ter', u'   &te-No*', u'   &t4-Nw*', u'   &CV-CV*', u'   parox\xedtona', u'4211', u'3947', u'264', u'V', u'leve', u'2\r'], [u'falar', u'   V', u'   falar', u'   &fa-lar*', u'   &fa-l1r*', u'   &CV-CVC*', u'   ox\xedtona', u'4088', u'3707', u'381', u'r', u'pesado', u'2\r'], [u'nos', u'   PRP+DET', u'   em', u'   &nos*', u'   &n9s*', u'   &CVC*', u'   mono', u'3939', u'750', u'3189', u'S', u'pesado', u'2\r'], [u'ano', u'   NOM', u'   ano', u'   &a-no*', u'   &1-nw*', u'   &V-CV*', u'   parox\xedtona', u'3926', u'1704', u'2222', u'V', u'leve', u'2\r'], [u'entre', u'   PRP', u'   entre', u'   &E-tre*', u'   &6-try*', u'   &V-CCV*', u'   parox\xedtona', u'3843', u'565', u'3278', u'V', u'leve', u'2\r'], [u'nem', u'   CONJ', u'   nem', u'   &nEJ*', u'   &n6J*', u'   &CVG*', u'   mono', u'3783', u'2881', u'902', u'N', u'pesado', u'2\r'], [u'lugar', u'   NOM', u'   lugar', u'   &lu-gar*', u'   &lu-g1r*', u'   &CV-CVC*', u'   ox\xedtona', u'3683', u'2914', u'769', u'r', u'pesado', u'2\r']]

In [ ]: