In [6]:
from __future__ import unicode_literals
import spacy
import xx_ent_wiki_sm
import pickle
nlp = xx_ent_wiki_sm.load()
doc = nlp('Quem é Shaka Khan?')
for ent in doc.ents:
print(ent.text, ent.start_char, ent.end_char, ent.label_)
doc = nlp('الرئيس')
for ent in doc.ents:
print(ent.text, ent.start_char, ent.end_char, ent.label_)
In [9]:
doc = nlp('الرئيس')
len(doc.ents)
# for ent in doc.ents:
# print(ent.text, ent.start_char, ent.end_char, ent.label_)
Out[9]:
In [3]:
arabiclist=[]
with open("entity_vs_count.data","rb") as f:
arabiclist=pickle.load(f)
In [4]:
len(arabiclist)
Out[4]:
In [5]:
count=0
for key,val in arabiclist:
if count<5:
count=count+1
print(key)
print(val)
else:
break
In [16]:
%%time
stuff_makesense=[]
count=0
for key,val in arabiclist:
count=count+1
if count%10000==0:
print(str(count),"processed")
doc=nlp(key)
if(len(doc.ents)==0):
continue;
for ent in doc.ents:
stuff_makesense.append({ent.text:ent.label_})
#print(ent.text, ent.start_char, ent.end_char, ent.label_)
In [21]:
print("stuff make sense: ",len(stuff_makesense))
print("all the nouns parsed in our arabic sentences: ",len(arabiclist))
print("percentage: ",str(len(stuff_makesense)/len(arabiclist)*100)+"%")
In [22]:
try:
with open("stuff_makesense_spacy_ner",'wb') as f:
pickle.dump(stuff_makesense,f,pickle.HIGHEST_PROTOCOL)
except Exception as e:
print(e)
pass
In [28]:
stuff_makesense[4]
Out[28]:
In [29]:
from pymongo import MongoClient
import time
import pickle
client=MongoClient()
client=MongoClient('mongodb://server:29017/')
db=client['eventData']
table=db["spacyResult"]
In [41]:
for dic in stuff_makesense:
for key,value in dic.items():
table.insert({"word":key,"ner":value})
In [35]:
stuff_makesense[0]
test={'العام': 'PER'}
In [40]:
for i in test:
print(i)
In [4]:
from __future__ import unicode_literals
In [5]:
import spacy
import xx_ent_wiki_sm
In [6]:
nlp=xx_ent_wiki_sm.load()
In [8]:
doc1=nlp("ويصف المسؤولون الفوائد أو التخفيضات الضريبية الفيدرالية المعدة للطاقة المتجددة ـ وهي تلك التي أنهى الكونغرس مدتها ثم جددها لمرات عدة ـ بأنها بالغة الأهمية")
In [9]:
for ent in doc1.ents:
print(ent.text, ent.start_char, ent.end_char, ent.label_)
In [10]:
doc2=nlp("وحول منافسة مشروع مشروع توسعة واعادة تأهيل مجمع صالات الحج بمطار الملك عبد العزيز الدولي قال مسؤولي الطيران المدني «لقد تقدمت خمس مجموعات تحالفات من الشركات السعودية والعالمية بعروضها، ووقع الاختيار على مجموعة بن لادن السعودية المتضامنة مع شركة (AEROPORT DE PARIS) الفرنسية كصاحبة أفضل العروضة، إذا فازت بأعلى النقاط بعد تقييم العروض فنيا وماليا")
In [11]:
for ent in doc2.ents:
print(ent.text, ent.start_char, ent.end_char, ent.label_)
In [14]:
doc3=nlp("عام 2005 اتفق جون وزوجته بيفرلي على الطلاق بعد زواج استمر 28 عاما، انجبا خلاله ولدين")
In [15]:
for ent in doc3.ents:
print(ent.text, ent.start_char, ent.end_char, ent.label_)
In [16]:
doc4=nlp("فأجاب «كنت معروفا في السابق كممثل كوميدي في المسرح والتلفزيون، لكن الانترنت أتاحت لي الانتشار حاليaا في أوساط الشباب الذين يدركون أن أغلبية الساسة عندنا فاسدون ويشكلون طبقة منغلقة على نفسها، مثل احدى الطوائف الاجتماعية الوراثية عند الهندوس، حيث التمييز الطبقي يبنى على أساس المنزلة أو الثروة»")
In [17]:
for ent in doc4.ents:
print(ent.text, ent.start_char, ent.end_char, ent.label_)
In [ ]: