In [1]:
from pyspark.mllib.feature import Word2Vec
inp = sc.textFile('./data/new_parsed_no_spam.txt').map(lambda row: row.split(" "))
word2vec = Word2Vec()
model = word2vec.fit(inp)

In [40]:
be =(model.transform('必買') + model.transform('日本'))/2
synonyms = model.findSynonyms(be, 40)
for word, cosine_distance in synonyms:
    print("{}: {}".format(word.encode('utf-8'), cosine_distance))


東京: 1.18777803778
推薦: 1.11656354293
必買: 1.08323397444
旅遊: 1.05891576415
山陰: 1.05645043889
東北: 1.04155510524
神戶: 1.02561015344
台灣: 0.993828835598
美食: 0.984189842676
就愛: 0.980322926641
飯店: 0.957075184706
拉麵: 0.956561411643
福岡: 0.953082275732
日式料理: 0.951422935111
朝市: 0.948065311087
餐廳: 0.938072982109
京都: 0.93258499751
好吃: 0.922879541939
食記: 0.919730581538
必吃: 0.919680717883
下午茶: 0.919585521245
這次: 0.917045679669
大阪: 0.916859809044
這裡: 0.910393361699
加減: 0.909452649157
還有: 0.907198178092
這家: 0.906389974387
剉冰: 0.90531986755
櫻花: 0.8925217884
築地: 0.890627935035
蛋餅: 0.887405922488
海膽: 0.885562979105
阿美: 0.88099761497
橋站: 0.880638096249
平價: 0.880240534331
日本料理: 0.877964305381
名城: 0.876845853879
墾丁: 0.876662717659
初訪: 0.875118942921
介紹: 0.873670894645

In [3]:
keyword='美白'
be =  model.transform(keyword) 
print '與 ' + keyword + " 相關的詞如下:" 
synonyms = model.findSynonyms(be,40)
for word, cosine_distance in synonyms:
    print("{}: {}".format(word.encode('utf-8'), cosine_distance))


與 美白 相關的詞如下:
潤色: 1.28060905206
補水: 1.27818315833
成份: 1.26776956215
成分: 1.26437410409
維他命: 1.24541643391
含有: 1.24100393328
潤澤: 1.23596198038
保水: 1.22226269575
隔離: 1.21888644503
臉部: 1.21768383133
洋甘菊: 1.19308921536
急救: 1.1910989604
乾性: 1.19087323193
淡斑: 1.1904759335
溫和: 1.18910400191
敷面: 1.18898548689
眼周: 1.18551661483
萃取: 1.18483113105
水分: 1.1816845932
擦上: 1.18071791117
胜肽: 1.1800106963
緊實: 1.17942100039
油水: 1.17599150011
油性: 1.17445432689
因子: 1.17072983999
滋潤: 1.16789731488
精油: 1.16768892914
配方: 1.16697295493
鎮定: 1.16639320133
富含: 1.16538568868
粉刺: 1.16489960408
油脂: 1.16427688728
功效: 1.16390773327
按摩: 1.16283515716
鼻頭: 1.1627303203
敏感: 1.1619208432
凝膠: 1.1619164936
呵護: 1.16082090166
黯沉: 1.16002288578
攝取: 1.1600023121

In [33]:
cat ./data/new_parsed_no_spam.txt | wc -l


201304

In [ ]: