In [1]:
from pyspark.mllib.feature import Word2Vec
inp = sc.textFile('./data/new_parsed_no_spam.txt').map(lambda row: row.split(" "))
word2vec = Word2Vec()
model = word2vec.fit(inp)

In [64]:
be =   (model.transform('店家')+ model.transform('店名'))*2 - model.transform('難吃')*2 + model.transform('好吃')*1
synonyms = model.findSynonyms(be, 40)
for word, cosine_distance in synonyms:
    print("{}: {}".format(word.encode('utf-8'), cosine_distance))


店名: 0.797977149487
法豆鮮: 0.664511144161
洋朵: 0.655015051365
法樂米: 0.638847589493
簡閱: 0.638360321522
Enalley: 0.634707808495
Pasta: 0.630737066269
咬蛋: 0.628726840019
青鳥: 0.622638106346
輕食: 0.618459939957
溫德德式: 0.61318975687
百珍: 0.604635715485
一中店: 0.604245662689
燒鳥: 0.604139566422
阿財: 0.603386342525
Famonn: 0.603010118008
鹿點: 0.602878332138
PELLEO: 0.601222574711
nybc: 0.600034415722
五莖: 0.598786234856
Caf: 0.598756730556
錦津澤: 0.598662495613
簡餐: 0.598346114159
福記: 0.597760081291
CAFE: 0.597102999687
江豪記: 0.595591723919
凱蘿琳: 0.59482383728
樂祈: 0.594637215137
Corrine: 0.594626069069
Coucou: 0.592837154865
千陽: 0.591681301594
甘泉: 0.59039837122
添喜: 0.59003084898
甜子: 0.589581847191
激推: 0.589004635811
雪綿冰: 0.588553547859
Nooice: 0.587925672531
芳鄰: 0.587363898754
筑馨: 0.587215006351
李冰: 0.586992442608

In [29]:
keyword='日本'
be =  model.transform(keyword) 
print '與 ' + keyword + " 相關的詞如下:" 
synonyms = model.findSynonyms(be,100)
for word, cosine_distance in synonyms:
    print("{}: {}".format(word.encode('utf-8'), cosine_distance))


與 日本 相關的詞如下:
推薦: 1.65426871303
東京: 1.51814900107
旅遊: 1.50279333104
料理: 1.49996424202
美食: 1.42771767756
仙台: 1.40057131983
神戶: 1.38407038449
拉麵: 1.37265944645
台灣: 1.36307814447
餐廳: 1.36237755723
這次: 1.34582847776
好吃: 1.34472624753
還有: 1.33798855923
大阪: 1.33411896296
這裡: 1.33247911853
火鍋: 1.31572402636
就愛: 1.30419078808
山陰: 1.29354326882
飯店: 1.28203176074
東北: 1.26052282997
套餐: 1.25160037375
Osaka: 1.24683858001
海鮮: 1.22276226201
日式: 1.21161185416
築地: 1.20289170462
住宿: 1.2007510751
必吃: 1.19944050041
京都: 1.18237773625
朝市: 1.17739912578
我們: 1.17046697479
關島: 1.16343514128
夙川: 1.16078487757
食記: 1.15513917028
目前: 1.15063515793
一蘭: 1.14695156988
菜單: 1.14559990368
鱸魚: 1.13954352665
這個: 1.13837382933
海膽: 1.13559538602
鬆餅: 1.13407907065
RA: 1.13370299582
剛好: 1.12750157328
日式料理: 1.11936521485
..............: 1.11813366969
口味: 1.11759877684
上面: 1.11703105183
法國: 1.11467935038
小吃: 1.11327830249
名城: 1.10907544585
這家: 1.10345062494
Capricciosa: 1.09665558524
甜點: 1.0950955404
加減: 1.09280799341
下午茶: 1.09225992937
Cafe: 1.08785418304
蛋糕: 1.08297248059
介紹: 1.08185535206
賽德克: 1.07987313412
美味: 1.07946559835
帝一: 1.07942121568
來自: 1.07497169004
壽司: 1.07301037935
排隊: 1.07196151418
栗子: 1.06886314644
可愛: 1.06702691142
品牌: 1.06696007637
VF: 1.06617642753
億文旅: 1.06574578754
福岡: 1.06449013362
頂級: 1.0642578819
更多: 1.06345257417
雅娜: 1.06318751012
日月潭: 1.0629600187
特別: 1.06278561117
右上: 1.06206685769
精緻: 1.06167308688
最後: 1.06010729418
新竹美食: 1.05700609861
位於: 1.05569367635
裡面: 1.05141669087
喜歡: 1.04394190636
阿美: 1.04348877497
第四天: 1.04194708411
吃到飽: 1.04060595049
早餐: 1.04047076207
韓國: 1.04036084495
日本料理: 1.04007995937
提供: 1.03877856794
牛舌: 1.03857496772
牛骨: 1.03759753468
義大利麵: 1.03701663282
自駕遊: 1.03676499777
塔皮: 1.03672846644
主題: 1.03435145941
最近: 1.03430302536
利久: 1.03387097026
泡菜: 1.03365798825
另外: 1.03224905198
紫蘇: 1.02840476278
橋站: 1.02756726975

In [ ]:


In [ ]: