notebook.community

Edit and run



In [1]:

    
from gensim.models.word2vec import Word2Vec



In [2]:

    
ls









    



GoogleNews-vectors-negative300.bin.gz  LICENSE                                Untitled0.ipynb



In [3]:

    
model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz', binary=True)



In [4]:

    
model.most_similar(positive=['woman', 'king'], negative=['man'])









    Out[4]:





[(u'queen', 0.7118192315101624),
 (u'monarch', 0.6189674139022827),
 (u'princess', 0.5902431011199951),
 (u'crown_prince', 0.5499460697174072),
 (u'prince', 0.5377321839332581),
 (u'kings', 0.5236843824386597),
 (u'Queen_Consort', 0.5235945582389832),
 (u'queens', 0.5181134939193726),
 (u'sultan', 0.5098593235015869),
 (u'monarchy', 0.5087411999702454)]



In [9]:

    
model.most_similar(positive=['kitten', 'dog'], negative=['cat'])









    Out[9]:





[(u'puppies', 0.7683367133140564),
 (u'puppy', 0.7005596160888672),
 (u'dog', 0.6906638145446777),
 (u'pups', 0.6765872240066528),
 (u'pup', 0.6471112370491028),
 (u'kitten', 0.6197421550750732),
 (u'pit_bulls', 0.6081045269966125),
 (u'canines', 0.6072684526443481),
 (u'pooches', 0.6060751080513),
 (u'stray_kittens', 0.5967546701431274)]



In [11]:

    
model.most_similar(positive=['biggest', 'small'], negative=['big'])









    Out[11]:





[(u'smallest', 0.6086567640304565),
 (u'largest', 0.6007466316223145),
 (u'tiny', 0.538729727268219),
 (u'large', 0.45694398880004883),
 (u'minuscule', 0.4340195059776306),
 (u'medium_sized', 0.42812949419021606),
 (u'secondlargest', 0.4263739585876465),
 (u'fastest_growing', 0.4198429584503174),
 (u'tiniest', 0.3970125913619995),
 (u'larget', 0.3921312093734741)]



In [12]:

    
model.most_similar(positive=['Greece', 'Oslo'], negative=['Athens'])









    Out[12]:





[(u'Norway', 0.6470743417739868),
 (u'Norwegian', 0.5828857421875),
 (u'Iceland', 0.5642152428627014),
 (u'Oslo_Norway', 0.5259366035461426),
 (u'Sweden', 0.5139011144638062),
 (u'Denmark', 0.5110613107681274),
 (u'Norwegians', 0.5076724886894226),
 (u'DnB_NOR_ASA', 0.5041865706443787),
 (u'Scandinavia', 0.4973710775375366),
 (u'Geir', 0.4958716630935669)]



In [14]:

    
model.most_similar(positive=['sister', 'grandson'], negative=['brother'])









    Out[14]:





[(u'granddaughter', 0.8571423888206482),
 (u'niece', 0.7652388215065002),
 (u'daughter', 0.7484132051467896),
 (u'granddaughters', 0.7268373370170593),
 (u'grandmother', 0.7173601388931274),
 (u'grandaughter', 0.7067251801490784),
 (u'mother', 0.6842734813690186),
 (u'aunt', 0.6822428107261658),
 (u'grandchild', 0.6610905528068542),
 (u'eldest_daughter', 0.6484787464141846)]



In [17]:

    
model.most_similar(positive=['Paris', 'Italy'], negative=['France'])









    Out[17]:





[(u'Milan', 0.7222141623497009),
 (u'Rome', 0.702830970287323),
 (u'Palermo_Sicily', 0.5967569947242737),
 (u'Italian', 0.5911272764205933),
 (u'Tuscany', 0.5632812976837158),
 (u'Bologna', 0.5608358383178711),
 (u'Sicily', 0.559638500213623),
 (u'Bologna_Italy', 0.5470058917999268),
 (u'Berna_Milan', 0.5464028120040894),
 (u'Genoa', 0.5308900475502014)]



In [18]:

    
model.most_similar(positive=['Paris', 'Japan'], negative=['France'])









    Out[18]:





[(u'Tokyo', 0.8142861127853394),
 (u'Toyko', 0.6596698760986328),
 (u'Osaka', 0.6350962519645691),
 (u'Nagoya', 0.6258590221405029),
 (u'Seoul', 0.6054927110671997),
 (u'Japanese', 0.5919331908226013),
 (u'Yokohama', 0.590090274810791),
 (u'Osaka_Japan', 0.585975170135498),
 (u'Takamatsu', 0.57918381690979),
 (u'Fukuoka', 0.5664029121398926)]



In [19]:

    
model.most_similar(positive=['Paris', 'Florida'], negative=['France'])









    Out[19]:





[(u'Tampa', 0.6697602272033691),
 (u'Miami', 0.6562283039093018),
 (u'Tallahassee', 0.6444566249847412),
 (u'Fort_Lauderdale', 0.6304841041564941),
 (u'West_Palm_Beach', 0.6073595285415649),
 (u'Flordia', 0.606468141078949),
 (u'Sarasota', 0.591431736946106),
 (u'Palm_Beach', 0.5843766927719116),
 (u'Orlando', 0.5825119018554688),
 (u'Coral_Gables', 0.5789375305175781)]



In [20]:

    
model.most_similar(positive=['scientist', 'Messi'], negative=['Einstein'])









    Out[20]:





[(u'midfielder_Andres_Iniesta', 0.4764716625213623),
 (u'Ronaldinho', 0.4583863615989685),
 (u"Eto'o", 0.4565759301185608),
 (u'Forlan', 0.4553895592689514),
 (u'defender_Maicon', 0.4524889886379242),
 (u'Ronaldo', 0.44839489459991455),
 (u'defender_Roberto_Ayala', 0.4477323591709137),
 (u'Iniesta', 0.44773223996162415),
 (u'midfielder_Xavi', 0.4415304660797119),
 (u'Barca', 0.4403415322303772)]



In [21]:

    
model.most_similar(positive=['scientist', 'Mozart'], negative=['Einstein'])









    Out[21]:





[(u'composer', 0.5571082234382629),
 (u'researcher', 0.5302102565765381),
 (u'biologist', 0.527501106262207),
 (u'cellist', 0.5128622055053711),
 (u'pianist', 0.5066509246826172),
 (u'microbiologist', 0.49905431270599365),
 (u'cello_soloist', 0.4963686466217041),
 (u'violinist', 0.4921690821647644),
 (u'soprano', 0.485787034034729),
 (u'Chamber_Orchestra', 0.4776730537414551)]



In [22]:

    
model.most_similar(positive=['scientist', 'Picasso'], negative=['Einstein'])









    Out[22]:





[(u'painter', 0.5553721189498901),
 (u'biologist', 0.5007843375205994),
 (u'researcher', 0.49448227882385254),
 (u'ecologist', 0.48325473070144653),
 (u'marine_biologist', 0.47954514622688293),
 (u'sculptor', 0.4630447328090668),
 (u'artist', 0.4621543288230896),
 (u'muralist', 0.45358774065971375),
 (u'archaeologist', 0.4479282796382904),
 (u'ceramist', 0.4460166096687317)]



In [23]:

    
model.most_similar(positive=['sushi', 'Germany'], negative=['Japan'])









    Out[23]:





[(u'Wiener_schnitzel', 0.5838432312011719),
 (u'wiener_schnitzel', 0.5730941891670227),
 (u'schnitzel', 0.5727653503417969),
 (u'weisswurst', 0.5577686429023743),
 (u'schnitzels', 0.5427553653717041),
 (u'charcuterie', 0.542153000831604),
 (u'wursts', 0.5338369607925415),
 (u'sauerbraten', 0.5294359922409058),
 (u'wurst', 0.5267575979232788),
 (u'currywurst', 0.5257701873779297)]



In [24]:

    
model.most_similar(positive=['sushi', 'France'], negative=['Japan'])









    Out[24]:





[(u'croque_monsieur', 0.6099806427955627),
 (u'plat_du_jour', 0.6048351526260376),
 (u'baguettes', 0.6035820841789246),
 (u'moules', 0.5975416898727417),
 (u'cassoulet', 0.5969409942626953),
 (u'baguette', 0.596493661403656),
 (u'bouillabaisse', 0.5924673080444336),
 (u'frites', 0.5884311199188232),
 (u'Parisian_bistro', 0.5867328643798828),
 (u'bistrot', 0.5854848623275757)]



In [25]:

    
model.most_similar(positive=['sushi', 'USA'], negative=['Japan'])









    Out[25]:





[(u'burger', 0.47294312715530396),
 (u'sandwiches', 0.4690607786178589),
 (u'sandwich', 0.4660155773162842),
 (u'gourmet_pizza', 0.46554532647132874),
 (u'pizza_calzones', 0.45819687843322754),
 (u'Angelini_Osteria', 0.4552556872367859),
 (u'salad', 0.45183175802230835),
 (u'Niman_Ranch_beef', 0.45097458362579346),
 (u'Fette_Sau', 0.45036929845809937),
 (u'burgers_salads', 0.44734442234039307)]



In [29]:

    
model.most_similar(positive=['Beijing', 'Russia'], negative=['China'])









    Out[29]:





[(u'Moscow', 0.8646622896194458),
 (u'Kremlin', 0.7143909931182861),
 (u'Tbilisi', 0.6708438396453857),
 (u'Kiev', 0.6676636338233948),
 (u'Russian', 0.6646864414215088),
 (u'Minsk', 0.6415616273880005),
 (u'Putin', 0.6333817839622498),
 (u'Ukraine', 0.6287436485290527),
 (u'Russians', 0.6244307160377502),
 (u'Belarus', 0.6203650236129761)]



In [30]:

    
model.most_similar(positive=['Beijing', 'Japan'], negative=['China'])









    Out[30]:





[(u'Tokyo', 0.8115593791007996),
 (u'Osaka', 0.6796455383300781),
 (u'Seoul', 0.6568830609321594),
 (u'Japanese', 0.6475988626480103),
 (u'Nagoya', 0.6425851583480835),
 (u'Maebashi', 0.6409164667129517),
 (u'Yokohama', 0.6262893676757812),
 (u'Fukuoka', 0.6085070371627808),
 (u'Osaka_Japan', 0.606758713722229),
 (u'Sapporo', 0.6054472923278809)]



In [32]:

    
model.most_similar(positive=['Beijing', 'Poland'], negative=['China'])









    Out[32]:





[(u'Warsaw', 0.7009754180908203),
 (u'Prague', 0.6499823331832886),
 (u'Polish', 0.6488382816314697),
 (u'Budapest', 0.6402565240859985),
 (u'Krakow', 0.6191353797912598),
 (u'Bratislava', 0.602115273475647),
 (u'Vilnius', 0.5941131711006165),
 (u'Czech_Republic', 0.5820773243904114),
 (u'Warsaw_Gdansk', 0.5750331878662109),
 (u'Pozna\u0144', 0.5748992562294006)]



In [33]:

    
model.most_similar(positive=['Beijing', 'Germany'], negative=['China'])









    Out[33]:





[(u'Berlin', 0.7202242612838745),
 (u'Munich', 0.7059080004692078),
 (u'Dusseldorf', 0.6673773527145386),
 (u'Cologne', 0.6633880138397217),
 (u'Leipzig', 0.632694661617279),
 (u'Frankfurt', 0.6314069032669067),
 (u'Munich_Germany', 0.6266558170318604),
 (u'German', 0.6265211701393127),
 (u'Austria', 0.6233247518539429),
 (u'Stuttgart', 0.6120568513870239)]



In [34]:

    
model.most_similar(positive=['Beijing', 'France'], negative=['China'])









    Out[34]:





[(u'Paris', 0.7213079333305359),
 (u'French', 0.623708188533783),
 (u'Colombes', 0.6085582375526428),
 (u'Marseille', 0.5966455936431885),
 (u'Melun', 0.5886248350143433),
 (u'Aix_en_Provence', 0.5781102180480957),
 (u'Issy_les_Moulineaux', 0.5776772499084473),
 (u'Montpellier', 0.5738121867179871),
 (u'Toulouse', 0.5707192420959473),
 (u'Nantes', 0.5658742785453796)]



In [35]:

    
model.most_similar(positive=['Beijing', 'Italy'], negative=['China'])









    Out[35]:





[(u'Turin', 0.6654064655303955),
 (u'Rome', 0.6643825769424438),
 (u'Milan', 0.6463647484779358),
 (u'Italian', 0.6389298439025879),
 (u'Italians', 0.6012134552001953),
 (u'Bologna', 0.6002976894378662),
 (u'Turin_Italy', 0.595194935798645),
 (u'Sicily', 0.5913180112838745),
 (u'Palermo_Sicily', 0.5893950462341309),
 (u'Val_Di_Fiemme', 0.5761504173278809)]



In [36]:

    
model.most_similar(positive=['Beijing', 'Greece'], negative=['China'])









    Out[36]:





[(u'Athens', 0.7107490301132202),
 (u'Greek', 0.6379308700561523),
 (u'Greeks', 0.6137858629226685),
 (u'Athens_Greece', 0.6063570976257324),
 (u'Iraklion', 0.5916062593460083),
 (u'Thessaloniki', 0.5813091993331909),
 (u'Mykonos_Island', 0.5800708532333374),
 (u'Venizelos', 0.5800216197967529),
 (u'Tsartas', 0.5774103403091431),
 (u'Mayor_Dora_Bakoyannis', 0.572969913482666)]



In [37]:

    
model.most_similar(positive=['Beijing', 'Spain'], negative=['China'])









    Out[37]:





[(u'Madrid', 0.7469539642333984),
 (u'Barcelona', 0.6806047558784485),
 (u'Seville', 0.621259868144989),
 (u'San_Sebasti\xe1n', 0.6180102825164795),
 (u'Catalonia', 0.6018795371055603),
 (u'Malaga', 0.5958230495452881),
 (u'Catalan', 0.5910037755966187),
 (u'Spaniards', 0.5888459086418152),
 (u'Mallorca', 0.5861931443214417),
 (u'Bilbao', 0.5815985202789307)]



In [44]:

    
model.most_similar(positive=['Steve_Ballmer', 'Apple'], negative=['Microsoft'])









    Out[44]:





[(u'Steve_Jobs', 0.7575128078460693),
 (u'Eric_Schmidt', 0.6014548540115356),
 (u'Apple_AAPL', 0.5867894887924194),
 (u'Paul_Otellini', 0.5602341890335083),
 (u'iPhone', 0.548734724521637),
 (u'Phil_Schiller', 0.5444366931915283),
 (u'Apple_Nasdaq_AAPL', 0.544266939163208),
 (u'Apple_NSDQ_AAPL', 0.5417361259460449),
 (u'Apple_NASDAQ_AAPL', 0.535469114780426),
 (u'Randall_Stephenson', 0.5343968868255615)]



In [45]:

    
model.most_similar(positive=['Steve_Ballmer', 'Google'], negative=['Microsoft'])









    Out[45]:





[(u'Eric_Schmidt', 0.7539467811584473),
 (u'Google_GOOG', 0.6201810240745544),
 (u'Steve_Jobs', 0.6188480854034424),
 (u'Google_Nasdaq_GOOG', 0.5890085697174072),
 (u'Yahoo', 0.5710864663124084),
 (u'Google_NSDQ_GOOG', 0.5613577365875244),
 (u'search_engine', 0.5596145987510681),
 (u'Ballmer', 0.5573574304580688),
 (u'Patrick_Pichette', 0.5523941516876221),
 (u'Mark_Zuckerberg', 0.5502157807350159)]



In [46]:

    
model.most_similar(positive=['Steve_Ballmer', 'IBM'], negative=['Microsoft'])









    Out[46]:





[(u'Sam_Palmisano', 0.6555251479148865),
 (u'CEO_Sam_Palmisano', 0.6234533786773682),
 (u'Samuel_Palmisano', 0.5943498611450195),
 (u'Lou_Gerstner', 0.5725748538970947),
 (u'Paul_Otellini', 0.5543473958969116),
 (u'International_Business_Machines', 0.5462231636047363),
 (u'Louis_Gerstner', 0.5335443615913391),
 (u'Mark_Loughridge', 0.5326536893844604),
 (u'Chief_Executive_Samuel_Palmisano', 0.5307983756065369),
 (u'Scott_McNealy', 0.526638925075531)]



In [47]:

    
model.most_similar(positive=['Steve_Ballmer', 'Amazon'], negative=['Microsoft'])









    Out[47]:





[(u'Amazon.com', 0.5657470226287842),
 (u'Jeff_Bezos', 0.5619904398918152),
 (u'Jeffrey_Bezos', 0.5367931127548218),
 (u'Cristiano_Veloso', 0.5145506262779236),
 (u'Werner_Vogels', 0.5034885406494141),
 (u'Jeff_Bezos_founder', 0.5028522610664368),
 (u'Pantanal_Lodges', 0.49930688738822937),
 (u'CTO_Werner_Vogels', 0.4982612729072571),
 (u'Kindle_ebook_reader', 0.4973258376121521),
 (u'ISBN_#-###-#####-#_Buy', 0.4894053041934967)]



In [48]:

    
model.most_similar(positive=['Czech', 'currency'])









    Out[48]:





[(u'Slovak', 0.6843216419219971),
 (u'Polish_zloty', 0.6805776357650757),
 (u'koruna', 0.6530683040618896),
 (u'Czech_koruna', 0.6461406350135803),
 (u'euro', 0.6403048038482666),
 (u'ruble', 0.6268415451049805),
 (u'forint', 0.6260942816734314),
 (u'zloty', 0.6182205677032471),
 (u'Slovak_koruna', 0.6174337863922119),
 (u'Slovakian', 0.6162811517715454)]



In [49]:

    
model.most_similar(positive=['Vietnam', 'capital'])









    Out[49]:





[(u'Viet_Nam', 0.6114367246627808),
 (u'While_Megi_bypassed', 0.5968701839447021),
 (u'Hanoi', 0.5894399881362915),
 (u'Typhoon_Ketsana_roars', 0.5755254030227661),
 (u'Indochina', 0.5710008144378662),
 (u'HANOI_Thomson_Financial', 0.5458343625068665),
 (u'Vietnamese', 0.5425796508789062),
 (u'Tropical_Storm_Mirinae_unleashed', 0.5387153625488281),
 (u'DongA_Bank', 0.5378859043121338),
 (u'VND##tril', 0.5364781022071838)]



In [50]:

    
model.most_similar(positive=['German', 'airlines'])









    Out[50]:





[(u'Lufthansa', 0.6879513263702393),
 (u'airline', 0.6311957240104675),
 (u'Germanwings', 0.6181661486625671),
 (u'Deutsche_Lufthansa_AG_LHA.XE', 0.6176519989967346),
 (u'Deutsche_Lufthansa', 0.6141735315322876),
 (u'Air_Polonia', 0.6062092185020447),
 (u'Deutsche_Lufthansa_AG', 0.5986666679382324),
 (u'\u010cSA', 0.5924460291862488),
 (u'Lufthansa_############', 0.5868748426437378),
 (u'Lufthansa_LHAG.DE', 0.58547443151474)]



In [63]:

    
model.most_similar(positive=['woman', 'emperor'], negative=['man'])









    Out[63]:





[(u'empress', 0.6470328569412231),
 (u'emperors', 0.6074110269546509),
 (u'Emperor', 0.5940502882003784),
 (u'empresses', 0.5697327852249146),
 (u'Wu_Zetian', 0.5530362129211426),
 (u'imperial_throne', 0.5474317669868469),
 (u'Empress_Dowager_Cixi', 0.5443990230560303),
 (u'Queen_Consort', 0.5418636798858643),
 (u'imperial', 0.5319660902023315),
 (u'Imperial_Household', 0.5288584232330322)]



In [65]:

    
model.most_similar(positive=['woman', 'brother'], negative=['man'])









    Out[65]:





[(u'sister', 0.8103214502334595),
 (u'daughter', 0.764675498008728),
 (u'mother', 0.7524207234382629),
 (u'son', 0.7238258123397827),
 (u'niece', 0.7215942144393921),
 (u'husband', 0.7141484022140503),
 (u'father', 0.7066071033477783),
 (u'aunt', 0.6844728589057922),
 (u'cousin', 0.6844366788864136),
 (u'eldest_daughter', 0.6790662407875061)]



In [ ]:

    
# Athens Greece Oslo Norway
# Chicago Illinois Stockton California
# brother sister grandson granddaughter
# apparent apparently rapid rapidly
# possibly impossibly ethical unethical
# great greater tough tougher
# easy easiest lucky luckiest
# think thinking read reading
# walking walked swimming swam
# mouse mice dollar dollars
# France - Paris Italy: Rome Japan: Tokyo Florida: Tallahassee
# big - bigger small: larger cold: colder quick: quicker
# Miami - Florida Baltimore: Maryland Dallas: Texas Kona: Hawaii
# Einstein - scientist Messi: midfielder Mozart: violinist Picasso: painter
# Sarkozy - France Berlusconi: Italy Merkel: Germany Koizumi: Japan
# copper - Cu zinc: Zn gold: Au uranium: plutonium
# Berlusconi - Silvio Sarkozy: Nicolas Putin: Medvedev Obama: Barack
# Microsoft - Windows Google: Android IBM: Linux Apple: iPhone
# Microsoft - Ballmer Google: Yahoo IBM: McNealy Apple: Jobs
# Japan - sushi Germany: bratwurst France: tapas USA: pizza



In [ ]:

    
model.most_similar(positive=['biggest', 'small'], negative=['big'])



In [ ]:

    
model.most_similar(positive=['biggest', 'small'], negative=['big'])



In [ ]:

    
model.most_similar(positive=['biggest', 'small'], negative=['big'])



In [5]:

    
model.doesnt_match("breakfast cereal dinner lunch".split())









    Out[5]:





'cereal'



In [6]:

    
model.similarity('woman', 'man')









    Out[6]:





0.76640122344103201



In [ ]: