Programming Assignment:

Готовим LDA по рецептам

Как вы уже знаете, в тематическом моделировании делается предположение о том, что для определения тематики порядок слов в документе не важен; об этом гласит гипотеза «мешка слов». Сегодня мы будем работать с несколько нестандартной для тематического моделирования коллекцией, которую можно назвать «мешком ингредиентов», потому что на состоит из рецептов блюд разных кухонь. Тематические модели ищут слова, которые часто вместе встречаются в документах, и составляют из них темы. Мы попробуем применить эту идею к рецептам и найти кулинарные «темы». Эта коллекция хороша тем, что не требует предобработки. Кроме того, эта задача достаточно наглядно иллюстрирует принцип работы тематических моделей.

Для выполнения заданий, помимо часто используемых в курсе библиотек, потребуются модули json и gensim. Первый входит в дистрибутив Anaconda, второй можно поставить командой

pip install gensim

Построение модели занимает некоторое время. На ноутбуке с процессором Intel Core i7 и тактовой частотой 2400 МГц на построение одной модели уходит менее 10 минут.

Загрузка данных

Коллекция дана в json-формате: для каждого рецепта известны его id, кухня (cuisine) и список ингредиентов, в него входящих. Загрузить данные можно с помощью модуля json (он входит в дистрибутив Anaconda):


In [1]:
import json

In [2]:
with open("recipes.json") as f:
    recipes = json.load(f)

In [3]:
print(recipes[0])


{'id': 10259, 'cuisine': 'greek', 'ingredients': ['romaine lettuce', 'black olives', 'grape tomatoes', 'garlic', 'pepper', 'purple onion', 'seasoning', 'garbanzo beans', 'feta cheese crumbles']}

Составление корпуса


In [4]:
from gensim import corpora, models
import numpy as np


/usr/lib/python3.5/site-packages/gensim/utils.py:1015: UserWarning: Pattern library is not installed, lemmatization won't be available.
  warnings.warn("Pattern library is not installed, lemmatization won't be available.")

Наша коллекция небольшая, и целиком помещается в оперативную память. Gensim может работать с такими данными и не требует их сохранения на диск в специальном формате. Для этого коллекция должна быть представлена в виде списка списков, каждый внутренний список соответствует отдельному документу и состоит из его слов. Пример коллекции из двух документов:

[["hello", "world"], ["programming", "in", "python"]]

Преобразуем наши данные в такой формат, а затем создадим объекты corpus и dictionary, с которыми будет работать модель.


In [5]:
texts = [recipe["ingredients"] for recipe in recipes]
dictionary = corpora.Dictionary(texts)   # составляем словарь
corpus = [dictionary.doc2bow(text) for text in texts]  # составляем корпус документов

In [6]:
print(texts[2])
print(corpus[2])


['eggs', 'pepper', 'salt', 'mayonaise', 'cooking oil', 'green chilies', 'grilled chicken breasts', 'garlic powder', 'yellow onion', 'soy sauce', 'butter', 'chicken livers']
[(0, 1), (10, 1), (17, 1), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1), (25, 1), (26, 1), (27, 1), (28, 1)]

У объекта dictionary есть полезная переменная dictionary.token2id, позволяющая находить соответствие между ингредиентами и их индексами.

Обучение модели

Вам может понадобиться документация LDA в gensim.

Задание 1. Обучите модель LDA с 40 темами, установив количество проходов по коллекции 5 и оставив остальные параметры по умолчанию.

Затем вызовите метод модели show_topics, указав количество тем 40 и количество токенов 10, и сохраните результат (топы ингредиентов в темах) в отдельную переменную. Если при вызове метода show_topics указать параметр formatted=True, то топы ингредиентов будет удобно выводить на печать, если formatted=False, будет удобно работать со списком программно. Выведите топы на печать, рассмотрите темы, а затем ответьте на вопрос:

Сколько раз ингредиенты "salt", "sugar", "water", "mushrooms", "chicken", "eggs" встретились среди топов-10 всех 40 тем? При ответе не нужно учитывать составные ингредиенты, например, "hot water".

Передайте 6 чисел в функцию save_answers1 и загрузите сгенерированный файл в форму.

У gensim нет возможности фиксировать случайное приближение через параметры метода, но библиотека использует numpy для инициализации матриц. Поэтому, по утверждению автора библиотеки, фиксировать случайное приближение нужно командой, которая написана в следующей ячейке. Перед строкой кода с построением модели обязательно вставляйте указанную строку фиксации random.seed.


In [7]:
from gensim.models import LdaModel

In [8]:
np.random.seed(76543)
# здесь код для построения модели:
lda = LdaModel(corpus, num_topics=40, passes=5)

In [9]:
lda.show_topics(num_topics=40, num_words=10)


Out[9]:
[(0,
  '0.110*"712" + 0.098*"557" + 0.064*"551" + 0.058*"501" + 0.050*"189" + 0.049*"970" + 0.032*"89" + 0.032*"86" + 0.031*"708" + 0.028*"908"'),
 (1,
  '0.111*"17" + 0.106*"34" + 0.103*"212" + 0.071*"33" + 0.059*"30" + 0.048*"0" + 0.048*"200" + 0.044*"180" + 0.030*"1185" + 0.022*"1286"'),
 (2,
  '0.045*"500" + 0.037*"1337" + 0.036*"17" + 0.032*"122" + 0.032*"30" + 0.031*"770" + 0.030*"278" + 0.029*"23" + 0.028*"533" + 0.028*"344"'),
 (3,
  '0.067*"233" + 0.061*"210" + 0.053*"209" + 0.051*"447" + 0.040*"315" + 0.034*"237" + 0.031*"1073" + 0.031*"743" + 0.030*"18" + 0.029*"235"'),
 (4,
  '0.059*"17" + 0.054*"195" + 0.053*"27" + 0.053*"33" + 0.045*"186" + 0.042*"40" + 0.036*"348" + 0.032*"6" + 0.028*"206" + 0.025*"32"'),
 (5,
  '0.080*"57" + 0.070*"252" + 0.068*"305" + 0.058*"54" + 0.048*"107" + 0.038*"76" + 0.038*"33" + 0.033*"36" + 0.033*"17" + 0.031*"385"'),
 (6,
  '0.060*"199" + 0.058*"1638" + 0.045*"339" + 0.038*"483" + 0.030*"944" + 0.029*"1735" + 0.026*"2481" + 0.026*"931" + 0.024*"1024" + 0.020*"723"'),
 (7,
  '0.094*"207" + 0.076*"916" + 0.039*"373" + 0.039*"173" + 0.034*"490" + 0.032*"1080" + 0.032*"223" + 0.025*"152" + 0.024*"691" + 0.022*"982"'),
 (8,
  '0.167*"143" + 0.114*"71" + 0.059*"219" + 0.046*"15" + 0.032*"204" + 0.024*"502" + 0.021*"519" + 0.020*"560" + 0.019*"514" + 0.019*"1068"'),
 (9,
  '0.154*"535" + 0.070*"876" + 0.064*"245" + 0.064*"437" + 0.052*"1070" + 0.048*"874" + 0.039*"320" + 0.031*"804" + 0.029*"609" + 0.028*"1518"'),
 (10,
  '0.109*"12" + 0.103*"17" + 0.098*"10" + 0.091*"122" + 0.074*"23" + 0.066*"50" + 0.055*"65" + 0.049*"53" + 0.041*"311" + 0.041*"289"'),
 (11,
  '0.079*"59" + 0.068*"74" + 0.068*"17" + 0.054*"111" + 0.052*"55" + 0.052*"6" + 0.048*"840" + 0.046*"465" + 0.044*"112" + 0.033*"5"'),
 (12,
  '0.099*"731" + 0.079*"82" + 0.058*"352" + 0.055*"334" + 0.052*"446" + 0.042*"798" + 0.040*"938" + 0.030*"286" + 0.026*"33" + 0.025*"1744"'),
 (13,
  '0.076*"107" + 0.076*"116" + 0.071*"17" + 0.069*"278" + 0.045*"57" + 0.036*"119" + 0.031*"309" + 0.031*"30" + 0.031*"213" + 0.028*"32"'),
 (14,
  '0.077*"228" + 0.045*"200" + 0.042*"362" + 0.037*"22" + 0.032*"162" + 0.028*"6" + 0.027*"53" + 0.027*"16" + 0.024*"96" + 0.022*"95"'),
 (15,
  '0.146*"193" + 0.145*"312" + 0.062*"77" + 0.051*"699" + 0.037*"106" + 0.034*"253" + 0.031*"18" + 0.027*"243" + 0.026*"333" + 0.021*"1051"'),
 (16,
  '0.138*"250" + 0.086*"330" + 0.056*"949" + 0.054*"772" + 0.045*"276" + 0.029*"312" + 0.029*"76" + 0.026*"77" + 0.026*"868" + 0.026*"795"'),
 (17,
  '0.049*"17" + 0.043*"274" + 0.041*"351" + 0.038*"33" + 0.037*"124" + 0.037*"358" + 0.036*"28" + 0.034*"560" + 0.033*"38" + 0.032*"11"'),
 (18,
  '0.080*"215" + 0.064*"17" + 0.058*"33" + 0.041*"30" + 0.041*"458" + 0.035*"0" + 0.035*"267" + 0.035*"656" + 0.032*"388" + 0.028*"735"'),
 (19,
  '0.076*"31" + 0.048*"17" + 0.047*"113" + 0.040*"277" + 0.030*"346" + 0.029*"33" + 0.028*"16" + 0.026*"123" + 0.025*"43" + 0.024*"90"'),
 (20,
  '0.052*"1276" + 0.049*"598" + 0.043*"118" + 0.038*"2028" + 0.037*"336" + 0.036*"103" + 0.036*"495" + 0.031*"932" + 0.031*"895" + 0.030*"1099"'),
 (21,
  '0.142*"62" + 0.095*"622" + 0.049*"146" + 0.039*"484" + 0.034*"1546" + 0.032*"1168" + 0.031*"1035" + 0.030*"139" + 0.030*"1065" + 0.028*"589"'),
 (22,
  '0.081*"51" + 0.068*"438" + 0.057*"53" + 0.049*"23" + 0.047*"597" + 0.040*"48" + 0.030*"17" + 0.029*"131" + 0.028*"244" + 0.028*"581"'),
 (23,
  '0.068*"75" + 0.066*"31" + 0.047*"84" + 0.041*"1044" + 0.039*"16" + 0.038*"38" + 0.038*"17" + 0.037*"695" + 0.031*"729" + 0.030*"107"'),
 (24,
  '0.079*"53" + 0.073*"1083" + 0.064*"525" + 0.041*"30" + 0.038*"702" + 0.034*"1043" + 0.021*"337" + 0.020*"148" + 0.020*"111" + 0.019*"350"'),
 (25,
  '0.134*"202" + 0.102*"122" + 0.093*"17" + 0.076*"53" + 0.058*"312" + 0.038*"460" + 0.035*"396" + 0.034*"364" + 0.031*"302" + 0.029*"532"'),
 (26,
  '0.100*"230" + 0.070*"52" + 0.064*"373" + 0.055*"370" + 0.042*"17" + 0.039*"23" + 0.035*"496" + 0.034*"899" + 0.032*"10" + 0.031*"128"'),
 (27,
  '0.094*"190" + 0.053*"57" + 0.052*"17" + 0.035*"227" + 0.033*"6" + 0.032*"0" + 0.031*"477" + 0.030*"84" + 0.029*"261" + 0.027*"394"'),
 (28,
  '0.090*"57" + 0.090*"6" + 0.078*"33" + 0.061*"17" + 0.043*"552" + 0.038*"0" + 0.033*"145" + 0.029*"357" + 0.029*"354" + 0.023*"657"'),
 (29,
  '0.071*"188" + 0.065*"451" + 0.064*"1124" + 0.064*"1106" + 0.064*"406" + 0.058*"172" + 0.053*"485" + 0.039*"781" + 0.037*"2029" + 0.029*"1210"'),
 (30,
  '0.071*"268" + 0.046*"38" + 0.045*"521" + 0.044*"577" + 0.044*"203" + 0.038*"247" + 0.034*"31" + 0.030*"33" + 0.027*"228" + 0.022*"11"'),
 (31,
  '0.116*"153" + 0.077*"91" + 0.070*"205" + 0.066*"957" + 0.049*"174" + 0.034*"844" + 0.033*"182" + 0.033*"606" + 0.027*"222" + 0.024*"30"'),
 (32,
  '0.068*"300" + 0.049*"22" + 0.042*"295" + 0.041*"53" + 0.035*"826" + 0.033*"125" + 0.032*"299" + 0.032*"30" + 0.031*"47" + 0.027*"793"'),
 (33,
  '0.083*"25" + 0.061*"108" + 0.060*"517" + 0.054*"165" + 0.054*"160" + 0.030*"1259" + 0.030*"760" + 0.029*"197" + 0.027*"993" + 0.025*"505"'),
 (34,
  '0.100*"76" + 0.071*"107" + 0.062*"57" + 0.055*"17" + 0.051*"18" + 0.044*"5" + 0.037*"109" + 0.037*"102" + 0.035*"79" + 0.029*"11"'),
 (35,
  '0.093*"22" + 0.052*"95" + 0.050*"98" + 0.046*"97" + 0.045*"53" + 0.045*"6" + 0.033*"351" + 0.032*"30" + 0.029*"17" + 0.025*"16"'),
 (36,
  '0.078*"248" + 0.070*"26" + 0.052*"77" + 0.041*"6" + 0.039*"57" + 0.037*"732" + 0.034*"553" + 0.030*"989" + 0.030*"527" + 0.029*"18"'),
 (37,
  '0.071*"187" + 0.062*"590" + 0.058*"980" + 0.056*"2" + 0.050*"1378" + 0.050*"1296" + 0.045*"1413" + 0.040*"822" + 0.032*"1391" + 0.031*"685"'),
 (38,
  '0.064*"623" + 0.062*"254" + 0.060*"30" + 0.060*"433" + 0.058*"33" + 0.057*"431" + 0.047*"645" + 0.042*"183" + 0.038*"35" + 0.036*"107"'),
 (39,
  '0.096*"24" + 0.088*"488" + 0.078*"46" + 0.060*"375" + 0.052*"17" + 0.044*"211" + 0.043*"170" + 0.040*"57" + 0.026*"121" + 0.023*"18"')]

In [10]:
top_words = lda.show_topics(num_topics=40, num_words=10, formatted=False)
top_words = [tup[1] for tup in top_words]
print(top_words)
ingrids = ["salt", "sugar", "water", "mushrooms", "chicken", "eggs"]
ids = [dictionary.token2id[x] for x in ingrids]
counts = {"salt": 0, "sugar": 0, "water": 0, "mushrooms": 0, "chicken": 0, "eggs": 0}
for ingrid_list in top_words:
    for x in ingrid_list:
        for i in range(len(ids)):
            if ids[i] == int(x[0]):
                counts[ingrids[i]] += 1


[[('712', 0.11031740481837812), ('557', 0.098193181698149709), ('551', 0.063549768269111781), ('501', 0.057512832024643593), ('189', 0.049778735762024212), ('970', 0.048737415497588532), ('89', 0.031943297110414479), ('86', 0.031716896320199209), ('708', 0.031294694814618183), ('908', 0.027818586106326756)], [('17', 0.11073841821130752), ('34', 0.10583958132715006), ('212', 0.10295859991958865), ('33', 0.071340056185906039), ('30', 0.059081795220026899), ('0', 0.048246586828244405), ('200', 0.047503916970522232), ('180', 0.043636812760221695), ('1185', 0.030418956700502417), ('1286', 0.021815875968393957)], [('500', 0.045074518229531874), ('1337', 0.036551414746393236), ('17', 0.036467646976469849), ('122', 0.032442875519816013), ('30', 0.032222596543938352), ('770', 0.030531984415805593), ('278', 0.02985497923078239), ('23', 0.028851247563552861), ('533', 0.028339029539539567), ('344', 0.028329314894459036)], [('233', 0.067254800399685261), ('210', 0.061377467247493558), ('209', 0.053425792904435603), ('447', 0.050821185556799431), ('315', 0.040210418660281695), ('237', 0.033700608768516674), ('1073', 0.03123395963863063), ('743', 0.030525529668608529), ('18', 0.029523661722000633), ('235', 0.02886173323841331)], [('17', 0.059320536822449331), ('195', 0.054224808034073882), ('27', 0.0533866727267285), ('33', 0.052757583701288031), ('186', 0.044554194938916124), ('40', 0.042071363337108335), ('348', 0.03555400567793441), ('6', 0.031558398296023825), ('206', 0.027915328472925726), ('32', 0.025373300407842806)], [('57', 0.079852464331273201), ('252', 0.069939052288326461), ('305', 0.068160503621738297), ('54', 0.058319941840173549), ('107', 0.047870110762918215), ('76', 0.03782650526770661), ('33', 0.03780052551386872), ('36', 0.033186247743527499), ('17', 0.032517655703001032), ('385', 0.031462566957437661)], [('199', 0.060234069693142517), ('1638', 0.058349917829353316), ('339', 0.0452308073844696), ('483', 0.037564675311015136), ('944', 0.029729687275530495), ('1735', 0.028920649916506967), ('2481', 0.026092574889520943), ('931', 0.025893102510467669), ('1024', 0.02376007072419661), ('723', 0.020283928742927729)], [('207', 0.094104761526915742), ('916', 0.075580333317662243), ('373', 0.038972556302062165), ('173', 0.038857800016602696), ('490', 0.033679591953835797), ('1080', 0.032367013306989344), ('223', 0.03205419543533454), ('152', 0.024527068504773299), ('691', 0.024001425416295036), ('982', 0.022386139603383069)], [('143', 0.16748937793740232), ('71', 0.11396093219514668), ('219', 0.059397573371305641), ('15', 0.045576782342901113), ('204', 0.032449580759370288), ('502', 0.024047817702988365), ('519', 0.020649978221485579), ('560', 0.01996165030559157), ('514', 0.019479428050762197), ('1068', 0.018614509974930585)], [('535', 0.15398177303987884), ('876', 0.070264623818883279), ('245', 0.064080985735085846), ('437', 0.063685801623154722), ('1070', 0.051876692412845433), ('874', 0.048014617072455128), ('320', 0.038535771638636286), ('804', 0.030816941050488482), ('609', 0.028656921329072757), ('1518', 0.028228646475154245)], [('12', 0.10916850214478813), ('17', 0.10330407667707098), ('10', 0.097861386088721677), ('122', 0.091441298538657775), ('23', 0.073634788192786793), ('50', 0.06631824626914902), ('65', 0.055130812590191473), ('53', 0.048776846218307267), ('311', 0.041136922671192531), ('289', 0.040817005273811345)], [('59', 0.079276281648342967), ('74', 0.068215683509304778), ('17', 0.067899262974302863), ('111', 0.053708296749761894), ('55', 0.052231478425913344), ('6', 0.051595662181120362), ('840', 0.047966521922836423), ('465', 0.046034900945882036), ('112', 0.043955650700653055), ('5', 0.033455806908704776)], [('731', 0.099321146208647959), ('82', 0.079009172927578461), ('352', 0.058489135903042493), ('334', 0.055072778120090995), ('446', 0.052110457875305757), ('798', 0.041785812403924122), ('938', 0.039770863458143471), ('286', 0.03047655884381608), ('33', 0.025511416272929872), ('1744', 0.024505434875950308)], [('107', 0.076153334241783013), ('116', 0.075693676159786477), ('17', 0.071052056136298197), ('278', 0.068844893972015875), ('57', 0.045187369280209097), ('119', 0.036300512577867726), ('309', 0.030837246953198477), ('30', 0.03059772020406502), ('213', 0.030573772412076049), ('32', 0.028353661296773882)], [('228', 0.077029635951001083), ('200', 0.044883428393283631), ('362', 0.042425257192061527), ('22', 0.036745788135712748), ('162', 0.032411935465174499), ('6', 0.027889090186329239), ('53', 0.027461372284407662), ('16', 0.027150017822779388), ('96', 0.023514675288020672), ('95', 0.021816438785205474)], [('193', 0.14593216375808044), ('312', 0.14520143254738885), ('77', 0.06169325149006815), ('699', 0.05058743157528639), ('106', 0.037367594259907981), ('253', 0.034208058068761676), ('18', 0.030643492047096384), ('243', 0.027487877351335711), ('333', 0.025829129538369203), ('1051', 0.021138059359712243)], [('250', 0.13766122465508093), ('330', 0.086170706211659912), ('949', 0.055748050649396121), ('772', 0.05355957962690884), ('276', 0.045197285873743671), ('312', 0.028891468862695613), ('76', 0.028540155540682111), ('77', 0.026244317974660127), ('868', 0.025696318944993069), ('795', 0.025651755670563211)], [('17', 0.049293344740257622), ('274', 0.04304747040119053), ('351', 0.040878936458253426), ('33', 0.038170837282037635), ('124', 0.037050651227055642), ('358', 0.036617094956315807), ('28', 0.035604316612760055), ('560', 0.034021413324606883), ('38', 0.032518114768076069), ('11', 0.032097034357012146)], [('215', 0.080213046872792321), ('17', 0.064301405163097139), ('33', 0.057561988823765668), ('30', 0.041055293414583346), ('458', 0.040805910927123885), ('0', 0.035457004215095837), ('267', 0.03478249927379095), ('656', 0.034502834021356413), ('388', 0.031534308152203948), ('735', 0.028335514878835177)], [('31', 0.075768496082628839), ('17', 0.04774365470111358), ('113', 0.047408655926203566), ('277', 0.0395238878463883), ('346', 0.029521086651328656), ('33', 0.029167491603855882), ('16', 0.027770417921579076), ('123', 0.025662186172984519), ('43', 0.025406706788283343), ('90', 0.024098869898488483)], [('1276', 0.051792625158022326), ('598', 0.048840147026277529), ('118', 0.043363109583184643), ('2028', 0.038367693314633036), ('336', 0.036903265958810799), ('103', 0.036434564648813075), ('495', 0.036039475857797092), ('932', 0.031423774079323188), ('895', 0.030965856756100623), ('1099', 0.03028071003528186)], [('62', 0.14197309778091763), ('622', 0.094787929196020443), ('146', 0.049492134719345514), ('484', 0.038933361182664591), ('1546', 0.033963401033095704), ('1168', 0.032369576341951811), ('1035', 0.030584018376797174), ('139', 0.030185084974304367), ('1065', 0.02999233941450314), ('589', 0.028021560948687838)], [('51', 0.081012113831658128), ('438', 0.067894582663356295), ('53', 0.0573384908761101), ('23', 0.049372682677593087), ('597', 0.046875584451679178), ('48', 0.039509823226766549), ('17', 0.029701153583017635), ('131', 0.029413460660494301), ('244', 0.028286395069721821), ('581', 0.027693930921596908)], [('75', 0.068127455128870404), ('31', 0.065842144162111843), ('84', 0.046969884537141383), ('1044', 0.041121352514615954), ('16', 0.039175188920116871), ('38', 0.038243881168596637), ('17', 0.038154921396462392), ('695', 0.037358895491386747), ('729', 0.030992996800724745), ('107', 0.030291725482058968)], [('53', 0.078855733132913775), ('1083', 0.073481991220539833), ('525', 0.063564552771998101), ('30', 0.040547920443899078), ('702', 0.038349883055970813), ('1043', 0.034485558016859846), ('337', 0.021466131792527297), ('148', 0.020101420848300352), ('111', 0.019741219297539581), ('350', 0.019426317865499972)], [('202', 0.13437685332572161), ('122', 0.10158245691389667), ('17', 0.093010471030096825), ('53', 0.075924603474159413), ('312', 0.058263788575322002), ('460', 0.038277201504787708), ('396', 0.035375369915315098), ('364', 0.034128616418202321), ('302', 0.030756461926521497), ('532', 0.029445546999593553)], [('230', 0.10017817492419163), ('52', 0.069562438240563101), ('373', 0.06412479932653628), ('370', 0.05478401435607614), ('17', 0.042386408615201814), ('23', 0.03861634509873061), ('496', 0.034858123424690378), ('899', 0.034350991181369826), ('10', 0.032217125682040999), ('128', 0.030993159545632032)], [('190', 0.093597116924427959), ('57', 0.052501583538487967), ('17', 0.05243687781786828), ('227', 0.034971419367096614), ('6', 0.033490783881027109), ('0', 0.03179029763753119), ('477', 0.031202673698816671), ('84', 0.030040649274892046), ('261', 0.029312444994978794), ('394', 0.02707707825402831)], [('57', 0.090074916630196289), ('6', 0.089774528616299518), ('33', 0.077806640675628147), ('17', 0.061230046326876543), ('552', 0.0426414098323986), ('0', 0.03755024740789123), ('145', 0.03319938522102537), ('357', 0.029448762226671144), ('354', 0.028610417283435559), ('657', 0.022754400719705335)], [('188', 0.071464790437822195), ('451', 0.064793179324297651), ('1124', 0.064388630280295761), ('1106', 0.063949489449031116), ('406', 0.063766059706165459), ('172', 0.058312498725896077), ('485', 0.052888962813850283), ('781', 0.039217986135024599), ('2029', 0.037441831393949104), ('1210', 0.029110724002620863)], [('268', 0.070611194697888249), ('38', 0.045931222149349409), ('521', 0.045396651788099693), ('577', 0.044098645421050832), ('203', 0.043533964231587494), ('247', 0.038471723025966763), ('31', 0.03409026464610615), ('33', 0.030155165463030816), ('228', 0.0269320184653612), ('11', 0.022383459697389092)], [('153', 0.1156522356668228), ('91', 0.076770996382038936), ('205', 0.070399000132738546), ('957', 0.066440041070095934), ('174', 0.049322972427510187), ('844', 0.033580035131554713), ('182', 0.0332541890598992), ('606', 0.032523891716690796), ('222', 0.027006829193221598), ('30', 0.024039418270893769)], [('300', 0.068154549276348966), ('22', 0.049426366328389613), ('295', 0.04198439851503713), ('53', 0.040547267563622834), ('826', 0.035291552651297887), ('125', 0.03338773384713737), ('299', 0.032294544018030509), ('30', 0.031876879066903979), ('47', 0.03056863201377627), ('793', 0.02652606923998229)], [('25', 0.082566132932977154), ('108', 0.060918312290853455), ('517', 0.060489653563005348), ('165', 0.054492642485868936), ('160', 0.054271291038884423), ('1259', 0.030213179228007897), ('760', 0.02972693696607067), ('197', 0.029466243384103464), ('993', 0.027064023179212478), ('505', 0.025495854358799558)], [('76', 0.10012195345527423), ('107', 0.070876724365020419), ('57', 0.061522516018911427), ('17', 0.055402996323434352), ('18', 0.050945734972775707), ('5', 0.043516638785107281), ('109', 0.037307690662662644), ('102', 0.036577153232141967), ('79', 0.034917859473177104), ('11', 0.02856835680620335)], [('22', 0.092681931270940487), ('95', 0.051907477498082298), ('98', 0.050112784924124888), ('97', 0.045780525767373716), ('53', 0.044814566263902192), ('6', 0.044800504986864456), ('351', 0.033097504193278275), ('30', 0.031760665344231956), ('17', 0.028507812246634248), ('16', 0.025469340911313604)], [('248', 0.077568733985662539), ('26', 0.070011011362731176), ('77', 0.051834995919736691), ('6', 0.041319554811478997), ('57', 0.039368599423571515), ('732', 0.037311254387466929), ('553', 0.034291798951201692), ('989', 0.030446724852364812), ('527', 0.030143698821303827), ('18', 0.029343290586638201)], [('187', 0.071118892813440859), ('590', 0.061764678470958533), ('980', 0.057547075562669789), ('2', 0.056314390521240883), ('1378', 0.050262010068037863), ('1296', 0.050258624629407743), ('1413', 0.0451466847252339), ('822', 0.0399682383040098), ('1391', 0.032231265434303699), ('685', 0.030886963302067492)], [('623', 0.063639565741272081), ('254', 0.062136983465440603), ('30', 0.060017271506337004), ('433', 0.059790501473295614), ('33', 0.057957425099329184), ('431', 0.056827825782738407), ('645', 0.047421106514967275), ('183', 0.042161216558993318), ('35', 0.038391767902530995), ('107', 0.036127872683778886)], [('24', 0.096033115677320188), ('488', 0.088262868357828247), ('46', 0.078041691569743582), ('375', 0.059728665922038349), ('17', 0.051892049781362588), ('211', 0.044403597528076662), ('170', 0.042963702334527509), ('57', 0.03991006501439133), ('121', 0.026403680692333321), ('18', 0.023278278605623495)]]

In [11]:
def save_answers1(c_salt, c_sugar, c_water, c_mushrooms, c_chicken, c_eggs):
    with open("cooking_LDA_pa_task1.txt", "w") as fout:
        fout.write(" ".join([str(el) for el in [c_salt, c_sugar, c_water, c_mushrooms, c_chicken, c_eggs]]))

In [12]:
save_answers1(counts["salt"], counts["sugar"], counts["water"], counts["mushrooms"], counts["chicken"], counts["eggs"])

Фильтрация словаря

В топах тем гораздо чаще встречаются первые три рассмотренных ингредиента, чем последние три. При этом наличие в рецепте курицы, яиц и грибов яснее дает понять, что мы будем готовить, чем наличие соли, сахара и воды. Таким образом, даже в рецептах есть слова, часто встречающиеся в текстах и не несущие смысловой нагрузки, и поэтому их не желательно видеть в темах. Наиболее простой прием борьбы с такими фоновыми элементами — фильтрация словаря по частоте. Обычно словарь фильтруют с двух сторон: убирают очень редкие слова (в целях экономии памяти) и очень частые слова (в целях повышения интерпретируемости тем). Мы уберем только частые слова.


In [13]:
import copy
dictionary2 = copy.deepcopy(dictionary)

In [14]:
print(dictionary2.dfs)


{}

Задание 2. У объекта dictionary2 есть переменная dfs — это словарь, ключами которого являются id токена, а элементами — число раз, сколько слово встретилось во всей коллекции. Сохраните в отдельный список ингредиенты, которые встретились в коллекции больше 4000 раз. Вызовите метод словаря filter_tokens, подав в качестве первого аргумента полученный список популярных ингредиентов. Вычислите две величины: dict_size_before и dict_size_after — размер словаря до и после фильтрации.

Затем, используя новый словарь, создайте новый корпус документов, corpus2, по аналогии с тем, как это сделано в начале ноутбука. Вычислите две величины: corpus_size_before и corpus_size_after — суммарное количество ингредиентов в корпусе (для каждого документа вычислите число различных ингредиентов в нем и просуммируйте по всем документам) до и после фильтрации.

Передайте величины dict_size_before, dict_size_after, corpus_size_before, corpus_size_after в функцию save_answers2 и загрузите сгенерированный файл в форму.


In [15]:
too_often_tokens = [x[0] for x in dictionary2.dfs.items() if x[1] > 4000]
print(len(too_often_tokens))


12

In [16]:
dictionary2.filter_tokens(too_often_tokens)

In [17]:
dict_size_before = len(dictionary) 
dict_size_after = len(dictionary2)
print(dict_size_before)
print(dict_size_after)


6714
6702

In [18]:
new_corpus = [dictionary2.doc2bow(text) for text in texts]

In [19]:
corpus_size_before = 0
corpus_size_after = 0
for doc1, doc2 in zip(corpus, new_corpus):
    corpus_size_before += len(doc1)
    corpus_size_after += len(doc2)

In [20]:
print(corpus_size_before)
print(corpus_size_after)


428249
343665

In [21]:
def save_answers2(dict_size_before, dict_size_after, corpus_size_before, corpus_size_after):
    with open("cooking_LDA_pa_task2.txt", "w") as fout:
        fout.write(" ".join([str(el) for el in [dict_size_before, dict_size_after, corpus_size_before, corpus_size_after]]))

In [22]:
save_answers2(dict_size_before, dict_size_after, corpus_size_before, corpus_size_after)

Сравнение когерентностей

Задание 3. Постройте еще одну модель по корпусу corpus2 и словарю dictionary2, остальные параметры оставьте такими же, как при первом построении модели. Сохраните новую модель в другую переменную (не перезаписывайте предыдущую модель). Не забудьте про фиксирование seed!

Затем воспользуйтесь методом top_topics модели, чтобы вычислить ее когерентность. Передайте в качестве аргумента соответствующий модели корпус. Метод вернет список кортежей (топ токенов, когерентность), отсортированных по убыванию последней. Вычислите среднюю по всем темам когерентность для каждой из двух моделей и передайте в функцию save_answers3.


In [23]:
np.random.seed(76543)
lda2 = LdaModel(new_corpus, id2word=dictionary2, num_topics=40, passes=5)

In [24]:
coherensions = lda.top_topics(corpus)
coherensions2 = lda2.top_topics(new_corpus)


---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-24-928136ac209c> in <module>()
----> 1 coherensions = lda.top_topics(corpus)
      2 coherensions2 = lda2.top_topics(new_corpus)

/usr/lib/python3.5/site-packages/gensim/models/ldamodel.py in top_topics(self, corpus, num_words)
    878                 # Sum of top words l=1..m-1
    879                 # i.e., all words ranked higher than the current word m
--> 880                 for l in top_words[:m_index - 1]:
    881                     # l_docs is v_l^(t)
    882                     l_docs = doc_word_list[l]

TypeError: only integer scalar arrays can be converted to a scalar index

In [25]:
coherence = np.array(x[1] for tup in coherensions for x in tup).mean()
coherence2 = np.array(x[1] for tup in coherensions2 for x in tup).mean()


---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-25-7147afe481f4> in <module>()
----> 1 coherence = np.array(x[1] for tup in coherensions for x in tup).mean()
      2 coherence2 = np.array(x[1] for tup in coherensions2 for x in tup).mean()

NameError: name 'coherensions' is not defined

In [26]:
def save_answers3(coherence, coherence2):
    with open("cooking_LDA_pa_task3.txt", "w") as fout:
        fout.write(" ".join(["%3f"%el for el in [coherence, coherence2]]))

In [27]:
save_answers3(coherence, coherence2)


---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-27-ceb8701e3ac5> in <module>()
----> 1 save_answers3(coherence, coherence2)

NameError: name 'coherence' is not defined

Считается, что когерентность хорошо соотносится с человеческими оценками интерпретируемости тем. Поэтому на больших текстовых коллекциях когерентность обычно повышается, если убрать фоновую лексику. Однако в нашем случае этого не произошло.

Изучение влияния гиперпараметра alpha

В этом разделе мы будем работать со второй моделью, то есть той, которая построена по сокращенному корпусу.

Пока что мы посмотрели только на матрицу темы-слова, теперь давайте посмотрим на матрицу темы-документы. Выведите темы для нулевого (или любого другого) документа из корпуса, воспользовавшись методом get_document_topics второй модели:


In [28]:
print(lda2.get_document_topics(new_corpus[2]))


[(8, 0.11190603090029384), (9, 0.30280255182012816), (25, 0.11941289292746549), (29, 0.10250000002233003), (34, 0.27587852432978166)]

Также выведите содержимое переменной .alpha второй модели:


In [29]:
print(lda2.alpha)


[ 0.025  0.025  0.025  0.025  0.025  0.025  0.025  0.025  0.025  0.025
  0.025  0.025  0.025  0.025  0.025  0.025  0.025  0.025  0.025  0.025
  0.025  0.025  0.025  0.025  0.025  0.025  0.025  0.025  0.025  0.025
  0.025  0.025  0.025  0.025  0.025  0.025  0.025  0.025  0.025  0.025]

У вас должно получиться, что документ характеризуется небольшим числом тем. Попробуем поменять гиперпараметр alpha, задающий априорное распределение Дирихле для распределений тем в документах.

Задание 4. Обучите третью модель: используйте сокращенный корпус (corpus2 и dictionary2) и установите параметр alpha=1, passes=5. Не забудьте про фиксацию seed! Выведите темы новой модели для нулевого документа; должно получиться, что распределение над множеством тем практически равномерное. Чтобы убедиться в том, что во второй модели документы описываются гораздо более разреженными распределениями, чем в третьей, посчитайте суммарное количество элементов, превосходящих 0.01, в матрицах темы-документы обеих моделей. Другими словами, запросите темы модели для каждого документа с параметром minimum_probability=0.01 и просуммируйте число элементов в получаемых массивах. Передайте две суммы (сначала для модели с alpha по умолчанию, затем для модели в alpha=1) в функцию save_answers4.


In [30]:
np.random.seed(76543)
lda3 = LdaModel(corpus=new_corpus, id2word=dictionary2, alpha=1, num_topics=40, passes=5)

In [31]:
print(lda3.get_document_topics(new_corpus[0]))


[(0, 0.049222639807988522), (1, 0.021411957364250226), (2, 0.021510683232129294), (3, 0.021477919699259957), (4, 0.021329030925219348), (5, 0.022383298549744989), (6, 0.021533358234605872), (7, 0.021370125755751618), (8, 0.022026440223727115), (9, 0.021294590638625457), (10, 0.021315618800681342), (11, 0.021508183960369274), (12, 0.021276595744680847), (13, 0.02127659664581763), (14, 0.021329910635610155), (15, 0.06462184141183161), (16, 0.021280788116641806), (17, 0.021460292726044581), (18, 0.042331183185875788), (19, 0.021294054489917297), (20, 0.022666791703334938), (21, 0.021482728711562381), (22, 0.021302182020845255), (23, 0.021302994966119732), (24, 0.022248493189795871), (25, 0.021904724770591431), (26, 0.021432880992007197), (27, 0.021445835844897402), (28, 0.023633740777977544), (29, 0.021276595744680847), (30, 0.021382503332463235), (31, 0.021276611643730153), (32, 0.021276595744680847), (33, 0.06644800350029037), (34, 0.02129567914881067), (35, 0.02131419837481318), (36, 0.022779343537754019), (37, 0.021375025653311314), (38, 0.021276595744680847), (39, 0.021623364448879894)]

In [32]:
sum2 = 0
sum3 = 0
for text in new_corpus:
    sum2 += len(lda2.get_document_topics(text, minimum_probability=0.01))
    sum3 += len(lda3.get_document_topics(text, minimum_probability=0.01))

In [33]:
def save_answers4(count_model2, count_model3):
    with open("cooking_LDA_pa_task4.txt", "w") as fout:
        fout.write(" ".join([str(el) for el in [count_model2, count_model3]]))

In [34]:
save_answers4(sum2, sum3)

Таким образом, гиперпараметр alpha влияет на разреженность распределений тем в документах. Аналогично гиперпараметр eta влияет на разреженность распределений слов в темах.

LDA как способ понижения размерности

Иногда, распределения над темами, найденные с помощью LDA, добавляют в матрицу объекты-признаки как дополнительные, семантические, признаки, и это может улучшить качество решения задачи. Для простоты давайте просто обучим классификатор рецептов на кухни на признаках, полученных из LDA, и измерим точность (accuracy).

Задание 5. Используйте модель, построенную по сокращенной выборке с alpha по умолчанию (вторую модель). Составьте матрицу $\Theta = p(t|d)$ вероятностей тем в документах; вы можете использовать тот же метод get_document_topics, а также вектор правильных ответов y (в том же порядке, в котором рецепты идут в переменной recipes). Создайте объект RandomForestClassifier со 100 деревьями, с помощью функции cross_val_score вычислите среднюю accuracy по трем фолдам (перемешивать данные не нужно) и передайте в функцию save_answers5.


In [35]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.cross_validation import cross_val_score

In [36]:
X = np.zeros((len(recipes), lda2.num_topics))
for doc_num in range(len(new_corpus)):
    for topic_num, topic_proba in lda2.get_document_topics(new_corpus[doc_num]):
        X[doc_num][topic_num] = topic_proba

In [37]:
y = np.array([recipe['cuisine'] for recipe in recipes])
print(len(y))


39774

In [38]:
rfc = RandomForestClassifier(n_estimators=100)
rfc.fit(X, y)
cv_score = cross_val_score(rfc, X, y, cv=3).mean()
print(cv_score)


0.543069390185

In [39]:
def save_answers5(accuracy):
     with open("cooking_LDA_pa_task5.txt", "w") as fout:
        fout.write(str(accuracy))

In [40]:
save_answers5(cv_score)

Для такого большого количества классов это неплохая точность. Вы можете попроовать обучать RandomForest на исходной матрице частот слов, имеющей значительно большую размерность, и увидеть, что accuracy увеличивается на 10–15%. Таким образом, LDA собрал не всю, но достаточно большую часть информации из выборки, в матрице низкого ранга.

LDA — вероятностная модель

Матричное разложение, использующееся в LDA, интерпретируется как следующий процесс генерации документов.

Для документа $d$ длины $n_d$:

  1. Из априорного распределения Дирихле с параметром alpha сгенерировать распределение над множеством тем: $\theta_d \sim Dirichlet(\alpha)$
  2. Для каждого слова $w = 1, \dots, n_d$:
    1. Сгенерировать тему из дискретного распределения $t \sim \theta_{d}$
    2. Сгенерировать слово из дискретного распределения $w \sim \phi_{t}$.

Подробнее об этом в Википедии.

В контексте нашей задачи получается, что, используя данный генеративный процесс, можно создавать новые рецепты. Вы можете передать в функцию модель и число ингредиентов и сгенерировать рецепт :)


In [124]:
def generate_recipe(model, num_ingredients):
    theta = np.random.dirichlet(model.alpha)
    for i in range(num_ingredients):
        t = np.random.choice(np.arange(model.num_topics), p=theta)
        topic = model.show_topic(t, topn=model.num_terms)
        topic_distr = [x[1] for x in topic]
        terms = [x[0] for x in topic]
        w = np.random.choice(terms, p=topic_distr)
        print(w)

In [125]:
generate_recipe(lda2, 5)


beer
coarse salt
low sodium vegetable broth
sunflower oil
red potato

Интерпретация построенной модели

Вы можете рассмотреть топы ингредиентов каждой темы. Большиснтво тем сами по себе похожи на рецепты; в некоторых собираются продукты одного вида, например, свежие фрукты или разные виды сыра.

Попробуем эмпирически соотнести наши темы с национальными кухнями (cuisine). Построим матрицу $A$ размера темы $x$ кухни, ее элементы $a_{tc}$ — суммы $p(t|d)$ по всем документам $d$, которые отнесены к кухне $c$. Нормируем матрицу на частоты рецептов по разным кухням, чтобы избежать дисбаланса между кухнями. Следующая функция получает на вход объект модели, объект корпуса и исходные данные и возвращает нормированную матрицу $A$. Ее удобно визуализировать с помощью seaborn.


In [41]:
import pandas
import seaborn
from matplotlib import pyplot as plt
%matplotlib inline

In [42]:
def compute_topic_cuisine_matrix(model, corpus, recipes):
    # составляем вектор целевых признаков
    targets = list(set([recipe["cuisine"] for recipe in recipes]))
    # составляем матрицу
    tc_matrix = pandas.DataFrame(data=np.zeros((model.num_topics, len(targets))), columns=targets)
    for recipe, bow in zip(recipes, corpus):
        recipe_topic = model.get_document_topics(bow)
        for t, prob in recipe_topic:
            tc_matrix[recipe["cuisine"]][t] += prob
    # нормируем матрицу
    target_sums = pandas.DataFrame(data=np.zeros((1, len(targets))), columns=targets)
    for recipe in recipes:
        target_sums[recipe["cuisine"]] += 1
    return pandas.DataFrame(tc_matrix.values/target_sums.values, columns=tc_matrix.columns)

In [43]:
def plot_matrix(tc_matrix):
    plt.figure(figsize=(10, 10))
    seaborn.heatmap(tc_matrix, square=True)

In [44]:
plot_matrix(compute_topic_cuisine_matrix(lda2, new_corpus, recipes))


/usr/lib/python3.5/site-packages/matplotlib/font_manager.py:1297: UserWarning: findfont: Font family ['sans-serif'] not found. Falling back to DejaVu Sans
  (prop.get_family(), self.defaultFamily[fontext]))

Чем темнее квадрат в матрице, тем больше связь этой темы с данной кухней. Мы видим, что у нас есть темы, которые связаны с несколькими кухнями. Такие темы показывают набор ингредиентов, которые популярны в кухнях нескольких народов, то есть указывают на схожесть кухонь этих народов. Некоторые темы распределены по всем кухням равномерно, они показывают наборы продуктов, которые часто используются в кулинарии всех стран.

Жаль, что в датасете нет названий рецептов, иначе темы было бы проще интерпретировать...

Заключение

В этом задании вы построили несколько моделей LDA, посмотрели, на что влияют гиперпараметры модели и как можно использовать построенную модель.