
In [1]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import os
import artm
import numpy as np
from sklearn.datasets import dump_svmlight_file
from sklearn.feature_extraction.text import CountVectorizer
import matplotlib.pyplot as plt
%matplotlib inline
from nltk.corpus import stopwords
output_file = "./output/data"
num_top_tokens = 20 # число топ слов
num_topics = 30 # число тем

Удаляем старые данные

In [2]:
import shutil

Далее вызываем count vectorizer, чтобы отфильтровать мусор, накладываем idf ограничения + меняем регулярку.

In [3]:
data_directory = '.'
emails = pd.read_csv(os.path.join(data_directory, 'Emails.csv'))
vectorizer = CountVectorizer(decode_error='replace', min_df=0.01, max_df=0.3, token_pattern=r"(?u)\b[a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z]+\b")
X = vectorizer.fit_transform(emails.RawText).todense()

table = vectorizer.get_feature_names()
fo = open("words.txt", "w")
print >>fo, table

print X.shape

(7945L, 1993L)

In [4]:
table = vectorizer.get_feature_names()
y = [i for i in xrange(X.shape[0])]
dump_svmlight_file( X, y, f = output_file, zero_based = True)

Создаем словарь и батчи

In [5]:
batch_vectorizer = artm.BatchVectorizer(data_path=output_file, data_format='vowpal_wabbit', target_folder=data_folder)

In [6]:
dictionary = artm.Dictionary()

In [7]:
# os.remove('./batches/dictionary.dict')
# os.remove('./batches/dictionary_text')
dictionary.save(dictionary_path=data_folder + '/dictionary')
dictionary.save_text(dictionary_path=data_folder + 'dictionary_text')

Создаем модель

In [8]:
topic_names = ['topic_{}'.format(i) for i in xrange(num_topics)]
model_artm = artm.ARTM(topic_names=topic_names,
                                                    dictionary=dictionary)], cache_theta=True)
# не используем. ибо попытка выделить самые основные темы и еще фон не пошла.
part1 = topic_names[:len(topic_names / 2)]
part2 = topic_names[len(topic_names / 2):]

model_artm.scores.add(artm.TopTokensScore(name='TopTokensScore', num_tokens=num_top_tokens))

model_artm.regularizers.add(artm.SmoothSparsePhiRegularizer(name='SparsePhi', tau=-0.1))
model_artm.regularizers.add(artm.DecorrelatorPhiRegularizer(name='DecorrelatorPhi', tau=1.5e+5))
model_artm.regularizers.add(artm.SmoothSparseThetaRegularizer(name='SparseTheta', tau=-0.15))

Далее в 2а этапа учим модель. В 2а проще, после 1го можжно было что-то поменять и улучшить. Короче, я перелопапил кучу параметров в попытках получить какие-то осмысленные ядра. Но самая (на глаз) удачная модель получается с параметрами из туториала. Если же задаваться целью минимизировать перплексию, а не удачную на глаз модель, то порядок параметров должен быть ~0.5, кроме того я еще делал разбиение на 10 топ тем и еще 20 побочных в надежде, что 10 нужно "разрядить", а 20 сгладить (topic_names=...). Но это полный бред, или я не умею это готовить!!! Ничего не помогло.

In [9]:
model_artm.num_document_passes = 1
model_artm.fit_offline(batch_vectorizer=batch_vectorizer, num_collection_passes=30)

def print_measures(model_artm):
    print 'Sparsity Phi: {0:.3f} (ARTM)'.format(model_artm.score_tracker['SparsityPhiScore'].last_value)
    print 'Sparsity Theta: {0:.3f} (ARTM)'.format(model_artm.score_tracker['SparsityThetaScore'].last_value)
    print 'Kernel contrast: {0:.3f} (ARTM)'.format(model_artm.score_tracker['TopicKernelScore'].last_average_contrast)
    print 'Kernel purity: {0:.3f} (ARTM)'.format(model_artm.score_tracker['TopicKernelScore'].last_average_purity)
    print 'Perplexity: {0:.3f} (ARTM)'.format(model_artm.score_tracker['PerplexityScore'].last_value)

    plt.plot(xrange(model_artm.num_phi_updates), model_artm.score_tracker['PerplexityScore'].value, 'r--', linewidth=2)
    plt.xlabel('Iterations count')
    plt.ylabel('ARTM perp. (red)')

Sparsity Phi: 0.639 (ARTM)
Sparsity Theta: 0.274 (ARTM)
Kernel contrast: 0.373 (ARTM)
Kernel purity: 0.848 (ARTM)
Perplexity: 709.900 (ARTM)

In [10]:
model_artm.regularizers.add(artm.SmoothSparsePhiRegularizer(name='SparsePhi', tau=-0.2))
model_artm.regularizers.add(artm.DecorrelatorPhiRegularizer(name='DecorrelatorPhi', tau=3.5e+5))
model_artm.regularizers.add(artm.SmoothSparseThetaRegularizer(name='SparseTheta', tau=-0.2))
model_artm.fit_offline(batch_vectorizer=batch_vectorizer, num_collection_passes=20)

plt.plot(xrange(model_artm.num_phi_updates), model_artm.score_tracker['SparsityPhiScore'].value, 'r--', linewidth=2)
plt.xlabel('Iterations count')
plt.ylabel('ARTM Phi sp. (red)')
plt.plot(xrange(model_artm.num_phi_updates), model_artm.score_tracker['SparsityThetaScore'].value, 'r--', linewidth=2)
plt.xlabel('Iterations count')
plt.ylabel('ARTM Theta sp. (red)')
plt.plot(xrange(model_artm.num_phi_updates), model_artm.score_tracker['TopicKernelScore'].average_contrast, 'r--', linewidth=2)
plt.xlabel('Iterations count')
plt.ylabel('ARTM KernelScore:AvgContrast sp. (red)')
plt.plot(xrange(model_artm.num_phi_updates), model_artm.score_tracker['TopicKernelScore'].average_purity, 'r--', linewidth=2)
plt.xlabel('Iterations count')
plt.ylabel('ARTM KernelScore:AvgPurity sp. (red)')

Sparsity Phi: 0.822 (ARTM)
Sparsity Theta: 0.328 (ARTM)
Kernel contrast: 0.461 (ARTM)
Kernel purity: 0.936 (ARTM)
Perplexity: 682.705 (ARTM)

Выводим слова. Чтобы избежать проблем с кодировкой мы писали vowpal с id слов, теперь нужно сделать замену.

In [11]:
def idToWord(id):
    table = vectorizer.get_feature_names()
    return table[int(id)]

for topic_name in model_artm.topic_names:
    print topic_name + ': ',
    print [idToWord(token) for token in model_artm.score_tracker['TopTokensScore'].last_tokens[topic_name]]

topic_0:  [u'american', u'group', u'under', u'being', u'only', u'general', u'members', u'ambassador', u'force', u'strong', u'important', u'european', u'leadership', u'europe', u'current', u'clear', u'cannot', u'threat', u'south', u'nato']
topic_1:  [u'very', u'last', u'much', u'many', u'help', u'where', u'women', u'hillary', u'working', u'best', u'great', u'because', u'family', u'question', u'doing', u'well', u'together', u'really', u'year', u'friends']
topic_2:  [u'there', u'what', u'your', u'like', u'week', u'going', u'want', u'come', u'lona', u'valmoro', u'next', u'valmorou', u'schedule', u'meet', u'dinner', u'coming', u'sure', u'night', u'tonight', u'special']
topic_3:  [u'time', u'good', u'speech', u'july', u'team', u'press', u'give', u'draft', u'send', u'questions', u'getting', u'later', u'better', u'idea', u'still', u'wrote', u'book', u'lissa', u'ready', u'minutes']
topic_4:  [u'united', u'states', u'political', u'such', u'years', u'nations', u'economic', u'between', u'term', u'relationship', u'both', u'region', u'interests', u'problems', u'commitment', u'interest', u'progress', u'different', u'leaders', u'several']
topic_5:  [u'secretary', u'office', u'meeting', u'lauren', u'conference', u'jiloty', u'update', u'staff', u'room', u'jilotylc', u'private', u'list', u'arrive', u'route', u'depart', u'assistant', u'daily', u'phone', u'residence', u'deputy']
topic_6:  [u'just', u'know', u'june', u'email', u'please', u'embassy', u'hope', u'mail', u'note', u'received', u'blackberry', u'judith', u'attachments', u'contact', u'mchale', u'thank', u'love', u'dear', u'happy', u'confidential']
topic_7:  [u'call', u'abedinh', u'sunday', u'today', u'saturday', u'tomorrow', u'august', u'talk', u'morning', u'september', u'turkey', u'text', u'thursday', u'points', u'october', u'confirmed', u'asking', u'secure', u'afternoon', u'speak']
topic_8:  [u'about', u'when', u'david', u'march', u'asked', u'wanted', u'home', u'things', u'might', u'story', u'thomas', u'heard', u'anything', u'tell', u'mark', u'something', u'saying', u'hear', u'told', u'interview']
topic_9:  [u'should', u'think', u'make', u'here', u'forward', u'below', u'anne', u'marie', u'done', u'slaughter', u'philippe', u'article', u'both', u'look', u'read', u'february', u'reines', u'internet', u'latest', u'conversation']
topic_10:  [u'government', u'country', u'military', u'while', u'support', u'effort', u'iraq', u'defense', u'must', u'local', u'conflict', u'civil', u'action', u'particularly', u'diplomatic', u'leaders', u'effective', u'diplomats', u'civilian', u'lead']
topic_11:  [u'policy', u'washington', u'pakistan', u'media', u'strategy', u'plan', u'africa', u'post', u'administration', u'program', u'chief', u'budget', u'needed', u'jones', u'financial', u'strategic', u'gates', u'including', u'dialogue', u'fund']
topic_12:  [u'more', u'clinton', u'than', u'world', u'health', u'countries', u'america', u'care', u'children', u'every', u'nation', u'education', u'half', u'families', u'child', u'small', u'less', u'need', u'often', u'cost']
topic_13:  [u'their', u'president', u'obama', u'white', u'former', u'percent', u'administration', u'campaign', u'americans', u'bush', u'republican', u'republicans', u'congress', u'democrats', u'among', u'voters', u'enough', u'economy', u'barack', u'presidential']
topic_14:  [u'would', u'vote', u'sbwhoeop', u'memo', u'likely', u'either', u'majority', u'next', u'cameron', u'short', u'perhaps', u'labour', u'whether', u'tories', u'london', u'coalition', u'legislation', u'letter', u'votes', u'until']
topic_15:  [u'people', u'into', u'those', u'rights', u'human', u'future', u'freedom', u'violence', u'history', u'anti', u'democracy', u'long', u'saudi', u'found', u'right', u'around', u'especially', u'religious', u'life', u'themselves']
topic_16:  [u'security', u'these', u'national', u'according', u'source', u'forces', u'situation', u'council', u'western', u'opinion', u'same', u'individual', u'qaddafi', u'against', u'army', u'intelligence', u'believes', u'comment', u'sources', u'groups']
topic_17:  [u'work', u'http', u'china', u'center', u'india', u'business', u'chinese', u'university', u'melanne', u'school', u'company', u'project', u'climate', u'asia', u'energy', u'board', u'foundation', u'video', u'html', u'year']
topic_18:  [u'also', u'which', u'other', u'some', u'visit', u'number', u'million', u'russia', u'food', u'problem', u'however', u'year', u'others', u'place', u'cooperation', u'legal', u'areas', u'well', u'money', u'companies']
topic_19:  [u'haiti', u'january', u'report', u'decision', u'order', u'assistance', u'honduras', u'high', u'travel', u'haitian', u'mission', u'needs', u'immediate', u'response', u'mexico', u'operations', u'central', u'zelaya', u'resolution', u'relief']
topic_20:  [u'were', u'over', u'first', u'even', u'senate', u'another', u'john', u'during', u'senator', u'never', u'little', u'committee', u'george', u'hold', u'away', u'took', u'side', u'seems', u'having', u'show']
topic_21:  [u'said', u'minister', u'news', u'told', u'says', u'officials', u'prime', u'afghanistan', u'official', u'afghan', u'police', u'reuters', u'reported', u'taliban', u'reports', u'mahogany', u'kabul', u'killed', u'october', u'month']
topic_22:  [u'sullivan', u'jacob', u'monday', u'friday', u'sullivanjj', u'richard', u'jake', u'april', u'statement', u'verma', u'burns', u'james', u'jeffrey', u'steinberg', u'william', u'preines', u'feltman', u'harold', u'jeff', u'daniel']
topic_23:  [u'party', u'deal', u'power', u'election', u'leader', u'politics', u'justice', u'against', u'gordon', u'held', u'issue', u'brown', u'parties', u'conservative', u'guardian', u'northern', u'democratic', u'ireland', u'community', u'peter']
topic_24:  [u'cheryl', u'mills', u'millscd', u'tuesday', u'wednesday', u'mailto', u'thanks', u'thursday', u'letter', u'kennedy', u'michael', u'nora', u'october', u'toiv', u'crowley', u'kelly', u'patrick', u'philip', u'daniel', u'discuss']
topic_25:  [u'been', u'most', u'take', u'issues', u'made', u'times', u'since', u'position', u'without', u'major', u'fact', u'already', u'worked', u'trade', u'always', u'germany', u'course', u'three', u'turn', u'positions']
topic_26:  [u'house', u'information', u'agreement', u'benghazi', u'sensitive', u'dept', u'produced', u'select', u'waiver', u'comm', u'foia', u'redactions', u'libya', u'libyan', u'attack', u'september', u'egypt', u'rice', u'consulate', u'stevens']
topic_27:  [u'could', u'them', u'after', u'back', u'then', u'december', u'bill', u'called', u'before', u'again', u'calls', u'trying', u'november', u'blair', u'north', u'holbrooke', u'start', u'soon', u'left', u'right']
topic_28:  [u'foreign', u'public', u'development', u'global', u'international', u'diplomacy', u'affairs', u'service', u'approach', u'agency', u'usaid', u'programs', u'planning', u'discussion', u'director', u'initiative', u'resources', u'capacity', u'goals', u'building']
topic_29:  [u'israel', u'iran', u'peace', u'israeli', u'east', u'talks', u'nuclear', u'middle', u'palestinian', u'netanyahu', u'arab', u'bank', u'west', u'reason', u'jewish', u'palestinians', u'negotiations', u'jerusalem', u'class', u'process']

Примерные темы, часть конечно такие себе, но я решил, что лучше взять 30 и иметь лишние темы, чем 25 и что-то потерять.

In [27]:
real_topics_names = ["европа-нато",
"что-то про поход куда-то",
"про речи 1",
"политика в штатах",
"lauren??? а так кажется, что это какие-то секритарские штучки",
"бред какой-то. общие вещи 1",
"про выступления",
"бред какой-то. общие вещи 2",
"бред какой-то. общие вещи 3. что-то про Филлипины",
"про ирак",
"международная политика 1",
"здоровье клинтон/семья/дети",
"про обаму и правительство 2",
"обсуждение выборов",
"права людей",
"полика на востоке",
"бред какой-то. общие вещи 4",
"бред какой-то. общие вещи 5 (есть что-то про Россию, правда)",
"международная политика 2",
"про правительство и заседания",
"куча имен. видимо какие-то переписки с людьми",
"политика и выборы",
"бред какой-то. общие вещи 6",
"про ливию",
"международная политика 3",
"ядерная программа ирана"]

Вывод матриц. Тут приведен код, который я использовал. Но обычно просто смотрел разные кусочки матрицы. Просто нужно отобразить ее в картинку

In [12]:
phi = model_artm.get_phi().values
def plot_matrix(matrix, figsize=(25,15), xlabel='', ylabel='', title='', save=None):
    plt.imshow(matrix, interpolation='nearest', cmap=plt.cm.binary)
# можно смотреть по частям
plot_matrix(phi[:200, :], figsize=(10,10), xlabel='topic', ylabel='word', title='Theta matrix')
#print phi

In [13]:
theta_matrix = model_artm.get_theta().values
plot_matrix(theta_matrix[:, 100:200], figsize=(10,10), xlabel='document', ylabel='topic',
            title='theta matrix')
#print theta_matrix

In [16]:
model = model_artm
unique, counter = {}, 1
for topic_index, topic_name in enumerate(model.topic_names):
    score_tracker = model.score_tracker['TopTokensScore']
    print topic_index
    var = score_tracker.last_tokens[topic_name]
    for i in xrange(len(var)):
        unique[idToWord(var[i])] = counter
        counter += 1


Если внимательно прочитать документацию, то узнаем, что переменные last_weights и им подобные выгружаются каждый раз при вызове, что замедляет СИЛЬНО код. Лучше сначала выгрузить, потом обращаться.

In [28]:
with open(gexf_file, 'wb') as f:
    f.write('<gexf xmlns:viz="http:///www.gexf.net/1.1draft/viz" xmlns="http://www.gexf.net/1.1draft" version="1.1">\n')
    f.write('<meta lastmodifieddate="2010-03-03+23:44">\n')
    f.write('<creator>Gephi 0.7</creator>\n')
    f.write('<graph defaultedgetype="undirected" idtype="string" type="static">\n')
    f.write('<nodes count="{}">\n'.format(len(unique) + num_topics))
    for token, value in unique.iteritems():
        f.write('<node id="{0}" label="{1}"/>\n'.format(value, token))
        for id in xrange(num_topics):
            f.write('<node id="{0}" label="TOPIC_{1}|{2}"/>\n'.format(counter + id, id, real_topics_names[id]))
    edge_id = 0
    strs_to_write = []
    p = 0
    topic_tokens = []
    topic_weights = []
    for topic_index, topic_name in enumerate(model.topic_names):
        var = score_tracker.last_tokens[topic_name]
        topic_tokens.append([idToWord(item) for item in var])
    print topic_tokens
    for token, value in unique.iteritems():
        p += 1
        print "Process %s, %d, %d of %d" % (token, value, p, counter)
        for topic_index, topic_name in enumerate(model.topic_names):
            score_tracker = model.score_tracker['TopTokensScore']
            for i in xrange(len(topic_weights[topic_index])):
                if topic_tokens[topic_index][i] == token:
                    strs_to_write.append('<edge id="{0}" source="{1}" target="{2}" weight="{3}"/>\n'.format(
                        edge_id, counter + topic_index, value, topic_weights[topic_index][i]))
                    edge_id += 1
    f.write('<edges count="{}">\n'.format(len(strs_to_write)))
    for elem in strs_to_write:

[[u'american', u'group', u'under', u'being', u'only', u'general', u'members', u'ambassador', u'force', u'strong', u'important', u'european', u'leadership', u'europe', u'current', u'clear', u'cannot', u'threat', u'south', u'nato'], [u'very', u'last', u'much', u'many', u'help', u'where', u'women', u'hillary', u'working', u'best', u'great', u'because', u'family', u'question', u'doing', u'well', u'together', u'really', u'year', u'friends'], [u'there', u'what', u'your', u'like', u'week', u'going', u'want', u'come', u'lona', u'valmoro', u'next', u'valmorou', u'schedule', u'meet', u'dinner', u'coming', u'sure', u'night', u'tonight', u'special'], [u'time', u'good', u'speech', u'july', u'team', u'press', u'give', u'draft', u'send', u'questions', u'getting', u'later', u'better', u'idea', u'still', u'wrote', u'book', u'lissa', u'ready', u'minutes'], [u'united', u'states', u'political', u'such', u'years', u'nations', u'economic', u'between', u'term', u'relationship', u'both', u'region', u'interests', u'problems', u'commitment', u'interest', u'progress', u'different', u'leaders', u'several'], [u'secretary', u'office', u'meeting', u'lauren', u'conference', u'jiloty', u'update', u'staff', u'room', u'jilotylc', u'private', u'list', u'arrive', u'route', u'depart', u'assistant', u'daily', u'phone', u'residence', u'deputy'], [u'just', u'know', u'june', u'email', u'please', u'embassy', u'hope', u'mail', u'note', u'received', u'blackberry', u'judith', u'attachments', u'contact', u'mchale', u'thank', u'love', u'dear', u'happy', u'confidential'], [u'call', u'abedinh', u'sunday', u'today', u'saturday', u'tomorrow', u'august', u'talk', u'morning', u'september', u'turkey', u'text', u'thursday', u'points', u'october', u'confirmed', u'asking', u'secure', u'afternoon', u'speak'], [u'about', u'when', u'david', u'march', u'asked', u'wanted', u'home', u'things', u'might', u'story', u'thomas', u'heard', u'anything', u'tell', u'mark', u'something', u'saying', u'hear', u'told', u'interview'], [u'should', u'think', u'make', u'here', u'forward', u'below', u'anne', u'marie', u'done', u'slaughter', u'philippe', u'article', u'both', u'look', u'read', u'february', u'reines', u'internet', u'latest', u'conversation'], [u'government', u'country', u'military', u'while', u'support', u'effort', u'iraq', u'defense', u'must', u'local', u'conflict', u'civil', u'action', u'particularly', u'diplomatic', u'leaders', u'effective', u'diplomats', u'civilian', u'lead'], [u'policy', u'washington', u'pakistan', u'media', u'strategy', u'plan', u'africa', u'post', u'administration', u'program', u'chief', u'budget', u'needed', u'jones', u'financial', u'strategic', u'gates', u'including', u'dialogue', u'fund'], [u'more', u'clinton', u'than', u'world', u'health', u'countries', u'america', u'care', u'children', u'every', u'nation', u'education', u'half', u'families', u'child', u'small', u'less', u'need', u'often', u'cost'], [u'their', u'president', u'obama', u'white', u'former', u'percent', u'administration', u'campaign', u'americans', u'bush', u'republican', u'republicans', u'congress', u'democrats', u'among', u'voters', u'enough', u'economy', u'barack', u'presidential'], [u'would', u'vote', u'sbwhoeop', u'memo', u'likely', u'either', u'majority', u'next', u'cameron', u'short', u'perhaps', u'labour', u'whether', u'tories', u'london', u'coalition', u'legislation', u'letter', u'votes', u'until'], [u'people', u'into', u'those', u'rights', u'human', u'future', u'freedom', u'violence', u'history', u'anti', u'democracy', u'long', u'saudi', u'found', u'right', u'around', u'especially', u'religious', u'life', u'themselves'], [u'security', u'these', u'national', u'according', u'source', u'forces', u'situation', u'council', u'western', u'opinion', u'same', u'individual', u'qaddafi', u'against', u'army', u'intelligence', u'believes', u'comment', u'sources', u'groups'], [u'work', u'http', u'china', u'center', u'india', u'business', u'chinese', u'university', u'melanne', u'school', u'company', u'project', u'climate', u'asia', u'energy', u'board', u'foundation', u'video', u'html', u'year'], [u'also', u'which', u'other', u'some', u'visit', u'number', u'million', u'russia', u'food', u'problem', u'however', u'year', u'others', u'place', u'cooperation', u'legal', u'areas', u'well', u'money', u'companies'], [u'haiti', u'january', u'report', u'decision', u'order', u'assistance', u'honduras', u'high', u'travel', u'haitian', u'mission', u'needs', u'immediate', u'response', u'mexico', u'operations', u'central', u'zelaya', u'resolution', u'relief'], [u'were', u'over', u'first', u'even', u'senate', u'another', u'john', u'during', u'senator', u'never', u'little', u'committee', u'george', u'hold', u'away', u'took', u'side', u'seems', u'having', u'show'], [u'said', u'minister', u'news', u'told', u'says', u'officials', u'prime', u'afghanistan', u'official', u'afghan', u'police', u'reuters', u'reported', u'taliban', u'reports', u'mahogany', u'kabul', u'killed', u'october', u'month'], [u'sullivan', u'jacob', u'monday', u'friday', u'sullivanjj', u'richard', u'jake', u'april', u'statement', u'verma', u'burns', u'james', u'jeffrey', u'steinberg', u'william', u'preines', u'feltman', u'harold', u'jeff', u'daniel'], [u'party', u'deal', u'power', u'election', u'leader', u'politics', u'justice', u'against', u'gordon', u'held', u'issue', u'brown', u'parties', u'conservative', u'guardian', u'northern', u'democratic', u'ireland', u'community', u'peter'], [u'cheryl', u'mills', u'millscd', u'tuesday', u'wednesday', u'mailto', u'thanks', u'thursday', u'letter', u'kennedy', u'michael', u'nora', u'october', u'toiv', u'crowley', u'kelly', u'patrick', u'philip', u'daniel', u'discuss'], [u'been', u'most', u'take', u'issues', u'made', u'times', u'since', u'position', u'without', u'major', u'fact', u'already', u'worked', u'trade', u'always', u'germany', u'course', u'three', u'turn', u'positions'], [u'house', u'information', u'agreement', u'benghazi', u'sensitive', u'dept', u'produced', u'select', u'waiver', u'comm', u'foia', u'redactions', u'libya', u'libyan', u'attack', u'september', u'egypt', u'rice', u'consulate', u'stevens'], [u'could', u'them', u'after', u'back', u'then', u'december', u'bill', u'called', u'before', u'again', u'calls', u'trying', u'november', u'blair', u'north', u'holbrooke', u'start', u'soon', u'left', u'right'], [u'foreign', u'public', u'development', u'global', u'international', u'diplomacy', u'affairs', u'service', u'approach', u'agency', u'usaid', u'programs', u'planning', u'discussion', u'director', u'initiative', u'resources', u'capacity', u'goals', u'building'], [u'israel', u'iran', u'peace', u'israeli', u'east', u'talks', u'nuclear', u'middle', u'palestinian', u'netanyahu', u'arab', u'bank', u'west', u'reason', u'jewish', u'palestinians', u'negotiations', u'jerusalem', u'class', u'process']]
