notebook.community

Edit and run



In [12]:

    
import word_context_distance as wcd
from word_context_distance import get_word_distances_per_sentence



In [13]:

    
# get example data
import urllib2
url = "http://www.gutenberg.org/files/2554/2554.txt"
response = urllib2.urlopen(url)
raw = response.read().decode('utf8')



In [14]:

    
dist_dict = get_word_distances_per_sentence(raw[:111175], "sorrow", "sentence")



In [21]:

    
print "dist_dict -> " + str(dist_dict)
print "get_max_distance -> " + str(get_max_distance(dist_dict, 0))
print "get_min_distance -> " + str(get_min_distance(dist_dict, 0))
print "get_within_distance -> " + str(get_within_distance(dist_dict, 5, 1, 0))

print make_distance_tree(raw[:111175], "sorrow", 15)









    



dist_dict -> {u'heart': [5], u'full': [2], u'trifles': [8], u'would': [18], u'perhaps': [24], u'allow': [16], u'could': [26, 2], u'dounia': [19], u'it;': [15], u'besides': [20], u'letter': [10], u'ruin': [23], u'fill': [13]}
get_max_distance -> {u'could': 26}
get_min_distance -> {u'could': 2}
get_within_distance -> {u'could': [2]}
{u'could': {u'nothing': [4, 1], u'real': [4], u'terror': [5], u'landlady': [1, 8]}, u'letter': {u'knowing': [7], u'byelinsky': [2], u'set': [12], u'conversations': [7], u'taking': [10], u'printing': [15], u'intention': [10], u'accused': [12], u'gogol': [4], u'censorship': [4], u'press': [16], u'part': [9], u'reading': [2, 2, 12, 2]}, u'trifles': {u'attempt': [10], u'like': [7], u'odd': [5], u'thought': [2], u'thing': [8], u'want': [12], u'smile': [6], u'frightened': [3]}}



In [33]:



In [ ]: