In [1]:
import numpy as np
import pandas as pd
In [2]:
vocab = { }
f_ = r'..\..\data\text\bitcoin\src\corpus\by_day\mallet\topic-word-counts.csv'
In [3]:
with open(f_) as f:
for line in f:
objs = [ item.strip() for item in line.split(' ') ]
term = objs[1]
if not term in vocab.keys():
vocab[term] = 0
topics = np.array([ [ int(inner) for inner in item.split(':') ] for item in objs[2:] ])
vocab[term] = topics[:, 1].sum()
In [13]:
[ (term, vocab[term]) for term in sorted(vocab, key=lambda x: x[1], reverse=True)]
Out[13]:
[('szabo', 2272),
('python', 3959),
('cycles', 2212),
('myth', 1987),
('typed', 1757),
('typos', 945),
('hypothesis', 1606),
('bytes', 8456),
('pyramid', 4399),
('cynical', 795),
('dying', 3197),
('hyperinflation', 3014),
('hyper', 1000),
('typing', 3107),
('byte', 4542),
('mysql', 633),
('hypothetical', 4045),
('nyc', 2460),
('systemic', 1327),
('hybrid', 1218),
('cycle', 5521),
('tying', 798),
('hypocritical', 880),
('dynamically', 925),
('byzantine', 1189),
('hypocrisy', 887),
('hyped', 817),
('syndrome', 704),
('symbol', 3968),
('bypass', 1968),
('cyber', 1452),
('hyperbole', 1176),
('cypherpunks', 981),
('synonymous', 546),
('tyrannical', 500),
('typo', 3227),
('dynamics', 1356),
('dynamic', 4510),
('syria', 712),
('cypherpunk', 914),
('myspace', 1891),
('tyranny', 1396),
('kyc', 7473),
('xyz', 1047),
('ryan', 932),
('synced', 1473),
('hypothetically', 1563),
('mysterious', 991),
('bypassing', 644),
('hysteria', 588),
('mystery', 1243),
('nyse', 1173),
('myriad', 855),
('syntax', 591),
('bye', 2340),
('hypocrite', 646),
('symbols', 1037),
('sympathy', 1110),
('synchronization', 546),
('sybil', 2824),
('symptom', 607),
('syncing', 2050),
('hyperbolic', 611),
('cyprus', 3488),
('gyft', 5392),
('mycellium', 1182),
('myreminders', 1759),
('extended', 3872),
('expectation', 2648),
('excessive', 2026),
('exchanged', 3836),
('excluding', 1353),
('expression', 1274),
('expressing', 1439),
('exceptional', 538),
('explanations', 1969),
('expenses', 4981),
('expanded', 1137),
('extend', 2749),
('exceed', 2133),
('explodes', 577),
('exploit', 5129),
('excitement', 1534),
('expire', 1301),
('exponential', 6066),
('exchangers', 692),
('exit', 6011),
('executing', 959),
('exchanger', 817),
('explorer', 3273),
('exponentially', 4116),
('expressed', 2527),
('exclude', 5244),
('exploiting', 1209),
('exposed', 4480),
('exception', 3732),
('exert', 509),
('exploring', 1281),
('experimental', 1588),
('exploding', 713),
('explosive', 550),
('experiencing', 2587),
('exercise', 2470),
('exploded', 744),
('exposing', 1660),
('excess', 2665),
('experimenting', 938),
('extract', 2284),
('exposure', 5063),
('exclusively', 3210),
('explosion', 978),
('expose', 2606),
('exceptionally', 654),
('expectations', 3093),
('express', 3852),
('explode', 1570),
('exceeds', 1457),
('exchanging', 4647),
('expansion', 2220),
('experiments', 1230),
('exiting', 675),
('expanding', 2450),
('oxymoron', 449),
('extension', 7186),
('explore', 1674),
('executable', 563),
('expands', 626),
('extrapolate', 689),
('experiences', 3238),
('excel', 1409),
('excluded', 1070),
('exploits', 1597),
('exceptions', 1497),
('exceeding', 559),
('txn', 1919),
('txns', 1266),
('extends', 538),
('exposes', 800),
('txt', 901),
('explored', 485),
('execution', 1905),
('xxx', 933),
('expects', 1263),
('expired', 1114),
('expires', 1007),
('exodus', 2262),
('extracting', 485),
('exorbitant', 647),
('executed', 2594),
('exploited', 1839),
('expiration', 1116),
('exploitation', 737),
('export', 3786),
('exaggerating', 462),
('txs', 8180),
('explicit', 2027),
('excludes', 459),
('execute', 3216),
('extortion', 1258),
('existential', 790),
('exclusive', 3208),
('exaggeration', 591),
('expertise', 2543),
('extensions', 2834),
('txid', 2218),
('existent', 594),
('examine', 1088),
('axis', 815),
('executive', 2149),
('extending', 1124),
('exceedingly', 504),
('executives', 886),
('extraordinary', 1196),
('experimentation', 523),
('exhausted', 682),
('expenditure', 602),
('extracted', 558),
('exaggerated', 848),
('extensive', 1685),
('exports', 681),
('exported', 539),
('expenditures', 459),
('exceeded', 814),
('extremist', 516),
('extremes', 495),
('explorers', 1537),
('excuses', 1478),
('extensively', 882),
('exporting', 622),
('exempt', 1137),
('exhibit', 592),
('extraordinarily', 440),
('expedia', 1123),
('nxt', 2223),
('swaps', 2338),
('tweak', 706),
('kwh', 1326),
('swap', 3710),
('owes', 1568),
('owed', 2148),
('swings', 3773),
('awful', 3708),
('switched', 4173),
('award', 1358),
('swing', 2419),
('switches', 1110),
('dwolla', 4489),
('awhile', 3301),
('tweaks', 504),
('tweaking', 439),
('awarded', 897),
('twenty', 1368),
('switzerland', 2223),
('swipe', 1546),
('switching', 5146),
('owe', 5571),
('swapped', 569),
('awareness', 4044),
('swiss', 2501),
('twelve', 575),
('swear', 1723),
('twist', 2062),
('aww', 795),
('www', 964),
('twofactor', 874),
('sway', 902),
('fwiw', 2041),
('swept', 935),
('owning', 5596),
('tweet', 5165),
('sweat', 889),
('awkward', 1448),
('sword', 778),
('tweeted', 1318),
('tweets', 2145),
('swapping', 847),
('awaiting', 943),
('sweden', 1928),
('awake', 611),
('sweep', 4130),
('swan', 716),
('swift', 2620),
('sweeping', 1498),
('swallow', 806),
('aws', 1527),
('twisted', 728),
('swedish', 1032),
('tweeting', 548),
('twins', 1668),
('twoway', 737),
('swimming', 497),
('evening', 1604),
('nvidia', 1208),
('evenly', 1038),
('overhead', 2875),
('overcome', 2921),
('eve', 907),
('evasion', 2463),
('avoided', 2668),
('evading', 486),
('evade', 1089),
('overnight', 4674),
('evaluate', 1719),
('avail', 487),
('evident', 1424),
('overseas', 2520),
('eventual', 1745),
('overvalued', 1651),
('overkill', 846),
('oversight', 1937),
('averaging', 3107),
('overdue', 536),
('avoiding', 3332),
('avoidance', 697),
('overly', 2561),
('availability', 1830),
('avenue', 892),
('averages', 1105),
('overtake', 1286),
('everytime', 2754),
('overblown', 455),
('dvd', 912),
('overtime', 700),
('overwhelming', 3473),
('evidently', 613),
('everybodys', 743),
('overflow', 593),
('everyones', 1187),
('overlords', 694),
('overpriced', 1769),
('evolution', 3526),
('overwrite', 1025),
('evolve', 3199),
('averse', 538),
('evaluating', 761),
('avoids', 823),
('overlooked', 844),
('evaluation', 726),
('overlap', 845),
('averaged', 558),
('avg', 1419),
('overloaded', 705),
('overwhelmed', 816),
('overwritten', 970),
('nvm', 471),
('overview', 1645),
('evolving', 1307),
('avenues', 678),
('everythings', 418),
('evolved', 1241),
('overthrow', 558),
('override', 679),
('overestimate', 563),
('evaluated', 482),
('overlook', 421),
('evolutionary', 555),
('overwhelmingly', 847),
('cvs', 703),
('overlay', 597),
('evils', 477),
('evidenced', 685),
('evolves', 748),
('overdraft', 935),
('avalon', 2213),
('overstock', 5294),
('russian', 4829),
('qualify', 2002),
('quantum', 7733),
('jumping', 3703),
('hurry', 2054),
('dust', 6147),
('supercomputer', 854),
('culture', 4135),
('july', 6184),
('guarantees', 2922),
('subsidy', 3050),
('junk', 1878),
('guilty', 4391),
('buck', 3071),
('authoritative', 560),
('buddy', 5238),
('lurking', 907),
('bull', 5255),
('justification', 1891),
('justifying', 447),
('bubbles', 6198),
('qualities', 1238),
('aud', 1915),
('queue', 2790),
('dual', 919),
('burst', 2983),
('supplies', 1629),
('suit', 3581),
('duty', 1678),
('gui', 3271),
('summer', 3923),
('bulk', 3398),
('outpace', 641),
('guessed', 1228),
('authorize', 972),
('burden', 4025),
('tuned', 1189),
('qualifies', 718),
('sums', 3486),
('curiosity', 2618),
('automatic', 3826),
('hurts', 3412),
('suffer', 4204),
('jumps', 1787),
('authors', 2298),
('hugely', 1735),
('functional', 3716),
('automate', 1030),
('jumped', 3127),
('fulltime', 857),
('suited', 1809),
('outlaw', 1018),
('subpoena', 753),
('outlawed', 822),
('judging', 2221),
('judged', 598),
('subvert', 811),
('outlook', 1452),
('publicity', 3530),
('subscribe', 2267),
('quicker', 3213),
('vulnerability', 3517),
('audience', 4702),
('auction', 4676),
('pulling', 4137),
('superficial', 511),
('multiply', 1722),
('purse', 2845),
('auditing', 1503),
('audited', 2193),
('punishment', 1451),
('subjective', 3957),
('sufficiently', 2878),
('nut', 1111),
('guidelines', 2003),
('builtin', 1585),
('quarter', 2652),
('surge', 2524),
('audit', 5562),
('bursts', 800),
('quantity', 3666),
('quantify', 772),
('guns', 5496),
('tulips', 2155),
('dunno', 3434),
('succeeding', 1037),
('lulz', 1122),
('supporters', 6387),
('gun', 5525),
('vulnerabilities', 2126),
('futures', 17329),
('auth', 1512),
('publication', 1293),
('sun', 2977),
('currencys', 1070),
('functionally', 855),
('cure', 1251),
('sustainable', 3960),
('pulls', 1216),
('supplier', 1362),
('subsequent', 2166),
('durable', 857),
('buildings', 1089),
('hungry', 1661),
('justified', 2097),
('lukejr', 2936),
('burned', 4280),
('budget', 3970),
('outdated', 2572),
('outcomes', 1976),
('successor', 505),
('duh', 1835),
('nuclear', 2977),
('ounce', 2204),
('survey', 2653),
('rush', 4832),
('duck', 940),
('cutting', 3209),
('hurdles', 1143),
('quoted', 3010),
('music', 6123),
('subsequently', 1172),
('austria', 712),
('bummer', 795),
('suits', 1855),
('subjects', 1127),
('rusty', 773),
('bury', 892),
('european', 4807),
('multiplier', 764),
('outage', 796),
('guaranteeing', 569),
('pulled', 4991),
('buzz', 1205),
('fuckin', 1545),
('supercomputers', 732),
('quit', 5134),
('sustain', 2367),
('dummy', 998),
('guesses', 1488),
('gut', 1662),
('jurisdiction', 3369),
('suing', 746),
('survived', 1370),
('burning', 2962),
('guides', 1258),
('surprising', 3496),
('quadrillion', 846),
('cumulative', 995),
('subway', 1021),
('tunnel', 579),
('sucker', 1032),
('suspicious', 5158),
('ruin', 3115),
('quo', 3887),
('submitted', 4623),
('juice', 715),
('multi', 2760),
('subscriber', 562),
('tumbling', 874),
('lucrative', 1209),
('tutorial', 2284),
('bust', 3110),
('buffet', 2082),
('bundle', 2040),
('bump', 3310),
('humorous', 445),
('guards', 684),
('publications', 637),
('austrian', 2338),
('suffering', 2020),
('sustained', 1729),
('cute', 2617),
('functioning', 3044),
('hung', 955),
('suite', 892),
('ruled', 1449),
('succeeds', 2183),
('auto', 2862),
('humanity', 4320),
('suckers', 1408),
('customs', 1171),
('bullion', 1209),
('audio', 1596),
('substantially', 2614),
('bully', 676),
('australia', 5973),
('authenticity', 763),
('authentication', 4931),
('builds', 1992),
('buggy', 2019),
('guests', 569),
('autocorrect', 473),
('australian', 2835),
('survival', 1883),
('dumping', 4410),
('quantities', 1750),
('buzzword', 581),
('europeans', 760),
('subreddits', 3658),
('fuel', 2971),
('purposely', 1075),
('judgement', 2384),
('busts', 530),
('busted', 1235),
('suspected', 1444),
('query', 1566),
('outweigh', 1145),
('quotes', 3488),
('fundamentals', 4267),
('outweighs', 598),
('suitable', 2570),
('pumping', 4083),
('null', 728),
('cutoff', 523),
('cuts', 1738),
('dug', 671),
('suspend', 722),
('multinational', 464),
('nuts', 3163),
('subtle', 1828),
('punch', 1269),
('fuzzy', 807),
('summarize', 802),
('quiet', 2232),
('quoting', 2096),
('suffered', 1214),
('bumped', 501),
('questionable', 2092),
('tulip', 2686),
('bullets', 668),
('supplied', 724),
('buyin', 708),
('cumbersome', 1231),
('puzzle', 1838),
('authenticate', 782),
('dumber', 607),
('eurozone', 646),
('substitute', 1368),
('wut', 1269),
('bureaucracy', 780),
('succeeded', 1392),
('surprisingly', 1717),
('subscriptions', 864),
('tutorials', 1110),
('cult', 2656),
('luxury', 1472),
('outof', 849),
('wuille', 749),
('june', 5019),
('funnier', 487),
('pursue', 1552),
('suspended', 1554),
('ludicrous', 1167),
('sued', 1487),
('supreme', 1210),
('dumbest', 1180),
('juicy', 492),
('buddies', 960),
('dudes', 1741),
('dubious', 1105),
('duplicate', 1575),
('suppliers', 2307),
('cultural', 1435),
('quadratic', 1108),
('publically', 475),
('autonomy', 567),
('fucks', 2733),
('subscription', 2305),
('surface', 2805),
('hurting', 2282),
('multibillion', 546),
('guts', 491),
('luckily', 3485),
('mutual', 2310),
('humor', 1663),
('tumbler', 975),
('queries', 789),
('hunt', 1469),
('buffer', 937),
('subsidizing', 480),
('qualified', 2229),
('fulfill', 1535),
('suspicion', 1470),
('autonomous', 1826),
('pushes', 1603),
('submission', 1918),
('multiplied', 910),
('curves', 850),
('suspects', 509),
('multimillion', 564),
('fucker', 694),
('dutch', 2135),
('susceptible', 1779),
('outlet', 1020),
('hub', 5823),
('dumped', 3087),
('fuckers', 993),
('jurisdictions', 1559),
('rubber', 599),
('suffice', 1105),
('runup', 896),
('fungible', 2694),
('auctions', 1053),
('questioning', 1601),
('outrageous', 1381),
('fullnode', 967),
('guilt', 800),
('surveillance', 1990),
('buttons', 1820),
('surrounding', 2314),
('aus', 868),
('august', 9211),
('tuesday', 2325),
('hurdle', 1211),
('outperform', 577),
('lump', 1018),
('sucking', 932),
('purposefully', 1109),
('submitting', 1738),
('murder', 4190),
('publishing', 2521),
('sue', 3247),
('buried', 1884),
('outline', 739),
('bundles', 538),
('ouch', 1659),
('superiority', 752),
('mum', 632),
('dummies', 484),
('outlets', 1539),
('automation', 1006),
('subscribers', 1842),
('burger', 1191),
('punishing', 554),
('mutually', 2006),
('justice', 3705),
('survives', 1220),
('punished', 1224),
('guild', 837),
('rude', 2663),
('pumps', 1122),
('burns', 1183),
('quietly', 1343),
('rumors', 1754),
('bucket', 1627),
('rumor', 1642),
('pub', 1168),
('substance', 1865),
('fulfilling', 869),
('nuance', 497),
('subsidies', 953),
('lurker', 554),
('quarterly', 638),
('supplying', 462),
('bureaucratic', 432),
('publics', 482),
('dumps', 1842),
('bumps', 646),
('tumble', 765),
('sunday', 2665),
('ruling', 2360),
('dumbass', 1832),
('russia', 8213),
('quantitative', 1331),
('lunch', 3673),
('fuels', 542),
('bullish', 4599),
('pussy', 804),
('outstanding', 1847),
('guest', 1279),
('tune', 1576),
('submissions', 1383),
('outs', 913),
('humble', 2411),
('surpass', 980),
('bud', 1605),
('bus', 3423),
('quickest', 749),
('guardian', 556),
('husband', 705),
('ruby', 676),
('rudimentary', 456),
('supermarket', 787),
('justifies', 568),
('surprises', 643),
('hunting', 734),
('summed', 513),
('tuition', 738),
('pun', 1002),
('multitude', 700),
('surgery', 630),
('numbered', 489),
('pubkey', 1299),
('ruining', 1132),
('bullet', 1941),
('sudo', 1161),
('furniture', 522),
('authorization', 1042),
('rug', 549),
('outgoing', 1491),
('fulfilled', 944),
('punctuation', 508),
('audits', 1426),
('duplicated', 641),
('yubikey', 960),
('ruined', 1754),
('butthurt', 1872),
('publishes', 664),
('authoritarian', 1080),
('murdered', 836),
('subset', 1800),
('subtract', 608),
('turing', 1382),
('guidance', 2680),
('outlined', 1318),
('turnover', 577),
('judgment', 1085),
('lure', 499),
('kudos', 1770),
('outsource', 633),
('nutshell', 794),
('surplus', 935),
('sugar', 851),
('pursuing', 875),
('authenticator', 2715),
('queen', 668),
('bureau', 695),
('supporter', 3029),
('gullible', 1247),
('butter', 879),
('hunch', 545),
('suppress', 792),
('custody', 1068),
('mundane', 439),
('cue', 582),
('bundled', 626),
('surviving', 858),
('authorized', 1554),
('budgets', 537),
('suffers', 1042),
('quest', 453),
('nuke', 522),
('quarters', 550),
('buttcoin', 2132),
('buttcoiners', 1008),
('cup', 2935),
('jury', 1654),
('punish', 1443),
('fungibility', 3958),
('subsidized', 1137),
('turmoil', 641),
('puppet', 1198),
('hubris', 555),
('cuz', 2223),
('burnt', 952),
('subjected', 507),
('auditable', 560),
('authentic', 606),
('buffett', 1120),
('putin', 1089),
('bush', 938),
('suicide', 2419),
('musk', 781),
('bumping', 634),
('outrage', 656),
('subsidize', 843),
('rub', 1017),
('pumped', 2153),
('judges', 1019),
('mud', 565),
('pursuit', 557),
('subscribed', 1070),
('outsiders', 744),
('duration', 953),
('guard', 1657),
('cultures', 668),
('yuan', 2804),
('fuss', 734),
('questioned', 837),
('multiplying', 488),
('gum', 619),
('sucked', 1320),
('fueled', 798),
('hubs', 4878),
('suppressed', 470),
('funniest', 477),
('rural', 1031),
('outta', 679),
('multiples', 501),
('butt', 1740),
('bulletproof', 477),
('ruins', 555),
('puppets', 770),
('rulers', 704),
('rubbish', 1021),
('sunk', 962),
('cunt', 1048),
('hug', 562),
('guise', 613),
('lunatic', 591),
('surrounded', 541),
('surpassed', 636),
('multibit', 7536),
('buttcoiner', 656),
('supportive', 940),
('ounces', 831),
('curb', 530),
('nuanced', 645),
('duped', 627),
('rushing', 935),
('surrender', 518),
('outsider', 566),
('luke', 3527),
('businessman', 480),
('butterfly', 1901),
('bureaucrats', 639),
('bulls', 899),
('multisignature', 2342),
('austin', 1091),
('supermajority', 1258),
('buzzwords', 629),
('futile', 885),
('rushed', 1514),
('russians', 1108),
('fundraising', 698),
('subs', 3623),
('custodial', 1183),
('turkey', 913),
('authy', 2015),
('aug', 3116),
('aussie', 586),
('euphoric', 476),
('buterin', 521),
('outpost', 1198),
('muh', 1020),
('pumpers', 702),
('custodian', 713),
('nullc', 914),
('huobi', 1717),
('quadrigacx', 1070),
('stabilize', 3284),
('ftw', 1427),
('struggle', 2268),
('stumbled', 889),
('standalone', 811),
('btcs', 6727),
('attract', 3665),
('attracts', 974),
('steals', 2231),
('student', 5452),
('string', 4634),
('stabilizing', 590),
('static', 3097),
('strategic', 907),
('attach', 1585),
('steve', 1754),
('htm', 843),
('structures', 1961),
('stress', 4587),
('strangers', 2091),
('stream', 4731),
('utilize', 2103),
('otc', 2470),
('statistically', 1333),
('statistical', 1320),
('stepping', 1198),
('strategies', 2032),
('staying', 3492),
('studying', 1701),
('stabilized', 683),
('ether', 4720),
('strikes', 1378),
('attitude', 5068),
('mtgoxs', 1177),
('otoh', 894),
('standpoint', 2244),
('stance', 4052),
('stale', 881),
('standing', 4069),
('studied', 1803),
('attacked', 4169),
('stats', 4132),
('stat', 625),
('sticker', 1611),
('strict', 2687),
('utter', 1929),
('stir', 576),
('strengths', 818),
('mt.gox', 5746),
('ftfy', 3390),
('stayed', 2381),
('statistic', 797),
('station', 2605),
('statistics', 3985),
('attacking', 5832),
('stabilizes', 1178),
('stretch', 2313),
('steady', 5071),
('startups', 4848),
('stems', 647),
('strength', 3405),
('stash', 4091),
('strictly', 3470),
('steer', 1020),
('strings', 1510),
('atleast', 1999),
('starters', 1033),
('studio', 669),
('utopia', 888),
('attachment', 557),
('sticky', 2153),
('steadily', 1934),
('stations', 1177),
('itunes', 1434),
('attackers', 3179),
('stateless', 829),
('strike', 2031),
('stamped', 485),
('statists', 1086),
('strongest', 1454),
('strengthen', 1031),
('eternal', 795),
('steam', 5514),
('straightforward', 1998),
('stupidest', 569),
('studies', 1805),
('stole', 5031),
('starving', 838),
('starve', 772),
('striking', 473),
('streets', 2080),
('stages', 2219),
('attractive', 3898),
('stripe', 1383),
('stood', 1023),
('ethical', 2014),
('utilities', 1260),
('attributed', 873),
('statist', 2170),
('stamp', 2764),
('stamps', 1103),
('stressful', 826),
('streaming', 1893),
('star', 2612),
('ate', 1060),
('stupidity', 3095),
('strawman', 1847),
('attributes', 1052),
('attended', 614),
('iteration', 781),
('stacked', 455),
('struggling', 2158),
('utc', 10999),
('utterly', 2728),
('stealth', 2398),
('structured', 1077),
('sticking', 2445),
('atomic', 2709),
('standardized', 777),
('stack', 3228),
('stressed', 629),
('atoms', 894),
('stone', 2694),
('struck', 1112),
('sticks', 1813),
('strangely', 611),
('stagnation', 870),
('stickers', 1504),
('strip', 1219),
('stupidly', 939),
('stakes', 963),
('ctrl', 622),
('stem', 722),
('atms', 8642),
...]
In [ ]:
Content source: pepper-johnson/Erudition
Similar notebooks: