Computing Word Frequency for Brand Perception Interviews amongst key stakeholders NYCAASC

Importing Libraries


In [1]:
import re
from nltk import word_tokenize, pos_tag
import math
import string
from collections import Counter
import pandas as pd

In [3]:
# only need to run once
nltk.download()


---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-3-60474dd24e0a> in <module>()
      1 # only need to run once
----> 2 nltk.download()

NameError: name 'nltk' is not defined

Reading in Data


In [4]:
df = pd.read_csv("/Users/chuamelia/Downloads/Brand_IDI_Qual.tsv",sep="\t")

Looking at Structure of Data


In [5]:
df.head(1)


Out[5]:
id a_position_toNYCAASC b_position_toNYCAASC embody_Mission future_Direction first_Time logo
0 1 Umm, I guess I do a lot of the upper level man... I see it as, well I see my role as kinda givin... I think that a good, I talked about this earli... I wanna see it reaching more people and being ... I guess, NYCAASC is kind of divided between th... The spelling is a little confusing because of ...

Prepare Functions for Analysis


In [13]:
#Write function to append all tokens to one list.
def stuff_tokenizer(column, list):
    discard = ['IN', ',','.','TO', 'DT', 'PRP', 'CC', 'are', 'is', 'um', u'it\u2019s', 'PRP$']
    end_num = len(column)
    temp = []
    for i in range(end_num): #append to one list
        temp.extend(word_tokenize(column[i].decode('utf-8')))
    temp2 = pos_tag(temp) #tag words
    for i in temp2: #discard prepositions, articles, etc.
        if i[1] not in discard and i[0] not in discard: 
            list.append(i)

In [7]:
#add decode('utf-8') bc "\xe2\x80\x99" interprtation
#ascii' codec can't decode byte
#example: df['first_Time'][0]

Create empty lists for stuffing.


In [8]:
q1a = []
q1b = []
q2 = []
q3 = []
q4 = []
q5 = []

Stuff Away!


In [14]:
stuff_tokenizer(df['a_position_toNYCAASC'],q1a)
stuff_tokenizer(df['b_position_toNYCAASC'],q1b)
stuff_tokenizer(df['embody_Mission'],q2)
stuff_tokenizer(df['future_Direction'],q3)
stuff_tokenizer(df['first_Time'],q4)
stuff_tokenizer(df['logo'],q5)

Checking if stuffing worked...


In [10]:
print q1a[:3]


[]

In [16]:
dataset = [q1a,q1b,q2,q3,q4,q5]

In [17]:
for i in dataset:
    common = Counter(i)
    print common.most_common(5)
# Need to remove prepositions
# How can we control for one person repeating the same word?
# select distinct words: my_list = list(set(my_list))
# compare word counts


[((u'just', 'RB'), 15), ((u'what', 'WP'), 13), ((u'do', 'VBP'), 12), ((u'also', 'RB'), 11), ((u'sort', 'NN'), 9)]
[((u'people', 'NNS'), 16), ((u'conference', 'NN'), 13), ((u'think', 'VBP'), 12), ((u'know', 'VBP'), 12), ((u'that', 'WDT'), 11)]
[((u'so', 'RB'), 19), ((u'really', 'RB'), 17), ((u'was', 'VBD'), 16), ((u'just', 'RB'), 14), ((u'Asian', 'JJ'), 14)]
[((u'be', 'VB'), 33), ((u'think', 'VBP'), 32), ((u'know', 'VBP'), 25), ((u'people', 'NNS'), 24), ((u'want', 'VBP'), 22)]
[((u'people', 'NNS'), 15), ((u'be', 'VB'), 14), ((u'know', 'VBP'), 13), ((u'want', 'VBP'), 13), ((u'that', 'WDT'), 12)]
[((u'think', 'VBP'), 20), ((u'don\u2019t', 'VBP'), 13), ((u'be', 'VB'), 13), ((u'just', 'RB'), 12), ((u'not', 'RB'), 11)]

In [18]:
Counter(q4).most_common()


Out[18]:
[((u'people', 'NNS'), 15),
 ((u'be', 'VB'), 14),
 ((u'know', 'VBP'), 13),
 ((u'want', 'VBP'), 13),
 ((u'that', 'WDT'), 12),
 ((u'think', 'VBP'), 12),
 ((u'issues', 'NNS'), 12),
 ((u'really', 'RB'), 12),
 ((u'just', 'RB'), 11),
 ((u'thing', 'NN'), 11),
 ((u'lot', 'NN'), 11),
 ((u'also', 'RB'), 11),
 ((u'who', 'WP'), 9),
 ((u'not', 'RB'), 9),
 ((u'don\u2019t', 'VBP'), 8),
 ((u'Um', 'NNP'), 8),
 ((u'right', 'RB'), 8),
 ((u'NYCAASC', 'NNP'), 7),
 ((u'think', 'VB'), 7),
 ((u'have', 'VBP'), 7),
 ((u'sort', 'NN'), 6),
 ((u'do', 'VBP'), 6),
 ((u'do', 'VB'), 6),
 ((u'can', 'MD'), 6),
 ((u'kind', 'NN'), 6),
 ((u'talk', 'VB'), 6),
 ((u'come', 'VB'), 6),
 ((u'one', 'CD'), 6),
 ((u'things', 'NNS'), 6),
 ((u'being', 'VBG'), 6),
 ((u'so', 'RB'), 6),
 ((u'guess', 'VBP'), 5),
 ((u'how', 'WRB'), 5),
 ((u'would', 'MD'), 5),
 ((u'important', 'JJ'), 5),
 ((u'feel', 'VBP'), 5),
 ((u'stories', 'NNS'), 5),
 ((u'may', 'MD'), 5),
 ((u'know', 'VB'), 5),
 ((u'conference', 'NN'), 5),
 ((u'other', 'JJ'), 5),
 ((u'was', 'VBD'), 5),
 ((u'very', 'RB'), 5),
 ((u'we\u2019re', 'NN'), 5),
 ((u'what', 'WP'), 5),
 ((u'able', 'JJ'), 5),
 ((u'involved', 'VBN'), 4),
 ((u'community', 'NN'), 4),
 ((u'exposure', 'NN'), 4),
 ((u'space', 'NN'), 4),
 ((u'friends', 'NNS'), 4),
 ((u'I\u2019ve', 'NNP'), 4),
 ((u'said', 'VBD'), 4),
 ((u'Asian', 'JJ'), 4),
 ((u'then', 'RB'), 4),
 ((u'why', 'WRB'), 4),
 ((u'hear', 'VB'), 4),
 ((u'first', 'JJ'), 4),
 ((u'taking', 'VBG'), 3),
 ((u'care', 'VBP'), 3),
 ((u'more', 'JJR'), 3),
 ((u'say', 'VBP'), 3),
 ((u'fosters', 'NNS'), 3),
 ((u'deal', 'NN'), 3),
 ((u'students', 'NNS'), 3),
 ((u'get', 'VB'), 3),
 ((u'there', 'EX'), 3),
 ((u'always', 'RB'), 3),
 ((u'So', 'RB'), 3),
 ((u'someone', 'NN'), 3),
 ((u'interested', 'JJ'), 3),
 ((u'history', 'NN'), 3),
 ((u'big', 'JJ'), 3),
 ((u'should', 'MD'), 3),
 ((u'definitely', 'RB'), 3),
 ((u'like', 'VBP'), 3),
 ((u'personal', 'JJ'), 3),
 ((u'tell', 'VBP'), 3),
 ((u'out', 'RP'), 3),
 ((u'student', 'NN'), 3),
 ((u'way', 'NN'), 3),
 ((u'place', 'NN'), 3),
 ((u'when', 'WRB'), 3),
 ((u'course', 'NN'), 2),
 ((u'stuff', 'NN'), 2),
 ((u'How', 'NNP'), 2),
 ((u'vulnerability', 'NN'), 2),
 ((u'American', 'NNP'), 2),
 ((u'let', 'VB'), 2),
 ((u'regardless', 'RB'), 2),
 ((u'biggest', 'JJS'), 2),
 ((u'dialogue', 'NN'), 2),
 ((u'more', 'RBR'), 2),
 ((u'like', 'JJ'), 2),
 ((u'person', 'NN'), 2),
 ((u'talking', 'VBG'), 2),
 ((u'isn\u2019t', 'JJ'), 2),
 ((u'hopefully', 'RB'), 2),
 ((u'ask', 'VB'), 2),
 ((u'go', 'VBP'), 2),
 ((u'saying', 'VBG'), 2),
 ((u'group', 'NN'), 2),
 ((u'here', 'RB'), 2),
 ((u'obviously', 'RB'), 2),
 ((u'make', 'VB'), 2),
 ((u'studies', 'NNS'), 2),
 ((u'I\u2019ll', 'NNP'), 2),
 ((u'anything', 'NN'), 2),
 ((u'part', 'NN'), 2),
 ((u'ethnic', 'JJ'), 2),
 ((u'growth', 'NN'), 2),
 ((u'fun', 'JJ'), 2),
 ((u'feel', 'VB'), 2),
 ((u'world', 'NN'), 2),
 ((u'trying', 'VBG'), 2),
 ((u'college', 'NN'), 2),
 ((u'comfortable', 'JJ'), 2),
 ((u'forth', 'NN'), 2),
 ((u'there\u2019s', 'NN'), 2),
 ((u'going', 'VBG'), 2),
 ((u'larger', 'JJR'), 2),
 ((u'have', 'VB'), 2),
 ((u'organization', 'NN'), 2),
 ((u'that\u2019s', 'JJ'), 2),
 ((u'discussion', 'NN'), 2),
 ((u'accessible', 'JJ'), 2),
 ((u'learn', 'VB'), 2),
 ((u'whatever', 'WDT'), 2),
 ((u'did', 'VBD'), 2),
 ((u'AAPI', 'NNP'), 2),
 ((u'initial', 'JJ'), 2),
 ((u'create', 'VB'), 2),
 ((u'joined', 'VBD'), 2),
 ((u'which', 'WDT'), 2),
 ((u'again', 'RB'), 2),
 ((u'something', 'NN'), 2),
 ((u'enough', 'RB'), 2),
 ((u'putting', 'VBG'), 2),
 ((u'creating', 'VBG'), 2),
 ((u'conversations', 'NNS'), 2),
 ((u'helps', 'VBZ'), 1),
 ((u'actually', 'RB'), 1),
 ((u'debate', 'VBP'), 1),
 ((u'creation', 'NN'), 1),
 ((u'together', 'RB'), 1),
 ((u'etc', 'NN'), 1),
 ((u'little', 'JJ'), 1),
 ((u'term', 'NN'), 1),
 ((u'already', 'RB'), 1),
 ((u'talked', 'VBN'), 1),
 ((u'put', 'VB'), 1),
 ((u'representation', 'NN'), 1),
 ((u'pass', 'VB'), 1),
 ((u'air', 'NN'), 1),
 ((u'kinda', 'FW'), 1),
 ((u'aware', 'JJ'), 1),
 ((u'fundraising', 'VBG'), 1),
 ((u'passionate', 'NN'), 1),
 ((u'model', 'NN'), 1),
 ((u'we\u2019re', 'VBP'), 1),
 ((u'ARE', 'VBP'), 1),
 ((u'significant', 'JJ'), 1),
 ((u'will', 'MD'), 1),
 ((u'oh', 'NNS'), 1),
 ((u'up', 'RP'), 1),
 ((u'impact', 'VB'), 1),
 ((u'uh', 'EX'), 1),
 ((u'divided', 'VBN'), 1),
 ((u'yeah', 'NN'), 1),
 ((u'that\u2019s', 'NNS'), 1),
 ((u'now', 'RB'), 1),
 ((u'told', 'VBD'), 1),
 ((u'planning', 'VBG'), 1),
 ((u'like', 'VB'), 1),
 ((u'giving', 'VBG'), 1),
 ((u'address', 'VBP'), 1),
 ((u'good', 'JJ'), 1),
 ((u'Saturday', 'NNP'), 1),
 ((u'I\u2019m', 'NNP'), 1),
 ((u'hum', 'NN'), 1),
 ((u'regardless', 'NN'), 1),
 ((u'experiences', 'NNS'), 1),
 ((u'middle', 'JJ'), 1),
 ((u'nothing', 'NN'), 1),
 ((u'brand', 'NN'), 1),
 ((u'get', 'VBP'), 1),
 ((u'were', 'VBD'), 1),
 ((u'POC', 'NNP'), 1),
 ((u'started', 'VBD'), 1),
 ((u'see', 'VB'), 1),
 ((u'open', 'JJ'), 1),
 ((u'usually', 'RB'), 1),
 ((u'ongoing', 'VBG'), 1),
 ((u'professional', 'JJ'), 1),
 ((u'etc', 'VBP'), 1),
 ((u'Let\u2019s', 'NNP'), 1),
 ((u'hard', 'JJ'), 1),
 ((u'past', 'JJ'), 1),
 ((u'values', 'NNS'), 1),
 ((u'programs', 'NNS'), 1),
 ((u'voice', 'VB'), 1),
 ((u'bit', 'NN'), 1),
 ((u'tomorrow', 'NN'), 1),
 ((u'oh', 'UH'), 1),
 ((u'force', 'NN'), 1),
 ((u'impacting', 'VBG'), 1),
 ((u'enough', 'JJ'), 1),
 ((u'focus', 'VBP'), 1),
 ((u'hope', 'VBP'), 1),
 ((u'city-wide', 'JJ'), 1),
 ((u'everything', 'NN'), 1),
 ((u'own', 'JJ'), 1),
 ((u'better', 'JJR'), 1),
 ((u'NYU', 'NNP'), 1),
 ((u'doesn\u2019t', 'NN'), 1),
 ((u'mine', 'NN'), 1),
 ((u'care', 'VB'), 1),
 ((u'meet', 'VB'), 1),
 ((u'back', 'RB'), 1),
 ((u'different', 'JJ'), 1),
 ((u'NYCAASC\u2019s', 'NNP'), 1),
 ((u'facilitate', 'NN'), 1),
 ((u'event', 'NN'), 1),
 ((u'school', 'NN'), 1),
 ((u'uh', 'JJ'), 1),
 ((u'openness', 'NN'), 1),
 ((u'there\u2019s', 'VBP'), 1),
 ((u'come', 'VBP'), 1),
 ((u'many', 'JJ'), 1),
 ((u'judgments', 'NNS'), 1),
 ((u'bigger', 'JJR'), 1),
 ((u'daily', 'JJ'), 1),
 ((u'heads', 'NNS'), 1),
 ((u'somebody', 'NN'), 1),
 ((u'deeply', 'RB'), 1),
 ((u'consider', 'VBP'), 1),
 ((u'become', 'VB'), 1),
 ((u'talk', 'VBP'), 1),
 ((u'well', 'RB'), 1),
 ((u'involved', 'VBD'), 1),
 ((u'scope', 'NN'), 1),
 ((u'complex', 'JJ'), 1),
 ((u'ever', 'RB'), 1),
 ((u'takes', 'VBZ'), 1),
 ((u'could', 'MD'), 1),
 ((u'heard', 'JJR'), 1),
 ((u'That\u2019s', 'NNP'), 1),
 ((u'almost', 'RB'), 1),
 ((u'hundreds', 'NNS'), 1),
 ((u'impressive', 'JJ'), 1),
 ((u'fund', 'VB'), 1),
 ((u'impact', 'NN'), 1),
 ((u'City', 'NNP'), 1),
 ((u'possible', 'JJ'), 1),
 ((u'hmm', 'NN'), 1),
 ((u'relates', 'VBZ'), 1),
 ((u'means', 'VBZ'), 1),
 ((u'well-versed', 'JJ'), 1),
 ((u'\u201d', 'VB'), 1),
 ((u'having', 'VBG'), 1),
 ((u'pushing', 'VBG'), 1),
 ((u'It\u2019s', 'VB'), 1),
 ((u'voice', 'NN'), 1),
 ((u'week', 'NN'), 1),
 ((u'Ideally', 'RB'), 1),
 ((u'members', 'NNS'), 1),
 ((u'break', 'NN'), 1),
 ((u'once', 'RB'), 1),
 ((u'comes', 'VBZ'), 1),
 ((u'committees', 'NNS'), 1),
 ((u'fully', 'RB'), 1),
 ((u'realize', 'VB'), 1),
 ((u'notice', 'JJ'), 1),
 ((u'mean', 'VBP'), 1),
 ((u'uh', 'NN'), 1),
 ((u'connecting', 'VBG'), 1),
 ((u'talk', 'NN'), 1),
 ((u'topic', 'NN'), 1),
 ((u'assume', 'VB'), 1),
 ((u'fundraising', 'NN'), 1),
 ((u'face', 'NN'), 1),
 ((u'NOT', 'JJ'), 1),
 ((u'time', 'NN'), 1),
 ((u'sort', 'VB'), 1),
 ((u'intercollegiate', 'NN'), 1),
 ((u'Yeah', 'UH'), 1),
 ((u'faces', 'VBZ'), 1),
 ((u'legitimate', 'JJ'), 1),
 ((u'powerful', 'JJ'), 1),
 ((u'we\u2019re', 'RB'), 1),
 ((u'mine', 'VBP'), 1),
 ((u'immediately', 'RB'), 1),
 ((u'platform', 'NN'), 1),
 ((u'50', 'CD'), 1),
 ((u'pitching', 'VBG'), 1),
 ((u'yeah', 'UH'), 1),
 ((u'lack', 'NN'), 1),
 ((u'whenever', 'WRB'), 1),
 ((u'necessarily', 'RB'), 1),
 ((u'there', 'RB'), 1),
 ((u'Basically', 'NNP'), 1),
 ((u'i', 'JJ'), 1),
 ((u'limited', 'VBN'), 1),
 ((u'getting', 'VBG'), 1),
 ((u'year', 'NN'), 1),
 ((u'looks', 'VBZ'), 1),
 ((u'back', 'NN'), 1),
 ((u'great', 'JJ'), 1),
 ((u'teller', 'NN'), 1),
 ((u'day', 'NN'), 1),
 ((u'story', 'NN'), 1),
 ((u'everyone\u2019s', 'NN'), 1),
 ((u'Intimacy', 'NNP'), 1),
 ((u'That\u2019s', 'VB'), 1),
 ((u'Right', 'NNP'), 1),
 ((u'show', 'VBP'), 1),
 ((u'especially', 'RB'), 1),
 ((u'oh', 'JJ'), 1),
 ((u'Passing', 'NN'), 1),
 ((u'encourages', 'VBZ'), 1),
 ((u'meaningful', 'JJ'), 1),
 ((u'sacred', 'VBD'), 1),
 ((u'affirming', 'VBG'), 1),
 ((u'main', 'JJ'), 1),
 ((u'8', 'CD'), 1),
 ((u'large', 'JJ'), 1),
 ((u'hand', 'NN'), 1),
 ((u'go', 'VB'), 1),
 ((u'right', 'NN'), 1),
 ((u'dependent', 'NN'), 1),
 ((u'serious', 'JJ'), 1),
 ((u'minority', 'NN'), 1),
 ((u'question', 'NN'), 1),
 ((u'York', 'NNP'), 1),
 ((u'That', 'WDT'), 1),
 ((u'table', 'NN'), 1),
 ((u'difficult', 'JJ'), 1),
 ((u'discuss', 'VB'), 1),
 ((u'regular', 'JJ'), 1),
 ((u'Right', 'RB'), 1),
 ((u'New', 'NNP'), 1),
 ((u'exposed', 'VBN'), 1),
 ((u'\u201cShould', 'VBP'), 1),
 ((u'association', 'NN'), 1),
 ((u'issue', 'NN'), 1),
 ((u'needs', 'VBZ'), 1),
 ((u'words', 'NNS'), 1),
 ((u'know', 'JJ'), 1),
 ((u'Uhm', 'NNP'), 1),
 ((u'conscious', 'JJ'), 1),
 ((u'I\u2019d', 'NNP'), 1),
 ((u'same', 'JJ'), 1),
 ((u'that\u2019s', 'EX'), 1),
 ((u'beliefs', 'NN'), 1),
 ((u'drum', 'NN'), 1),
 ((u'too', 'RB'), 1),
 ((u'later', 'RB'), 1),
 ((u'most', 'RBS'), 1),
 ((u'instances', 'NNS'), 1),
 ((u'nycaasc', 'NN'), 1),
 ((u'individual', 'JJ'), 1),
 ((u'intimacy', 'NN'), 1),
 ((u'power', 'NN'), 1),
 ((u'there\u2019s', 'VBZ'), 1),
 ((u'thewhole', 'JJ'), 1),
 ((u'we\u2019re', 'JJ'), 1),
 ((u'Should', 'MD'), 1),
 ((u'others', 'NNS'), 1),
 ((u'still', 'RB'), 1),
 ((u'tests', 'VBZ'), 1),
 ((u'repress', 'VB'), 1),
 ((u'met', 'VBD'), 1),
 ((u'connect', 'VB'), 1),
 ((u'city', 'NN'), 1),
 ((u'lost', 'VBN'), 1),
 ((u'active', 'JJ'), 1),
 ((u'uhh', 'JJ'), 1),
 ((u'e-board', 'NN'), 1),
 ((u'start', 'VBP'), 1),
 ((u'Uhh', 'NNP'), 1),
 ((u'depends', 'VBZ'), 1),
 ((u'happens', 'VBZ'), 1),
 ((u'myth', 'NN'), 1),
 ((u'least', 'JJS'), 1),
 ((u'meaning', 'NN'), 1),
 ((u'acknowledge', 'VB'), 1),
 ((u'institutions', 'NNS'), 1),
 ((u'It\u2019s', 'NNP'), 1),
 ((u'\u201d', 'NNP'), 1),
 ((u'\u201cAhh', 'UH'), 1),
 ((u'currently', 'RB'), 1),
 ((u'much', 'JJ'), 1),
 ((u'Well', 'RB'), 1),
 ((u'ideas', 'NNS'), 1),
 ((u'Especially', 'RB'), 1),
 ((u'effort', 'NN'), 1),
 ((u'ground', 'NN'), 1),
 ((u'dialogue', 'VBP'), 1),
 ((u'morning', 'NN'), 1),
 ((u'Why', 'WRB'), 1),
 ((u'wake', 'VBP'), 1),
 ((u'wow', 'NN'), 1),
 ((u'happening', 'VBG'), 1),
 ((u'rewarding', 'VBG'), 1),
 ((u'provide', 'VBP'), 1),
 ((u'sharing', 'VBG'), 1),
 ((u'general', 'JJ'), 1),
 ((u'share', 'NN'), 1),
 ((u'APA', 'NNP'), 1),
 ((u'sense', 'NN'), 1),
 ((u'as', 'RB'), 1),
 ((u'money', 'NN'), 1)]

In [ ]:
cmn = Counter(q4)

In [ ]:
cmn = {k: v for k, v in cmn.iteritems() if  v > 10}

In [ ]:
cmn