Link úteis:
Aula02 Análise Exploratoria Variáveis Qualitativas-ALUNOS.ipynb
, o qual contém uma introdução ao Jupyter Notebook. A publicação dessa aula tem como objetivo auxiliá-lo, caso queira, no desenvolvimento dos seus próximos programas, como esta atividade.Hoje:
Próxima aula:
Base de dados reduzida: pes2013A.txt
(75 MB)
[Acesse a base de dados aqui: https://dl.dropboxusercontent.com/u/65763596/Aula02/pes2013A.txt]
Dicionário das variáveis: Dicionário de variáveis de pessoas - PNAD 2013.xlsx
[Acesse dicionário aqui: https://dl.dropboxusercontent.com/u/65763596/Aula02/Dicion%C3%A1rio%20de%20vari%C3%A1veis%20de%20pessoas%20-%20PNAD%202013.xls]
Muitos especialistas na área de negócios dizem que empresários mais bem sucedidos são aqueles que fazem um planejamento antes de começar seu próprio negócio. Nessa visão, imagine que o Sr. Gold tenha como grande objetivo abrir uma nova faculdade e para isso deseja estudar o perfil do estudante que cursa ensino médio ou pré-vestibular e do que cursa ensino superior.
Assuma que as variáveis de interesse a respeito dos estudantes sejam relativamente as mesmas de 2013 até o momento atual. Nesse caso, seja criativo para ajudar o Sr. Gold que deseja abrir seu negócio, mas não tem certeza sobre quais variáveis o interessam.
Vocês podem ajudá-lo?!
As variáveis a seguir devem fazer parte da sua análise:
Crie uma variável com região do indivíduo amostrado considerando a variável UF
que define o estado e também trabalhe com essa nova variável em suas análises.
Escolha mais pelo menos DUAS variáveis qualitativas para completar sua análise!!
Faça uma análise exploratória apenas com as variáveis qualitativas com foco no objetivo do Sr. Gold.
Sua análise deve conter pelo menos uma das seguintes visualizações:
Crie um repositório chamado CD em seu Github
Neste repositório, salve seu trabalho numa pasta chamada aula2
Por exemplo, se seu login for pikachu o projeto vai estar na pasta:
https://github.com/pikachu/CD/aula2
In [36]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import os
from numpy import arange
In [3]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())
In [4]:
dados = pd.read_csv('pes2013A.txt', sep=" ")
Variáveis que usamos foram se sabe ler e escrever (V0601) e se usou internet no último ano (V061111)
In [5]:
dados
Out[5]:
In [6]:
dados.V4732
In [ ]:
#Mudando os rótulos categóricos
dados.V0302 = dados.V0302.astype('category')
dados.V0302.cat.categories =('Masculino', 'Feminino')
dados.V0302
In [ ]:
In [ ]:
In [ ]:
#Mudando os rótulos categóricos
dados.V0404 = dados.V0404.astype('category')
dados.V0404.cat.categories =('Indígena', 'Branca', 'Preta', 'Amarela','Parda')
dados.V0404
In [ ]:
#rotulos V6002
dados.V6002=dados.V6002.astype('category')
dados.V6002.cat.categories = ('Pública', 'Privada')
In [ ]:
#rótulos V061111
dados.V061111=dados.V061111.astype('category')
dados.V061111.cat.categories = ('Acessam', 'Não Acessam')
dados.V061111
In [ ]:
#rótulos V4802
dados.V4802=dados.V4802.astype('category')
dados.V4802.cat.categories = (
'Alfabetização de adultos',
'1ª a 4ª séries do ensino fundamental regular em 8 anos ou de educação de jovens e adultos',
'5ª a 8ª séries do ensino fundamental regular em 8 anos ou de educação de jovens e adultos',
'1ª série do ensino fundamental regular em 9 anos',
'2ª a 5ª séries do ensino fundamental regular em 9 anos',
'6ª a 9ª séries do ensino fundamental regular em 9 anos ',
'Educação de jovens e adultos não seriado do ensino fundamental',
'Ensino médio, inclusive pré-vestibular',
'Superior, inclusive mestrado ou doutorado')
dados.V4802
In [ ]:
# rotulos V0601
dados.V0601=dados.V0601.astype('category')
dados.V0601.cat.categories = ("Sim", "Não")
dados.V0601
In [ ]:
%matplotlib inline
import matplotlib.pyplot as plt
import matplotlib
matplotlib.style.use('ggplot')
In [ ]:
sexo = dados.V0302.value_counts()
sexo.plot(kind='bar', color=('blue', 'pink'), legend=False, title='Gênero')
In [ ]:
sexo.plot(kind='pie',colors=('blue', 'pink'), autopct="%0.2f",legend=False, title='Gênero')
In [ ]:
cor = dados.V0404.value_counts()
cor.plot(kind='bar', color=('white', 'brown', 'black', 'yellow', 'red'), legend=False,title='Cor')
In [ ]:
cor.plot(kind='pie', autopct="%0.2f",legend=False, title= 'Cor')
In [ ]:
rede_ensino=dados.V6002.value_counts()
rede_ensino.plot(kind='bar', color=('blue', 'brown'), legend=False, title='rede de ensino')
In [ ]:
rede_ensino.plot(kind='pie', colors=('blue', 'brown'), autopct="%0.2f",legend=False,title='rede de ensino')
In [ ]:
nivel_ensino=dados.V4802.value_counts()
nivel_ensino.plot(kind='bar', color=('white', 'brown', 'black', 'yellow', 'red'), legend=False,title='nivel de ensino') # 2 é publica e 4 é privada; depois arrumamos
In [ ]:
In [ ]:
nivel_ensino.plot(kind='pie', colors=('blue', 'brown', 'pink', 'yellow', 'red'), autopct="%0.2f",legend=False,title='nivel de ensino')
In [ ]:
ler.plot(kind='bar', color=('red', 'blue', 'black', 'yellow', 'red'), legend=False,title='alfabetizados') # 2 é publica e 4 é privada; depois arrumamos
In [ ]:
ler=dados.V0601.value_counts()
ler.plot(kind='pie', autopct="%0.2f",legend=False,title='alfabetizados')
In [ ]:
internet.plot(kind='bar', color=('red', 'blue', 'black', 'yellow', 'red'), legend=False,title='Acessam Internet') # 2 é publica e 4 é privada; depois arrumamos
In [ ]:
#V061111
internet=dados.V061111.value_counts()
internet.plot(kind='pie',autopct="%0.2f", title='Acessam internet')
In [ ]:
ct= pd.crosstab(dados.V0302, dados.V0601)
ct.plot(kind='bar', color = ('yellow', 'salmon'))
In [ ]:
ct
In [ ]:
In [ ]:
regiao = dados.UF
norte= dados[dados.UF <= 16] # 'Norte'
nordeste = dados[(dados.UF >= 17) & (dados.UF <= 29)] # 'Nordeste'
sudeste = dados[(dados.UF >= 31) & (dados.UF <= 35)] # 'Sudeste'
sul =dados[(dados.UF >= 41) & (dados.UF <= 43)] # 'Sul'
centro =dados[(dados.UF >=50 ) & (dados.UF <= 53)] # 'Centro'
#dados['Regiao']=pd.crosstab(dados)
renda = pd.cut(dados.V4742[dados.V4742 <1000000] ,bins= 10).value_counts()
renda.value_counts().plot.bar()
In [20]:
dados.V8005
Out[20]:
In [7]:
#idade.plot(kind='box', legend=False,title='Idade')
dados.V8005.plot.box(title='Idade dos brasileiros, em bloxplot')
Out[7]:
In [ ]:
In [12]:
dados.V8005.plot.hist(color='orange',title='Histograma das idades')
plt.xlabel("Idades")
plt.ylabel("Frequência absoluta")
Out[12]:
In [15]:
acre=dados[dados.UF == 12]
acre.V8005.plot.box(title='Idade dos acreanos, em bloxplot')
Out[15]:
In [14]:
acre.V8005.plot.hist(color='orange',title='Histograma das idades dos acreanos')
plt.xlabel("Idades")
plt.ylabel("Frequência absoluta")
Out[14]:
In [17]:
rs=dados[dados.UF == 43]
rs.V8005.plot.box(title='Idade dos gauchos, em bloxplot')
Out[17]:
In [34]:
rs.V8005.plot.hist(color='orange',title='Histograma das idades dos gauchos')
plt.xlabel("Idades")
plt.ylabel("Frequência absoluta")
Out[34]:
In [ ]:
In [50]:
dados["renda"] = dados.V4720
arranjo = arange(0,10000,300)
dados.renda.describe()
plot = dados.Renda.plot.hist(arranjo, color="pink")
plt.title("Histograma da Renda")
plt.xlabel("Renda ")
plt.ylabel("Frequência ")
Out[50]:
In [ ]:
In [ ]:
In [55]:
acre["renda"] =acre.V4720
arranjo = arange(0,10000,300)
dados.renda.describe()
plot = acre.renda.plot.hist(arranjo, color="purple")
plt.title("Histograma da Renda (acre)")
plt.xlabel("Renda ")
plt.ylabel("Frequência ")
Out[55]:
In [56]:
rs["renda"] =rs.V4720
arranjo = arange(0,10000,300)
dados.renda.describe()
plot = rs.renda.plot.hist(arranjo, color="pink")
plt.title("Histograma da Renda (Rio Grande do Sul)")
plt.xlabel("Renda ")
plt.ylabel("Frequência ")
Out[56]:
In [54]:
renda.describe()
Out[54]:
Percebe-se que no acre há muito mais jovens do que no Rio Grande do Sul (em proporção a sua população), porém a renda dos gaúchos é maior. Entretanto, o sr. Gold prefere ganhar mais dinheiro à ter jovens alunos, sendo indicado para ele abrir a faculdade nos pampas.
In [ ]: