notebook.community

Edit and run



In [1]:

    
import pandas as pd
import numpy as np
from pandas import Series, DataFrame



In [10]:

    
import pandas_datareader as pdr



In [13]:

    
all_data = {}
for ticker in ['IBM', 'MSFT', 'GOOG']:
    all_data[ticker] = pdr.get_data_yahoo(ticker)
    
all_data









    



---------------------------------------------------------------------------
RemoteDataError                           Traceback (most recent call last)
<ipython-input-13-a9c6d32b2574> in <module>()
      1 all_data = {}
      2 for ticker in ['IBM', 'MSFT', 'GOOG']:
----> 3     all_data[ticker] = pdr.get_data_yahoo(ticker)
      4 
      5 all_data

/Users/alexkirnas/anaconda/lib/python3.6/site-packages/pandas_datareader/data.py in get_data_yahoo(*args, **kwargs)
     38 
     39 def get_data_yahoo(*args, **kwargs):
---> 40     return YahooDailyReader(*args, **kwargs).read()
     41 
     42 

/Users/alexkirnas/anaconda/lib/python3.6/site-packages/pandas_datareader/yahoo/daily.py in read(self)
     75     def read(self):
     76         """ read one data from specified URL """
---> 77         df = super(YahooDailyReader, self).read()
     78         if self.ret_index:
     79             df['Ret_Index'] = _calc_return_index(df['Adj Close'])

/Users/alexkirnas/anaconda/lib/python3.6/site-packages/pandas_datareader/base.py in read(self)
    155         if isinstance(self.symbols, (compat.string_types, int)):
    156             df = self._read_one_data(self.url,
--> 157                                      params=self._get_params(self.symbols))
    158         # Or multiple symbols, (e.g., ['GOOG', 'AAPL', 'MSFT'])
    159         elif isinstance(self.symbols, DataFrame):

/Users/alexkirnas/anaconda/lib/python3.6/site-packages/pandas_datareader/base.py in _read_one_data(self, url, params)
     72         """ read one data from specified URL """
     73         if self._format == 'string':
---> 74             out = self._read_url_as_StringIO(url, params=params)
     75         elif self._format == 'json':
     76             out = self._get_response(url, params=params).json()

/Users/alexkirnas/anaconda/lib/python3.6/site-packages/pandas_datareader/base.py in _read_url_as_StringIO(self, url, params)
     83         Open url (and retry)
     84         """
---> 85         response = self._get_response(url, params=params)
     86         text = self._sanitize_response(response)
     87         out = StringIO()

/Users/alexkirnas/anaconda/lib/python3.6/site-packages/pandas_datareader/base.py in _get_response(self, url, params)
    118         if params is not None and len(params) > 0:
    119             url = url + "?" + urlencode(params)
--> 120         raise RemoteDataError('Unable to read URL: {0}'.format(url))
    121 
    122     def _read_lines(self, out):

RemoteDataError: Unable to read URL: http://ichart.finance.yahoo.com/table.csv?s=IBM&a=0&b=1&c=2010&d=5&e=10&f=2017&g=d&ignore=.csv



In [14]:

    
obj = Series(list('cadaabbcc'))



In [15]:

    
obj.unique()









    Out[15]:





array(['c', 'a', 'd', 'b'], dtype=object)



In [16]:

    
obj.value_counts()









    Out[16]:





a    3
c    3
b    2
d    1
dtype: int64



In [17]:

    
mask = obj.isin(['b', 'c'])
mask









    Out[17]:





0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool



In [18]:

    
obj[mask]









    Out[18]:





0    c
5    b
6    b
7    c
8    c
dtype: object



In [19]:

    
df = DataFrame({'Qu1' : [1, 3, 4, 3, 4],
                'Qu2' : [2, 3, 1, 2, 3],
                'Qu3' : [1, 5, 2, 4, 4]})
df



In [20]:

    
result = df.apply(pd.value_counts).fillna(0)
result



In [21]:

    
string_data = Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data









    Out[21]:





0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object



In [22]:

    
string_data.isnull()









    Out[22]:





0    False
1    False
2     True
3    False
dtype: bool



In [23]:

    
data = Series([1, np.nan, 3.5, np.nan, 7])
data.dropna()









    Out[23]:





0    1.0
2    3.5
4    7.0
dtype: float64



In [24]:

    
data[data.notnull()]









    Out[24]:





0    1.0
2    3.5
4    7.0
dtype: float64



In [27]:

    
data = DataFrame([[1., 6.5, 3.],
                  [1, np.nan, np.nan],
                  [np.nan, np.nan, np.nan],
                  [np.nan, 6.5, 3.]])
cleaned = data.dropna()
cleaned



In [28]:

    
data



In [29]:

    
data.dropna(how = 'all')



In [30]:

    
data[4] = np.nan
data



In [33]:

    
data.dropna(axis = 1, how = 'all')



In [35]:

    
df = DataFrame(np.random.randn(7, 3))
df



In [37]:

    
df.ix[:4, 1] = np.nan
df.ix[:2, 2] = np.nan
df



In [41]:

    
df.dropna(thresh = 3)



In [43]:

    
df.fillna(0)



In [44]:

    
df.fillna({1 : 0.5, 3 : -1})



In [46]:

    
df.fillna(0, inplace = True)
df



In [47]:

    
df = DataFrame(np.random.randn(6, 3))
df.ix[2:, 1] = np.nan
df.ix[4:, 2] = np.nan
df



In [48]:

    
df.fillna(method = 'ffill')



In [50]:

    
df.fillna(method = 'ffill', limit = 2)



In [51]:

    
df.fillna(df.mean())



In [52]:

    
data = Series(np.random.randn(10),
              index = [list('aaabbbccdd'), 
                       [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
data









    Out[52]:





a  1    1.372091
   2   -0.251959
   3   -2.214907
b  1   -0.351220
   2   -0.585478
   3    2.007993
c  1   -0.218729
   2   -0.629041
d  2    1.648315
   3    1.736258
dtype: float64



In [53]:

    
data.index









    Out[53]:





MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])



In [55]:

    
data.ix['b']









    Out[55]:





1   -0.351220
2   -0.585478
3    2.007993
dtype: float64



In [57]:

    
data['b':'c']









    Out[57]:





b  1   -0.351220
   2   -0.585478
   3    2.007993
c  1   -0.218729
   2   -0.629041
dtype: float64



In [58]:

    
data[['b', 'd']]









    Out[58]:





b  1   -0.351220
   2   -0.585478
   3    2.007993
d  2    1.648315
   3    1.736258
dtype: float64



In [59]:

    
data[:, 2]









    Out[59]:





a   -0.251959
b   -0.585478
c   -0.629041
d    1.648315
dtype: float64



In [60]:

    
data.unstack()



In [61]:

    
data.unstack().stack()









    Out[61]:





a  1    1.372091
   2   -0.251959
   3   -2.214907
b  1   -0.351220
   2   -0.585478
   3    2.007993
c  1   -0.218729
   2   -0.629041
d  2    1.648315
   3    1.736258
dtype: float64



In [62]:

    
frame = DataFrame(np.arange(12).reshape((4, 3)),
                  index = [list('aabb'), [1, 2, 1, 2]],
                  columns = [['Ohio', 'Ohio', 'Colorado'],
                             ['Green', 'Red', 'Green']])
frame



In [63]:

    
frame.index.names = ['key1', 'key2']
frame.columns.names = ['state', 'color']
frame



In [65]:

    
frame['Ohio']



In [66]:

    
frame.swaplevel('key1', 'key2')



In [67]:

    
frame.sortlevel(1)



In [68]:

    
frame.swaplevel('key1', 'key2').sortlevel(0)



In [69]:

    
frame.sum(level = 'key2')



In [70]:

    
frame.sum(level='color', axis = 1)



In [75]:

    
frame = DataFrame({'a' : np.arange(7), 
                   'b' : np.arange(7, 0, -1),
                   'c' : ['one'] * 3 + ['two'] * 4,
                   'd' : [0, 1, 2, 0, 1, 2, 3]})
frame



In [76]:

    
frame.set_index(['c', 'd'])



In [77]:

    
frame.set_index(['c', 'd'], drop=False)



In [78]:

    
frame



In [ ]:

	0	1	2
0	-0.926146	-1.271959	0.777246
1	0.669697	0.726587	1.277278
2	-0.656911	0.292782	0.154870
3	-0.987786	-1.095611	1.803881
4	-1.218587	-0.315563	0.012396
5	0.511702	-0.416387	-0.238253
6	1.055907	0.010851	-0.737679

	0	1	2
0	-0.926146	NaN	NaN
1	0.669697	NaN	NaN
2	-0.656911	NaN	NaN
3	-0.987786	NaN	1.803881
4	-1.218587	NaN	0.012396
5	0.511702	-0.416387	-0.238253
6	1.055907	0.010851	-0.737679

	0	1	2
5	0.511702	-0.416387	-0.238253
6	1.055907	0.010851	-0.737679

	0	1	2
0	-0.926146	0.000000	0.000000
1	0.669697	0.000000	0.000000
2	-0.656911	0.000000	0.000000
3	-0.987786	0.000000	1.803881
4	-1.218587	0.000000	0.012396
5	0.511702	-0.416387	-0.238253
6	1.055907	0.010851	-0.737679

	0	1	2
0	-0.926146	0.500000	NaN
1	0.669697	0.500000	NaN
2	-0.656911	0.500000	NaN
3	-0.987786	0.500000	1.803881
4	-1.218587	0.500000	0.012396
5	0.511702	-0.416387	-0.238253
6	1.055907	0.010851	-0.737679

	0	1	2
0	-1.909524	-1.652112	-0.076914
1	-1.036873	-0.586205	-1.598724
2	0.149483	NaN	-1.038821
3	-1.458301	NaN	-0.416097
4	-0.117156	NaN	NaN
5	-0.734223	NaN	NaN

	1	2	3
a	1.372091	-0.251959	-2.214907
b	-0.351220	-0.585478	2.007993
c	-0.218729	-0.629041	NaN
d	NaN	1.648315	1.736258