In [1]:
import pandas as pd
import numpy as np

In [ ]:
alldata = pd.read_csv('2008.csv')

In [3]:
data_100k = alldata[:100000]

In [6]:
data_100k[:30]


Out[6]:
Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTime UniqueCarrier FlightNum ... TaxiIn TaxiOut Cancelled CancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelay
0 2008 1 3 4 2003 1955 2211 2225 WN 335 ... 4 8 0 NaN 0 NaN NaN NaN NaN NaN
1 2008 1 3 4 754 735 1002 1000 WN 3231 ... 5 10 0 NaN 0 NaN NaN NaN NaN NaN
2 2008 1 3 4 628 620 804 750 WN 448 ... 3 17 0 NaN 0 NaN NaN NaN NaN NaN
3 2008 1 3 4 926 930 1054 1100 WN 1746 ... 3 7 0 NaN 0 NaN NaN NaN NaN NaN
4 2008 1 3 4 1829 1755 1959 1925 WN 3920 ... 3 10 0 NaN 0 2 0 0 0 32
5 2008 1 3 4 1940 1915 2121 2110 WN 378 ... 4 10 0 NaN 0 NaN NaN NaN NaN NaN
6 2008 1 3 4 1937 1830 2037 1940 WN 509 ... 3 7 0 NaN 0 10 0 0 0 47
7 2008 1 3 4 1039 1040 1132 1150 WN 535 ... 7 7 0 NaN 0 NaN NaN NaN NaN NaN
8 2008 1 3 4 617 615 652 650 WN 11 ... 6 19 0 NaN 0 NaN NaN NaN NaN NaN
9 2008 1 3 4 1620 1620 1639 1655 WN 810 ... 3 6 0 NaN 0 NaN NaN NaN NaN NaN
10 2008 1 3 4 706 700 916 915 WN 100 ... 5 19 0 NaN 0 NaN NaN NaN NaN NaN
11 2008 1 3 4 1644 1510 1845 1725 WN 1333 ... 6 8 0 NaN 0 8 0 0 0 72
12 2008 1 3 4 1426 1430 1426 1425 WN 829 ... 9 12 0 NaN 0 NaN NaN NaN NaN NaN
13 2008 1 3 4 715 715 720 710 WN 1016 ... 7 21 0 NaN 0 NaN NaN NaN NaN NaN
14 2008 1 3 4 1702 1700 1651 1655 WN 1827 ... 4 10 0 NaN 0 NaN NaN NaN NaN NaN
15 2008 1 3 4 1029 1020 1021 1010 WN 2272 ... 6 9 0 NaN 0 NaN NaN NaN NaN NaN
16 2008 1 3 4 1452 1425 1640 1625 WN 675 ... 7 8 0 NaN 0 3 0 0 0 12
17 2008 1 3 4 754 745 940 955 WN 1144 ... 5 16 0 NaN 0 NaN NaN NaN NaN NaN
18 2008 1 3 4 1323 1255 1526 1510 WN 4 ... 4 9 0 NaN 0 0 0 0 0 16
19 2008 1 3 4 1416 1325 1512 1435 WN 54 ... 2 5 0 NaN 0 12 0 0 0 25
20 2008 1 3 4 706 705 807 810 WN 68 ... 3 7 0 NaN 0 NaN NaN NaN NaN NaN
21 2008 1 3 4 1657 1625 1754 1735 WN 623 ... 5 5 0 NaN 0 7 0 0 0 12
22 2008 1 3 4 1900 1840 1956 1950 WN 717 ... 2 5 0 NaN 0 NaN NaN NaN NaN NaN
23 2008 1 3 4 1039 1030 1133 1140 WN 1244 ... 2 5 0 NaN 0 NaN NaN NaN NaN NaN
24 2008 1 3 4 801 800 902 910 WN 2101 ... 3 5 0 NaN 0 NaN NaN NaN NaN NaN
25 2008 1 3 4 1520 1455 1619 1605 WN 2553 ... 2 7 0 NaN 0 NaN NaN NaN NaN NaN
26 2008 1 3 4 1422 1255 1657 1610 WN 188 ... 6 6 0 NaN 0 40 0 0 0 7
27 2008 1 3 4 1954 1925 2239 2235 WN 1754 ... 3 7 0 NaN 0 NaN NaN NaN NaN NaN
28 2008 1 3 4 636 635 921 945 WN 2275 ... 5 13 0 NaN 0 NaN NaN NaN NaN NaN
29 2008 1 3 4 734 730 958 1020 WN 550 ... 2 8 0 NaN 0 NaN NaN NaN NaN NaN

30 rows × 29 columns


In [7]:
import sys

In [8]:
sys.path


Out[8]:
['',
 '/Users/intuinno/anaconda/lib/python27.zip',
 '/Users/intuinno/anaconda/lib/python2.7',
 '/Users/intuinno/anaconda/lib/python2.7/plat-darwin',
 '/Users/intuinno/anaconda/lib/python2.7/plat-mac',
 '/Users/intuinno/anaconda/lib/python2.7/plat-mac/lib-scriptpackages',
 '/Users/intuinno/anaconda/lib/python2.7/lib-tk',
 '/Users/intuinno/anaconda/lib/python2.7/lib-old',
 '/Users/intuinno/anaconda/lib/python2.7/lib-dynload',
 '/Users/intuinno/anaconda/lib/python2.7/site-packages/runipy-0.1.1-py2.7.egg',
 '/Users/intuinno/anaconda/lib/python2.7/site-packages/setuptools-14.0-py2.7.egg',
 '/Users/intuinno/anaconda/lib/python2.7/site-packages',
 '/Users/intuinno/anaconda/lib/python2.7/site-packages/PIL',
 '/Users/intuinno/anaconda/lib/python2.7/site-packages/Sphinx-1.2.3-py2.7.egg',
 '/Users/intuinno/anaconda/lib/python2.7/site-packages/IPython/extensions']

In [9]:
data_100k.to_csv('./2008_100k.csv')

In [33]:
import dropbox
import re
import time
from firebase import firebase
from IPython.display import IFrame

def publish_gatherplot(p, dataname):
    
    filename = str(time.time())+'.csv'
    p.index.name = 'indexPandas'
    p.to_csv(filename)
    access_token = 'vwezSddRAD0AAAAAAAA0K2kAPqcpKnsShlfAPyIxSAYG0l2GxKfx5vtEkSyCeNOk'
    client = dropbox.client.DropboxClient(access_token)
    f = open(filename,'rb')
    response = client.put_file('./gatherplot/' + filename,f)
    print "uploaded:", response
    
    response = client.share('./gatherplot/' + filename, short_url=False)
    print 'Shared:', response
    url = response['url']
    match = re.search(r'https://www\.dropbox\.com/s/(.+)\?dl=0', url)
    if match:
#     print match.group(1)
        download_url = 'https://dl.dropboxusercontent.com/s/' + match.group(1)
        print download_url
        
    aFirebase = firebase.FirebaseApplication('https://gatherplot-dev.firebaseio.com',None)
    
    new_csv = {'name':dataname, 
           'uploader':"google:110953151430048855242", 
           'uploaderName': "Deok Gun Park",
           'url': download_url } 

    result = aFirebase.post('/csv',new_csv)
    print result
    

    return 'https://gatherplot-dev.firebaseapp.com/#/load/' + result['name']

In [38]:
# data_30k = alldata[:30000]
data_10k = alldata.loc[np.random.choice(alldata.index, 10000, replace=False)]

url = publish_gatherplot(data_10k, "2008 Airline On-time Performance random 10K data")
IFrame(url, 900,900)


uploaded: {u'icon': u'page_white', u'bytes': 1178969, u'thumb_exists': False, u'rev': u'24fdf00af1980', u'modified': u'Sun, 22 Mar 2015 14:29:32 +0000', u'shareable': False, u'client_mtime': u'Sun, 22 Mar 2015 14:29:33 +0000', u'path': u'/gatherplot/1427034570.4.csv', u'is_dir': False, u'size': u'1.1 MB', u'root': u'dropbox', u'mime_type': u'text/csv', u'revision': 151519}
Shared: {u'url': u'https://www.dropbox.com/s/cqsmgi9le17mj0o/1427034570.4.csv?dl=0', u'expires': u'Tue, 01 Jan 2030 00:00:00 +0000', u'visibility': u'PUBLIC'}
https://dl.dropboxusercontent.com/s/cqsmgi9le17mj0o/1427034570.4.csv
{u'name': u'-Jl0st6pSIEYCJl0IHdO'}
Out[38]:

In [35]:
data_30k.head()


Out[35]:
Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTime UniqueCarrier FlightNum ... TaxiIn TaxiOut Cancelled CancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelay
indexPandas
0 2008 1 3 4 2003 1955 2211 2225 WN 335 ... 4 8 0 NaN 0 NaN NaN NaN NaN NaN
1 2008 1 3 4 754 735 1002 1000 WN 3231 ... 5 10 0 NaN 0 NaN NaN NaN NaN NaN
2 2008 1 3 4 628 620 804 750 WN 448 ... 3 17 0 NaN 0 NaN NaN NaN NaN NaN
3 2008 1 3 4 926 930 1054 1100 WN 1746 ... 3 7 0 NaN 0 NaN NaN NaN NaN NaN
4 2008 1 3 4 1829 1755 1959 1925 WN 3920 ... 3 10 0 NaN 0 2 0 0 0 32

5 rows × 29 columns


In [ ]: