vn.datayes是一个从属于vnpy的开源历史数据模块;使用通联数据API以及MongoDB进行数据的下载和存储管理。项目目前与将来主要解决\准备解决以下问题:
项目目前主要包括了通联API开发者试用方案中大部分的市场行情日线数据(股票、期货、期权、指数、基金等),以及部分基本面数据。数据下载与更新主要采用多线程设计,测试效率如下:
数据集举例 | 数据集容量 | 下载时间估计 |
---|---|---|
股票日线数据,2800个交易代码,2013年1月1日至2015年8月1日 | 2800个collection,约500条/each | 7-10分钟 |
股票分钟线数据,2个交易代码,2013年1月1日至2015年8月1日 | 2个collection,约20万条/each | 1-2分钟 |
股票日线数据更新任务,2800个交易代码,2015年8月1日至2015年8月15日 | 2800个collection,约10条/each | 1-2分钟 |
vn.datayes基于MongoDB数据库,通过一个json配置文件简化数据库的初始化、设置、动态更新过程。较为精细的数据库操作仍需编写脚本进行。若对MongoDB与pymongo不熟悉,推荐使用Robomongo等窗口化查看工具作为辅助。
pymongo, pandas, requests, json
Mac OS X 10.10; Windows 7 || Anaconda.Python 2.7
更新pymongo至3.0以上版本; 更新requests等包。
~$ pip install pymongo --upgrade
~$ pip install requests --upgrade
[ ! 注意,本模块需要pymongo3.0新加入的部分方法,使用vnpy本体所用的2.7版本对应方法将无法正常插入数据。依赖冲突的问题会尽快被解决,目前推荐制作一个virtual environment来单独运行这个模块;或者暴力切换pymongo的版本:]
~$ pip install pymongo==3.0.3 # this module.
~$ pip install pymongo==2.7.2 # pymongo 2.7.
启动MongoDB
~$ mongod
In [2]:
from storage import *
myConfig = Config(head="Zed's Config",
token='7c2e59e212dbff90ffd6b382c7afb57bc987a99307d382b058af6748f591d723')
myConfig.body
Out[2]:
In [3]:
client = pymongo.MongoClient() # pymongo.connection object.
body = {
'client': client, # connection object.
'dbs': {
'EQU_D1': { # in-python alias: 'EQU_D1'
'self': client['DATAYES_EQUITY_D1'], # pymongo.database[name] object.
'index': 'date', # index name.
'collNames': 'equTicker' # what are collection names consist of.
},
'IDX_D1': { # Another database
'self': client['DATAYES_INDEX_D1'],
'index': 'date',
'collNames': 'idxTicker'
}
},
'dbNames': ['EQU_D1','IDX_D1'] # List of alias.
}
myDbConfig_ = DBConfig(body=body)
# 这看上去有些麻烦;不想这么做的话可以直接使用DBConfig的默认构造函数。
myDbConfig = DBConfig()
myDbConfig.body
Out[3]:
In [4]:
myApi = PyApi(myConfig) # construct PyApi object.
mc = MongodController(api=myApi, config=myDbConfig) # construct MongodController object,
# on the top of PyApi.
mc._get_coll_names() # get names of collections.
mc._ensure_index() # ensure collection indices.
Out[4]:
In [ ]:
mc.download_index_D1('20150101','20150801')
In [8]:
from datetime import datetime
datetime.now()
Out[8]:
In [ ]:
mc.update_index_D1()
In [ ]: