链接:https://www.zhihu.com/question/26950456/answer/41349702
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
利益相关:
1.卖过给很多人高频数据,也对比过很多家的高频数据。
2.我现在已经不做这个生意了,所以没有打广告的嫌疑,至于哪家好可以私下沟通。
来填坑了,图有空贴
以下假设您对交易所的数据已经有一些基本的结构认识
一:什么是快照数据与交易所数据的一些细节
打一个比喻,交易数据可以想象为河流,快照就是这个河流在某个横截面的数据。
对于国外的高频tick数据,有完整的order数据的过程,类似
国内的两大股票和四大期货理论上讲都是快照数据。比如说典型的数据字段包括
开盘价 最高价 最低价 最新价 成交量 成交额
这里的最高(低)价就从开盘到现在成交发生过的最高(低)价,假设你有详细的每笔成交的明细,其实这个数据是可以用max(min)推算的,所以国外的tick数据里面一般是没有这个字段的。
同样的成交量和成交额代表的意思不是这个时刻的成交量和成交额而是这个时刻开盘到现在的累计成交额和成交量。
从理论上讲:T时刻的累计成交量减去T-1时刻的累计成交量就是T时刻的成交量,但是这里的"成交量"其实是T-1到T时刻的汇总成交量,其实是有很多笔组成的。
期货的level2相比level1只是频率和报价深度上有些许区别。更有意义的是股票level2数据
从表结构来看股票level2主要有三块内容:快照、逐笔成交和挂单
快照类似前述的level1的快照 不过是把5档换成了10档另外还有一些比如所有挂单和数量等字段,深交所和上交所有略微差异。
逐笔成交就类似国外的tick数据,确实是发生过的真正的每笔成交情况,时间戳精细到10ms。但是问题在于这个数据也是3s一次发出来,发给你0-3s这期间的tick数据而不是实时发送给你,因此这里并不能把他定义为真正的tick数据。
Level2里面的挂单只有买卖一档的Top50并不是全部挂单,另外理论上数据是纪录这些挂单的增删(挂单没有改一说),但是从实际数据来看,交易所的数据并不是增量增量增量这种方式发送,而是夹杂着全量挂单和增量数据的方式,所以也不是完整的挂单动作。可以用这系列推算挂单情况但是挂单变化情况只是sometiems能推算出来。
二:什么是好的数据和为什么数据有差异
解决题主的问题,既然都是交易所发送出来的,为什么会有数据的差异?
第二个比喻,我经常用。
交易所比喻成一个电视台,他不断的给客户发送信号。绝大多数客户只装了电视机,收看电视。而数据提供商装的是录像机需要录数据,然后把录像带卖给客户。
典型的有几类原因导致数据的差异
1. 数据记录方式
比如拿股票的Level1的数据为例,交易所发布一个dbf文件,记录着所有证券最新的状态数据,dbf文件是不断的自动刷新的。那么数据提供商或者记录数据的人需要做的时候就是每隔一段时间读取这个文件,然后把所有的数据放入数据库,但是因为交易所更新数据的频率不是一个唯一值,所以为了不错过数据,最好的办法就是你读取的频率高于他更新的频率。这样问题就来了,因为你读取很多如果每次都记录下来一来数据很大,二来很多重复数据。所以大家往往使用的办法就是当这条数据有变化的时候我才放入数据库。
因为有这样一条规则,所以你看到的一些非活跃成交的证券数据量会少于活跃成交的证券,远期的期货数据少于近期的,时间戳不同步等等,你以为是数据问题,其实不然。
2. 运维问题
这个是真正的数据提供商或者记录数据的问题,比如某些原因如断网或者程序错误等造成了一大段的数据丢失。按照前面所述的数据机制,其实对于Level1数据T和T+1时刻是没有任何逻辑关联的,假设缺失了你不可能从数据本身发现,因此大量的缺失其实都是这些原因造成的,而且无法弥补!就好比早期的电视录像带很不清晰,但是过去已经过去你已经无法补救。
3. 程序导致的数据错误
我遇到过一些比较异常的错误,比如说某些类型股票的价格出现异常,空等等,绝大部分是因为录数据的程序的错误造成的,为什么会出现?反正理由也很多,你记住会出现就可以了。少部分是因为交易所的问题,比如说交易所曾经把Level2数据的开盘价发错了。
因此原则上你不要信任任何数据,一定要做数据方面的规则检验,包括对股票个数、间隔时间、数据是否在正常范围进行检验和清洗,当然这是一个枯燥的事情,规则的设立也看个人的经验。至于是否有价值?愿不愿意付出劳动,就看个人了。
基本以上是国内的现状、各个产业链上面的问题很多,而且没有多少人有心思扎扎实实的做好一些基本工作。anyway这也是机会,因为有了很多不足的东西所以让大家有了更多的机会。与其抱怨数据质量或者其他什么,不如想想其实大家站在同一起跑线,看到问题并解决问题能让你成长很快!
-------------------------------------------------2015.7.8更新--------------------------------------------------------
被知乎推荐到编辑推荐了,收到很多问买哪家的高频好。
虽然现在我不做这个了,但是到底过去利益相关,所以我就不做广告了。我只谈我的看法。
在我的眼里,现在这几家做高频数据的公司都没有足够重视这个事情,所以都是打打酱油,因为这块不是他们的主业,所以都是守城状态。
如果按照满分是100分的来看,好一些的现在是60-70分,一堆都是40-50分水平。
只能矮子里面拔长子,所以真的不要问我推荐买哪家,其实都差不多。