时间排序_如何在Python里提升时间序列滚动排序函数(TS

时间排序_如何在Python⾥提升时间序列滚动排序函数

（TS_RANK）的效率？

1. 何为TS_RANK？

TS_RANK(X, n)函数，是指在⼀个时间序列X上，循环计算每个固定窗⼝的最后⼀个值在这个窗⼝内的排序值。说的通俗⼀点，就是在每⼀个时刻看所关注的时间序列X当前取值在过去⼀段时间内的排序如何。特意讨论该函数是因为其在挖掘信号时的使⽤频率还是很⾼的。

举个例⼦，如果我有时间序列[1,2,3,4,5,6], 固定窗⼝为3，那么前两个下标由于向前回溯数据长度不⾜将不做运算，对于[1,2,3]，由于3是最⼤的，所以序值为3。同理，继续循环推进，对于[2,3,4], [3,4,5], [4,5,6]，最后⼀个值的序值也都为3。最后得到[3,3,3,3]。

考虑固定窗⼝不⼀样时，计算结果难以相互⽐较，故⽽可以将每次得到的序值除以窗⼝长度，从⽽将结果正则到[0,1]之间，对于上例，结果变为[1,1,1,1]。再举⼀个例⼦[1,6,5,2,4,3]，则得到[0.66, 0.33, 0.66, 0.33]。

2. TS_RANK的Python实现

过去，⼤家喜欢⽤lling()去实现这⼀类在时间序列上滚动循环计算的符号函数，假设价格dataframe为df，那么⼀般的写法为：df.rolling(n).apply(lambda x: get_sort_value(x)/n)

由于pandas没有⾃带与rolling耦合的获取排序值的内置函数，我们需要使⽤apply+lambda的写法进⽽利⽤⾃写的get_sort_value去获取最后⼀个元素的排序值。根据我们的要求，get_sort_value是⼀个传⼊array返回最后⼀个元素排序值的函数，这⾥除以n则是为了正则化。

def rollingRankOnSeries(array):

s = pd.Series(array)

return s.rank(method='min', ascending=False)[len(s)-1]

def rollingRankSciPy(array):

return array.size + 1 - sc.stats.rankdata(array)[-1]

def rollingRankBottleneck(array):

return array.size + 1 - bd.rankdata(array)[-1]

def rollingRankArgSort(array):

return array.size - array.argsort().argsort()[-1]

其中，第⼀种实现是利⽤pandas的rank函数，由于将array转化为了series效率较低不做讨论，第⼆种实现使⽤了scipy的rankdata函数，第三者实现⽤了bottleneck的库函数，最后⼀种则是numpy的内置函数argsort。

实验证明，BottleNeck的rankdata效率略⾼于Scipy和Numpy，平均⽤时4S，⽽Scipy和Numpy需要6S。

3. 提速

事实上，我们⼀定还可以更快。原因是因为之前我们的操作是每次将⼀个窗⼝序列都分开对待，导致每次都必须进⾏⼀次O(nlogn)的排序。但实际上，由于时间序列前后的重合性，我们在这⼀时刻做排序⽤的时间序列与上⼀时刻的⽐，只差了⼀个元素。

举个例⼦，对于时间序列[1,2,3,4,5,6]与窗⼝值4，我们在排序好[1,2,3,4]之后，在下⼀次排序只需要从[1,2,3,4]中移除1，增添5，再获取5的序值即可。于是我们发现，其实可以使⽤⼀个更好的数据结构去实现我们的⽬标，这个数据结构的要求是：可以存储时间序列，并可以⾼效实现增添删除获取序的操作。

虽然想法是美好的，但我们也需考虑Python的实现速度问题。由于⾼效的库函数都是基于C/C++实现的，如果我们⽆法到合适的库函数，⾃⼰⼿撸⼀个只会更慢。笔者经过简单的搜索，到了⼀个勉强OK的⽅法：SortedList。SortedList是sortedcontainers包⾥的⼀个函数，可以在add，pop操作时保持排序特性。

@jit

def TS_RANK(x, n):

sl = SortedList(x[:n])

for i in range(n,len(x)):

sl.add(x[i])

res.append(sl.bisect_left(x[i]) / n)

res.pop(0)

return res

新的TS_RANK函数实现如上，⽤到了numba加速，测试后速度提升为0.11S，⽐起暴⼒numpy快了50多倍。

好在Python也还是为我们提供了更优雅的⽤法，且就在我们提到的bottleneck库⾥，move_data就可以做到moving window的last value 的rank值计算，且写法简单：

经过测试，速度为0.09S，和我们的⼿写版本相当。

不过这个函数也有缺点，那就是对于前n的元素的操作能⼒⼀般，全部赋了缺失值，如果n较⼤会造成⼀些问题。⽽对于我们⾃写的函数，可以灵活的根据我们的需要对前n个值的赋值规则进⾏修改。所以具体采⽤哪个，还需⼤家仔细斟酌。

rank函数的用法

4. 结语

本⽂证明了numpy+好的算法思路+numba是可以极⼤逼近他⼈的C版本的。同时，⼤部分Python新⼿可能连4-6s的初级⽅案都⽆法达到，当数据量陡增之时，这也是会极⼤影响quant们的研究效率的。

最后，如果⼤家有其他更有效的实现⽅法，也欢迎在⽂章下⾯留⾔讨论，共同进步。

慧智精品网

时间排序_如何在Python里提升时间序列滚动排序函数(TS_RANK)的效率?

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

山西汉代政治,文化名人及作品

唐装的起源和历史演变

中国古代史阶段特征

中国历史上的汉朝文化发展

[汉代历史简介]汉代历史故事

历史汉代全部知识点总结

汉代经济发展对中国经济史的影响

汉代的文学体裁

汉源名字来历

简述汉代艺术的基本特征和美学风格

汉代文学的风格和特征

汉代陶瓷知识点归纳总结

汉代经济发展与中外贸易

中国古代史完整版

汉代的科学技术与数学发展

汉代的录囚名词解释

汉代对中国文化的影响-概述说明以及解释

汉代的思想大一统知识点

汉学与宋学的名词解释

汉唐文化交融研究

最新文章

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

互动训练B—《汉武帝巩固大一统王朝》

汉代耧车的历史价值

红星照耀中国汉代青铜读书笔记

湖南马王堆汉墓的发掘与研究

标签列表