时间排序_如何在Python里提升时间序列滚动排序函数(TS_RANK)的效率?
时间排序_如何在Python⾥提升时间序列滚动排序函数
(TS_RANK)的效率?
1. 何为TS_RANK?
TS_RANK(X, n)函数,是指在⼀个时间序列X上,循环计算每个固定窗⼝的最后⼀个值在这个窗⼝内的排序值。说的通俗⼀点,就是在每⼀个时刻看所关注的时间序列X当前取值在过去⼀段时间内的排序如何。特意讨论该函数是因为其在挖掘信号时的使⽤频率还是很⾼的。
举个例⼦,如果我有时间序列[1,2,3,4,5,6], 固定窗⼝为3,那么前两个下标由于向前回溯数据长度不⾜将不做运算,对于[1,2,3],由于3是最⼤的,所以序值为3。同理,继续循环推进,对于[2,3,4], [3,4,5], [4,5,6],最后⼀个值的序值也都为3。最后得到[3,3,3,3]。
考虑固定窗⼝不⼀样时,计算结果难以相互⽐较,故⽽可以将每次得到的序值除以窗⼝长度,从⽽将结果正则到[0,1]之间,对于上例,结果变为[1,1,1,1]。再举⼀个例⼦[1,6,5,2,4,3],则得到[0.66, 0.33, 0.66, 0.33]。
2. TS_RANK的Python实现
过去,⼤家喜欢⽤lling()去实现这⼀类在时间序列上滚动循环计算的符号函数,假设价格dataframe为df,那么⼀般的写法为:df.rolling(n).apply(lambda x: get_sort_value(x)/n)
由于pandas没有⾃带与rolling耦合的获取排序值的内置函数,我们需要使⽤apply+lambda的写法进⽽利⽤⾃写的get_sort_value去获取最后⼀个元素的排序值。根据我们的要求,get_sort_value是⼀个传⼊array返回最后⼀个元素排序值的函数,这⾥除以n则是为了正则化。
def rollingRankOnSeries(array):
s = pd.Series(array)
return s.rank(method='min', ascending=False)[len(s)-1]
def rollingRankSciPy(array):
return array.size + 1 - sc.stats.rankdata(array)[-1]
def rollingRankBottleneck(array):
return array.size + 1 - bd.rankdata(array)[-1]
def rollingRankArgSort(array):
return array.size - array.argsort().argsort()[-1]
其中,第⼀种实现是利⽤pandas的rank函数,由于将array转化为了series效率较低不做讨论,第⼆种实现使⽤了scipy的rankdata函数,第三者实现⽤了bottleneck的库函数,最后⼀种则是numpy的内置函数argsort。
实验证明,BottleNeck的rankdata效率略⾼于Scipy和Numpy,平均⽤时4S,⽽Scipy和Numpy需要6S。
3. 提速
事实上,我们⼀定还可以更快。原因是因为之前我们的操作是每次将⼀个窗⼝序列都分开对待,导致每次都必须进⾏⼀次O(nlogn)的排序。但实际上,由于时间序列前后的重合性,我们在这⼀时刻做排序⽤的时间序列与上⼀时刻的⽐,只差了⼀个元素。
举个例⼦,对于时间序列[1,2,3,4,5,6]与窗⼝值4,我们在排序好[1,2,3,4]之后,在下⼀次排序只需要从[1,2,3,4]中移除1,增添5,再获取5的序值即可。于是我们发现,其实可以使⽤⼀个更好的数据结构去实现我们的⽬标,这个数据结构的要求是:可以存储时间序列,并可以⾼效实现增添删除获取序的操作。
虽然想法是美好的,但我们也需考虑Python的实现速度问题。由于⾼效的库函数都是基于C/C++实现的,如果我们⽆法到合适的库函数,⾃⼰⼿撸⼀个只会更慢。笔者经过简单的搜索,到了⼀个勉强OK的⽅法:SortedList。SortedList是sortedcontainers包⾥的⼀个函数,可以在add,pop操作时保持排序特性。
@jit
def TS_RANK(x, n):
sl = SortedList(x[:n])
for i in range(n,len(x)):
sl.add(x[i])
res.append(sl.bisect_left(x[i]) / n)
res.pop(0)
return res
新的TS_RANK函数实现如上,⽤到了numba加速,测试后速度提升为0.11S,⽐起暴⼒numpy快了50多倍。
好在Python也还是为我们提供了更优雅的⽤法,且就在我们提到的bottleneck库⾥,move_data就可以做到moving window的last value 的rank值计算,且写法简单:
经过测试,速度为0.09S,和我们的⼿写版本相当。
不过这个函数也有缺点,那就是对于前n的元素的操作能⼒⼀般,全部赋了缺失值,如果n较⼤会造成⼀些问题。⽽对于我们⾃写的函数,可以灵活的根据我们的需要对前n个值的赋值规则进⾏修改。所以具体采⽤哪个,还需⼤家仔细斟酌。
rank函数的用法
4. 结语
本⽂证明了numpy+好的算法思路+numba是可以极⼤逼近他⼈的C版本的。同时,⼤部分Python新⼿可能连4-6s的初级⽅案都⽆法达到,当数据量陡增之时,这也是会极⼤影响quant们的研究效率的。
最后,如果⼤家有其他更有效的实现⽅法,也欢迎在⽂章下⾯留⾔讨论,共同进步。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。