基于混合Logit模型的旅客对短途高速铁路列车选择行为
Vol.42No.2
March ,2021
中国铁道科学CHINA RAILWAY SCIENCE
第42卷,第2期2021年3月
基于混合Logit 模型的旅客对短途高速铁路列车
选择行为
谦1,杨
光2,胡启洲3
(1.南京铁道职业技术学院运输管理学院,江苏南京
210031;2.中国铁路上海局集团公司上海客运段,上海200071;
3.南京理工大学自动化学院,江苏南京
210094)
要:以南京到上海和南京到杭州的短途高速铁路客流为背景,应用行为调查法与意向调查法开展客流调
查,获取客流数据。基于选择行为理论,以旅客对列车的选择作为因变量,旅客个体特征、出行特征、列车服务水平作为自变量,基于多项式Logit 模型构建混合Logit 模型,拟合客流调查数据。结果表明:混合Logit 模型的拟合优度高于多项式Logit 模型;出发时间是影响旅客选择行为的关键因素,77%的旅客偏好选择6:00—7:00出发列车,仅有10%的旅客偏好选择20:00—21:00出发列车;列车旅行时间、票价水平与旅客对列车的选择行为负相关;女性、50岁以上、学生、低收入、自费购票等类的旅客对票价敏感度较高;公务人员及企业职员偏好选择8:00—11:00开行的列车,休闲出行旅客偏好选择8:00—11:00及14:00—17:00开行的列车;行前接驳选择自驾换乘的旅客,偏好选择5:00—8:00开行的列车;旅客对6:00-10:00开行列车的支付意愿最高,对17:00—22:00开行列车的支付意愿最低。
关键词:短途高速铁路客流;交通出行选择;旅客偏好;混合Logit 模型;多项式Logit 模型中图分类号:U293.1
文献标识码:A
doi :10.3969/j.issn.1001-4632.2021.02.20
旅客在选择高速铁路出行时,面对不同种类、不同时段开行的列车表现出不同的选择行为。深入研究旅客对不同列车的选择行为,定量分析影响旅客选择行为的主要因素,可以进一步丰富交通出行选择行为理论研究的内涵,也可以为高铁运营企业合理设计列车服务产品、开展精准营销活动提供理论依据。
旅客对不同列车的选择属于交通出行选择行为研究领域。离散选择模型是研究交通出行选择行为的常用方法[1-2]。Nuzzolo 等[3]将列车票价、出行时间、进出站方式等作为影响旅客选择的主要因素,构建巢式Logit 模型,研究了铁路列车服务水平及价格政策与市场需求的匹配程度。Coldren 等[4-6]将不同航班的服务水平、航程关联特性、机型特点、乘坐舒适程度等作为主要影响因素,应用多项式Logit 模型、巢式Logit 模型以及排序广义
极值模型,研究了旅客对不同航班的选择行为。Bekhor 等[7]将航线价格、经停次数、中转等待时
间等航班服务水平作为影响旅客选择行为的主要因素,应用多项式Logit 模型与排序Logit 模型,分析了旅客对不同航班的选择行为。考虑到出行旅客的异质特点,Hetrakul 等[8]将旅客社会特征与票价、出行时间、提前购票时间等作为影响因素,分别应用多项式Logit 模型、潜类别Logit 模型以及混合Logit 模型研究铁路旅客购票行为,结果表明潜类别Logit 模型、混合Logit 模型相比传统的多项式Logit 模型具有更强的客流预测能力。国内相关研究中,史峰等[9]将旅客主体特性、列车特性和随机因素作为主要影响因素,应用多项式Logit 模型研究铁路旅客乘车选择行为。王文宪等[10]构建巢式Logit 模型分析了旅客社会特征、出行特征、列车服务特征对旅客选择普速铁路不同列车行为的主
文章编号:1001-4632(2021)02-0183-10
收稿日期:2020-04-24;修订日期:2020-12-02
基金项目:江苏高校哲学社会科学研究重大项目(2020SJZDA136);中国铁路总公司科技研究开发计划课题(2017X009-M );教育部高铁
安全协同创新中心2019年开放基金资助项目(GTAQ2019003)
第一作者:程谦(1977—),男,河南巩义人,副教授,博士。E -mail :138****2967@139
第42卷中国铁道科学
要影响。王文宪等[11]将旅客社会特征、旅客出行特征、列车服务特征作为影响旅客选择的主要影响因素,应用多项式Logit模型分析了旅客在面对动车类与高铁类列车时的选择行为。上述研究中,多数是将列车种类作为旅客乘车选项,但旅客对同一种类列车的不同开行时段,也表现出差异化的选择行为,有必要将列车出发时间也作为选择项,深入分析旅客差异化的乘车选择行为。
选择集独立、互斥是应用选择行为模型(多项式Logit模型、巢式Logit模型等)的假设条件之一,这一假设条件要求选择项不相关,但并不适合实际应用场景。混合Logit模型突破了这一假设,可以近似于几乎任何一种随机效用模型[12]。高铁在不同种类、不同开行时段下的列车相互替代性强,旅客对不同列车的选择行为过程建模更适合采用混合Logit模型,而目前该模型在高铁旅客出行选择行为领域的研究较少,尚缺乏系统化的论证分析。
本文以旅行时间在3h范围内的南京到上海和南京到杭州的短途高速铁路旅客体为研究背景,应用行为调查与意向调查方法收集客流数据,分别构建混合Logit模型与多项式Logit模型,拟合实际调查数据,研究旅客对短途高铁不同种类、不同时段出发列车的选择行为,比较混合Logit模型与多项式Logit模型的拟合优度,分析旅客选择高铁列车的影响机理,为定量描述短途高铁市场需求,以及高铁运营企业合理设计列车服务产品、开展精准营销活动提供理论支持。
1出行选择行为调查
1.1问卷调查
本文综合应用行为调查法与意向调查法[13-15]开展客流调查,其中行为调查法用于调查旅客的个体特征和出行特征;意向调查法通过构建选择情境,调查旅客的出发时间、在途时间及车票价格等偏好。
客流调查范围设定在旅行时间在3h范围内的短途高铁旅客体。假设旅客搭乘沪宁高铁、宁杭高铁列车从南京到上海或者到杭州,根据在线时刻表(12306网站)构建意向调查的选择情景:出发时间选择在5:00—21:00时间范围,并按照3h的间隔将其划分为6个时间段(其中最后1个时间段是1h);在途时间根据D类与G类高铁列车不同停站方案,设置6个水平,分别是1h20min,1h40 min,2h00min,2h20min,2h40min,3h00min;车票价格根据高铁二等座实际售票价格设置4个水平,分别是115,128,135和216元。根据上述不同影响因素及水平设置条件,应用全因子实验设计方法,构造出24趟列车信息。将这24趟列车分为4组,每组6趟列车,在每个时间段安排1趟出发列车,6趟出发列车构成1个选择集;受访者对1个选择集进行1轮选择,则每1位受访者需完成4轮选择实验。4组列车分别为:①列车1,列车5,…,列车21;②列车2,列车6,…,列车22;③列车3,列车7,…,列车23;④列车4,列车8,…,列车24。为更好把握旅客对不同列车的主观选择意愿,简化分析,假设选择情境中的各次列车预售票额充足。
2019年5月15日—6月15日课题组在上海、苏州、无锡、南京、杭州等地的高铁车站、长途汽车站开展客流调查,共计发放调查问卷600份,其中南京到上海和到杭州各300份,收回有效问卷511份,问卷回收率85.2%,满足标定选择行为模型对样本数量回收率的要求。数据统计时,仅按照列车序号进行汇总,不再区分到站。
1.2数据描述
通过行为调查得到的旅客个体特征和出行特征分布见表1。由表可知:女性旅客略多于男性;年龄集中在31~50岁之间;职业多为公务单位与企业的职员;大部分旅客为中等偏高收入;休闲出行占比最高,公务出行次之;大部分旅客自费出行;出行前时间多数在2h之内;公共交通是旅客偏爱的出行前接驳方式。
通过意向调查获得旅客对不同时间段开行不同列车的选择偏好见表2,其中“选择比例”是指选择该列车的旅客数占本轮样本总数的比例。由表2可知:旅客选择较多的列车集中在时段1,时段2和时段3;在同一时段内,旅客选择比例较高的是列车行程时间短的列车。
2列车选择行为模型
2.1混合Logit模型的建立
混合Logit模型突破了多项式Logit模型要求选择集内各选择项不相关的假设条件,允许选择者存在“随机口味差异”[16]。基于选择行为理论,多项
184
第2期基于混合Logit模型旅客对短途高速铁路列车的选择行为
式Logit模型中,旅客n选择列车i的概率P ni(βT n)[1-2]为
P ni(βT n)=e V ni(β
T
n)
j
e V nj(βT n)(1)式中:βT n为系数向量;V ni(βT n)为旅客n选择列车i 的效用的固定部分;j为备选列车序号。
混合Logit模型中,旅客n选择列车i的概率P ni,是在系数向量βT n不同取值处的加权平均值,权重是密度函数f(βT n)。假设密度函数f(βT n)服从正态分布,若均值向量为θ,则混合Logit模型的选择概率P ni为
P ni=P ni(βT n)f(βT n|θ)dβT n(2)均值θ可采用仿真计算的方法获得,即通过连续抽取系数向量βT n的值计算仿真概率,得到模型的模拟对数似然函数,进而应用梯度法或Newton-Rapson法求解。
如果旅客n选择列车i的效用的固定部分关于系数向量βT n是线性的,则V ni(βT n)=βT n x ni,其中,x ni是可以观察到的与旅客n及被选列车i有关的影响因素向量。这些影响因素向量包括旅客的个体特征、出行特征与列车的服务水平[7],用Ιn表示旅客n的个体特征向量,T n表示旅客n的出行特征向量,C i表示列车i的服务水平向量。则旅客n选择列车i的效用的固定部分为
V ni(βT n)=βT n I n+βT n T n+βT n C i(3)
表2不同列车选择比例分布
时间段
时段1 (5:00-8:00)
时段2 (8:00-11:00)
时段3 (11:00-14:00)
时段4 (14:00-17:00)
时段5 (17:00-20:00)
时段6 (20:00-21:00)列车序号
列车1
列车2
列车3
列车4
列车5
列车6
列车7
列车8
列车9
列车10
列车11
列车12
列车13
列车14
列车15
列车16
列车17
列车18
列车19
列车20
列车21
列车22
列车23
列车24
出发时间
5:36
6:31
7:00
7:44
8:00
8:35
9:10
10:05
11:00
11:40
12:15
13:10
14:42
15:39
16:00
16:49
17:20
18:23
18:41
19:39
20:00
20:45
21:00
21:25
行程时间/(h:min)
南京—上海(南京—杭州)
2:00(1:20)
2:00(2:00)
1:40(1:20)
2:20(1:20)
1:40(1:20)
2:00(2:20)
2:00(1:20)
2:20(2:40)
1:40(2:00)
2:20(1:20)
2:00(2:40)
2:00(1:40)
2:00(1:40)
2:00(3:00)
1:40(1:20)
2:00(2:20)
2:00(3:00)
2:00(1:40)
2:00(3:00)
2:00(1:20)
1:40(1:20)
2:00(1:40)
1:40(1:20)
1:40(1:40)
价格/元
南京—上海(南京—杭州)
135(216)
115(128)
135(216)
135(216)
135(216)
115(128)
135(216)
115(216)
135(128)
115(216)
135(216)
135(216)
115(216)
135(216)
135(216)
135(128)
135(216)
115(216)
115(128)
135(216)
115(216)
135(128)
135(216)
135(216)
选择比例/%
11.7
18.4
21.5
17.3
36.7
27.9
34.0
31.3
19.1
18.7
14.3
23.5
10.3
10.9
12.8
11.2
8.6
13.8
8.7
9.1
13.6
10.3
8.7
7.6
表1旅客个体特征和出行特征比例分布
属性类型性别
年龄/岁
学历
职业
月收入/
上海到无锡动车时刻表说明
男性
女性
小于30
31~40
41~50
大于5
高中及以下
大学
研究生及以上
公务单位与企业
学生
其他
小于5000
5001~10000
大于10000
比例/
%
44.7
55.3
16.0
33.3
35.0
15.7
10.7
50.7
38.6
69.7
14.7
15.6
19.3
50.0
30.7
属性
类型
出行目的
购票资金
来源
出行前
时间/h
出行前
接驳
当天返程
说明
公务
上学
休闲
其他
公费
自费
小于0.5
0.5~1.0
1.0~
2.0
大于2.0
公共交通
出租车
私家车
其他
不是
比例/
%
31.3
19.0
44.4
5.3
32.9
67.1
30.3
48.3
20.3
1.1
73.3
16.7
8.3
1.7
47.7
52.3
185
第42卷
中国铁道科学将式(3)代入式(1),则得多项式Logit 模型中,旅客n 选择列车i 的选择概率P ni (βT n )为
P ni (βT n )=
e
(βT n I n +βT n T n +βT
n C i )∑j
e
(βT n I n +βT n T n +βT
n C j )
(4)
将式(4)代入式(2),则得混合Logit 模型中旅客n 选择列车i 的选择概率P ni 为
P ni =
∫e
(βT n I n +βT n T n +βT
n C i )∑j
e
(βT n I n +βT n T n +βT
n C j )
f (βT n |θ)d βT
n (5)
2.2变量设计
将表1中性别、年龄、职业、学历及月收入作
为模型中的个体特征变量,出行目的、购票资金来源、行前时间、行前接驳方式及当天返程与否作为模型中的出行特征变量;将表2中列车出发时刻、旅行时间及车票价格作为列车服务水平变量;将前述变量中性别、年龄、职业、月收入、出行目的及购票资金来源与车票价格的点积作为交互变量,以便通过分析交互变量的系数说明不同类别旅客对票价的敏感性。以此设计的模型变量见表3,为避免模型拟合出现多重共线性,对模型中的无序多分类及哑元变量指定了参照组。
表3
模型变量
决策变量
个体特征
出行特征
列车服务水平
列车选择性别年龄
31—40岁
41—50岁大于50岁学历
高中及以下研究生及以上
职业
公务单位与企业职员学生
月收入
小于5000元大于10000元出行目的
公务活动休闲出游购票资金来源行前时间/h
出行前接驳
公共交通出租车私家车当天往返列车出发时间
6:00—7:007:00—8:00
8:00—9:00…
20:00—21:00旅行时间票价水平
L X
A 1A 2A 3E 1E 2O 1O 2I 1I 2
D 1
D 2M t time S c1S c2S c3Y re
T AM67T AM78T AM89…T PM89t C
无序多分类哑元变量
哑元变量
哑元变量
哑元变量
哑元变量
哑元变量哑元变量连续变量
哑元变量
哑元变量
哑元变量
连续变量连续变量参照组:时段1
参照组:女性
若是男性则X =1,否则X =0
参照组:小于30岁
若年龄是31-40岁则A 1=1,否则A 1=0若年龄是41-50岁则A 2=1,否则A 2=0若年龄大于50岁则A 3=1,否则A 3=0参照组:大专/大学
若学历是高中及以下则E 1=1,否则E 1=0若学历是研究生及以上则E 2=1,否则E 2=0参照组:其他
若职业为公务单位职员则O 1=1,否则O 1=0若职业为企业职员则O 2=1,否则O 2=0参照组:5001~10000元
若月收入小于5000元则I 1=1,否则I 1=0若月收入大于10000元则I 2=1,否则I 2=0参照组:上学及其他
若出行目的是公务活动则D 1=1,否则D 1=0若出行目的是休闲出游则D 2=1,否则D 2=0参照组:自费
若购票资金来源是公费则M =1,否则M =0参照组:其他
若行前接驳方式是公共交通则S c1=1,否则S c1=0若行前接驳方式是出租车则S c2=1,否则S c2=0若行前接驳方式是私家车则S c3=1,否则S c3=0参照组:否
若当天往返则Y re =1,否则Y re =0参照组:5:00-6:00点出发
若列车在6:00-7:00点出发则T AM67=1,否则T AM67=0若列车在7:00-8:00点出发则T AM78=1,否则T AM78=0若列车在8:00-9:00点出发则T AM89=1,否则T AM89=0…
若列车在20:00-21:00点出发则T PM89=1,否则T PM89=0
类别影响因素
变量变量类型定义描述186
第2期基于混合Logit模型旅客对短途高速铁路列车的选择行为
交互变量性别与票价
年龄与票价
职业与票价
月收入与票价
出行目的与票价
购票资金来源与票价
C x
C a1
C a2
C a3
C o1
C o2
C o3
C i1
C i2
C d1
C d2
C m
连续变量
连续变量
连续变量
连续变量
连续变量
连续变量
C x=C⋅X
C a1=C⋅A1
C a2=C⋅A2
C a3=C⋅A3
C o1=C⋅O1
C o2=C⋅O2
C o3=C⋅O3
C i1=C⋅I1
C i2=C⋅I2
C d1=C⋅D1
C d2=C⋅D2
C m=C⋅M
续表
类别影响因素变量变量类型定义描述
2.3参数估计
分别应用式(5)和式(4),基于Stata14.0软件,拟合问卷调查得到的客流数据,其中系数估计值的显著性采用P值(p<0.05)进行检验。混合Logit模型在连续抽取系数向量βT n的仿真计算过程中,应用Halton数列方法,随机抽样150次计算仿真概率。
列车服务水平变量的系数估计结果见表4。混合Logit模型中,列车服务水平变量的系数估计结果为随机项,可以用来描述不同旅客对列车服务水平的感知差异,因此表中列出了系数均值与系数均值标准差、P值及P值标准差;多项式Logit模型的系数估计结果是非随机项,因此表中仅列出了系
数估计值和P值。个体特征及出行特征变量在混合Logit模型中的参数估计结果见表5,在多项式Logit模型中的参数估计结果见表6。旅客的个体特征及出行特征变量对旅客选择行为的影响是确定的,因此在2个模型中的系数估计结果均是非随机项。
2.4模型验证
评价离散选择模型拟合优度的指标有多种,其中较为常用的指标是麦克法登伪R2度量、赤池信息准则(AIC)、贝叶斯信息准则(BIC)。麦克法登伪R2指标越接近0,表明模型拟合度差;越接近1,说明模型拟合度好。AIC指标与BIC指标相对较小的模型拟合结果较好。表7列出了混合Logit 模型与多项式Logit模型的拟合指标。由表7可以看出,混合Logit模型的最优对数似然函数值、麦克法登伪R2指标均大于多项式Logit模型,AIC值与BIC值相对较小,说明相较于多项式Logit模型,混合Logit模型的拟合优度更好,更适合列车选择行为建模。
3变量系数估计结果
3.1列车服务水平
1)出发时间
分析表4可知:混合Logit模型中,列车服务水平变量系数的估计结果较好地描述了出行旅客的“随机口
味差异”,以6:00—7:00时间范围为例,变量T M67系数估计均值为2.089,标准差为2.861,根据正态分布定义,样本中系数估计值小于0的累计概率为0.23,说明有77%的样本旅客偏好选择该时段出行;同理,变量T A121和T A89系数估计均
表4列车服务水平变量的系数估计结果
变量
T AM67 T AM78 T AM89 T AM910 T AM1011 T AM1112 T PM01 T PM12 T PM23 T PM34 T PM45 T PM56 T PM67 T PM78 T PM89 t
C
混合Logit模型
系数
均值
2.089
2.183
2.019
1.903
1.109
0.979
0.069
0.531
1.091
1.003
0.508
-0.053
-
0.413
-1.637
-1.205
-1.269
-0.509
系数
标准差
2.861
1.584
0.926
0.043
1.831
0.268
1.793
0.563
1.857
0.452
0.529
0.104
0.628
0.375
0.569
0.863
-1.529
P值
0.006
0.004
0.001
0.093
0.019
0.022
0.025
0.075
0.021
P值
标准差
0.014
0.012
0.186
0.904
0.029
0.566
0.022
0.090
0.038
0.085
0.038
0.762
0.119
0.405
0.015
0.013
多项式Logit模型
系数
估计值
2.742
2.642
2.287
2.277
1.769
1.634
-0.981
-0.721
1.284
1.248
-0.554
-
0.553
-0.533
-1.727
-1.224
-1.559
-0.049
P值
0.002
0.012
0.097
0.101
0.013
0.003
0.019
0.061
0.170
0.005
0.086
187

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。