Skip to content

YogeLiu/shanghai_transportation

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 

Repository files navigation

交通流量时空模式挖掘

一般出行行程通常都由某种明确目的驱使,例如上班、购物或娱乐,出行的起始区域因其承担功能的不同,通常能够反映出用户的出行目的,于此同时,从宏观来看,区域之间的交通流量在一天内的变化规律也能够反映出区域的功能,此外,由于出行的紧迫程度等因素的差异,人们出行时在不同情况下,可能会采用不同的通行方式,目前,地铁、公交、出租车是大型城市主要的三种出行方式,智能公交卡刷卡日志记录了城市内人口乘坐公交或地铁的每一次行程,包括出行的时间和起止站点,出租车车载GPS能够对出租车的位置进行定位得到出租车的行驶轨迹,结合出租车传感器数据能够进一步获知出租车的状态,例如是否载客,从而能够推测出乘客每次乘坐出租车的详细行程。本项目基于上海市智能公交卡刷卡日志记录、出租车车载GPS轨迹日志记录,以及上海市兴趣点POI的分布等数据,对城市区域交通流量的时、空模式进行了挖掘,基于抽取不同交通方式对应行程构建出的通勤量张量,采用张量分解方法对交通流量在时空维度上进行分解,得到时间模式,即每种不同的区域功能对之间的交通量在时间上的分布,以及空间模式,即每个具体区域所包含的功能组成成分,对比了不同交通方式在时、空维度上模式存在的差异。为了能够对新城区的时变交通流量进行有效推测和估计,结合兴趣点分布,采用了深度神经元网络对张量进行重构,经实验验证,该方法能够达到较高的交通量重构准确率。

数据采集与数据集

本项目数据采集于上海市智能公交卡刷卡日志记录以及出租车车载GPS轨迹日志记录。经统计,数据集基本情况如表所示。

Alt Text

如图是交通流量时空模式挖掘系统框架。基于原始数据首先经过数据清洗抽取出地铁、出租车两种不同交通方式每次行程的起止地点以及时间,构建出以出行起始点、终止点、时间为三个维度的通勤量张量,此后采用张量分解的方法得到时间模式,即每种不同的区域功能对之间的交通量在时间上的分布,以及空间模式,即每个具体区域所包含的功能组成成分,并对比了不同交通方式在时、空维度上模式存在的差异。在对新城区的时变交通流量进行有效推测和估计的过程中,由于兴趣点分布反映了城区功能规划,因此基于兴趣点分布,采用深度神经元网络对张量进行了重构。

Alt Text

交通流量时空分解

对交通流量进行张量分解是为了得到通勤量的时间模式和空间模式,主要采用张量分解方法将时间和空间因素区分开来,有效的张量分解能够使得分解出的模式的表示简单,同时基于分解出的模式对原始交通量的估计还能尽可能准确。

如图是针对地铁和出租车两种不同交通方式,分别在工作日和休息日的交通量进行统计的结果。

Alt Text

如图是针对地铁和出租车两种不同交通方式,生成的交通量张量中,元素数值的统计结果,横坐标是张量元素的取值,纵坐标是该取值出现的频次,其中横、纵坐标均为对数坐标。

Alt Text

张量分解的表达式如式,是指将交通量的张量分解成为分别与起始区域、终止区域、时间相关的矩阵O、D、T,以及核张量C,核心张量(core tensor) 表达了分解出的各个成分的权重以及相互关系。张量分解的图示如图,其中,每一个源、目的区域对在某时间段上的通勤量,可以理解为由各种具有不同语义的交通流量相互叠加而成。如图左边是原始通勤量张量,右边每一项代表了具有不同语义的交通流量的分量,而每一个分量都可以由对应的起始区域的特征向量、终止区域的特征向量、时间模式的特征向量经过相乘得到。

Alt Text

张量分解也可以称作为高阶奇异值分解(Higher-order singular value decomposition/HOSVD),和矩阵的奇异值分解有类似之处,是其概念上的扩展与延伸。目前已经提出了多种张量分解的计算模型和方法,常用的算法包括:Tucker分解、PARAFAC分解、CANDECOMP分解等。不同于一般情况下的张量分解,由于交通流量在时间维度上具有非负性,因此需要对分解出的矩阵施加非负约束,具有非负性约束的张量分解又称非负张量分解(Nonnegative Tensor Decomposition/NTD)。

影响张量分解准确性的主要因素包括:分解的主成分数量以及采样率。这里主要对比了块主元素旋转非负张量分解算法(ANLS-BPP)和有效集法非负张量分解算法(ANLS-AS)两种算法。如图是对应不同主成分数量,地铁和出租车两种不同交通方式,分别在工作日以及休息日时的平均绝对误差,其中采样率为0.9。

Alt Text

如图是对应不同采样率,地铁和出租车两种不同交通方式,分别在工作日和休息日时的平均绝对误差,其中主成分数量为5。

Alt Text

交通流量时空重构

基于通勤量张量分解的结果,结合不同类型的兴趣点的相对密度空间分布,以及区域之间的距离等信息,需要建立可行有效的模型,对城市不同区域之间的时变交通流量进行推测,尤其是随着城市大型化发展,大多数城市区域都处于不断扩张之中,在新城区的建立或老城区的改造过程中,区域的人口以及所承载的功能都可能发生变化时,仍然需要能够通过既有的城区规划等信息,对该区域与城市其他区域之间的交通流量做出相对准确的估计。

如图是交通流量时空重构的深度神经元网络模型,其中包括三个模型,区别在于所采用的输入的特征向量不同,模型一采用张量分解得到的区域相关的特征向量作为输入,两个输入结点分别对应了起始区域与目的区域各自的特征向量,模型二采用兴趣点的相对空间密度分布、区域之间距离作为输入,同模型一类似,两个输入分别对应了起始、目的区域的兴趣点的相对空间密度分布的特征向量,模型三是模型一与模型二的融合,即同时采用了张量分解的特征向量以及兴趣点的相对空间密度分布、区域之间距离作为输入。深度神经元网络模型主要包含了两个层次,下层是典型的神经元网络模型,包括输入层、多级隐含层,以及对隐含层进行合并(merge)的合并层等,上层是循环神经元网络(Recurrent Neural Networks/RNN),循环神经元网络是一种典型的深度神经元网络,主要应用于自然语言处理,能够对字符序列进行建模,循环神经元网络的优势主要体现在其能够有效捕捉一段较长序列各节点之间的相关关系,这里采用双层双向循环神经元网络,相比于单层单向循环神经元网络,对于时间序列上的的每一个节点,能够利用其两侧所有节点的隐含层信息,而不仅仅是其一侧的,因此能够达到更好的效果,如图右侧所示是循环神经元网络中的一个节点的内部结构,包含了输入层、隐含层、输出层,循环神经元网络区别于一般神经元网络在于节点的隐含层之间是相互连接的,因此能够使得隐含层信息在序列上的所有节点之间传递。

Alt Text

基于深度神经元网络模型能够对更为复杂的输入和输出之间的相关关系进行建模,表达能力较强。一般而言,对于老城区改造,可以基于其历史交通流量,对于新城区,可以基于其功能规划、相似区域的张量分解结果,合理推测出区域经过张量分解所可能对应的区域特征向量,这种情况下,可以采用模型一,如果只有区域的规划信息,例如区域未来建成时可能含有的兴趣点分布、交通设施等基础架构规划,可以采用模型二,更进一步如果两方面信息都能够获取,则可以采用模型三,同时,建议在对区域特征向量估计不准确的时候,尽可能测试多组可能的区域特征向量取值,并对误差进行分析。

如表是两种交通方式的通勤总量根据重力模型拟合出的系数,由此可见,地铁通勤总量与出发地、目的地的通勤密度呈现出较强的正相关关系,而与区域距离呈现出较弱的负相关关系,与地铁不同,出租车通勤总量与出发地、目的地的通勤密度呈现出较弱的正相关关系,而与区域距离呈现出较强的负相关关系,这种差异性是由于两种不同交通方式的容量、便利性、以及定价所导致的。

Alt Text

如图是对145类细分兴趣点分类进行归并后得到的十多类兴趣点分类中,最主要的6个类别的相对密度空间分布情况,可见,不同类别的兴趣点具有差异化的密度空间分布,住宅区在城市周边区域分布相对较密集,而在城市中心区域相对较稀疏,公司企业的密度空间分布则恰好与之相对。

Alt Text

如表是采用不同模型,基于深度神经元网络对地铁和出租车两种不同交通方式的交通流量进行重构的误差,评估采用十折交叉验证,每次取九份进行训练,对另外一份进行评估,重复十次。其中,模型一只用了张量分解得到的源、目的的特征向量作为特征,模型二只用了兴趣点的分布以及区域之间的距离作为特征,模型三融合了张量分解得到的源、目的的特征向量以及兴趣点的分布和区域之间的距离同时作为特征。从重构误差的结果来看,基于深度神经元网络模型对交通流量进行重构相对于直接基于张量分解之后进行张量乘法的重构具有更小的重构误差,同时,在加入兴趣点的分布以及区域之间的距离特征之后,重构误差略有减小,此外,对于没有任何历史流量信息,只有兴趣点的分布信息的区域,采用模型二仍然能够达到相对较高的重构准确率,这对于直接基于张量分解之后进行张量乘法的重构方法或者模式一的重构方法都是难以实现的,因此,对于新城区,即使没有任何交通流量信息,仍然能够通过城区规划有效推测出交通流量,同时由于互联网上爬取得到的兴趣点的信息粒度还很粗,例如一个商场和一个便利店虽然规模相差甚远,但仍都是对应到一个兴趣点,具有相同的计数,因此,如果能够基于详细的城区规划,获取更细粒度的兴趣点信息,就能进一步优化模型,提升交通流量的重构准确率。

Alt Text

交通流量模式分析

如图分别是采用张量分解方法挖掘出的地铁和出租车两种不同交通方式的交通流量的时间模式,其中张量分解的主成分数量设置为3,如图可见,地铁工作日通勤的时间模式主要包含三种模式,模式一对应了早高峰情况,可能对应的是住宅区到办公区的通勤行为,模式二对应了晚高峰情况,与模式一相对,可能对应的是办公区到住宅区的通勤行为,模式三与模式一、二形成互补,可能对应的是上班时段及休息时段的通勤,与工作日交通流量类似,休息日交通流量的时间模式也具有早、晚高峰,但时间跨度的带宽明显较工作日更宽,这是因为工作日普遍具有相近的上班和下班时刻,而休息日移动行为具有更大的差异性,如图可见,出租车在工作日通勤也具有和地铁类似的模式,但夜间的交通量不再为零,而在休息日通勤模式不再容易区分,模式一与模式二在夜间4点直至中午12点都具有较高的相似度,与模式三在夜间4点之前具有较高的相似度。

Alt Text

Alt Text

如图分别是采用张量分解方法挖掘出的地铁和出租车两种不同交通方式的交通流量的空间模式,与时间模式相同,主成分数量设置为3,如图可见,左边一列是地铁出发地根据张量分解出的张量按照最大元素序号进行分类,得到的不同类别的空间分布情况,右边一列是目的地分类的空间分布情况,可见工作日根据通勤模式进行分类得到不同类别的空间分布,可以按照城市中心区域和城市周边区域大致分为两类,而休息日按照分类所得到的空间分布则较为混杂,难以直观的发现其中明显的模式,如图4-12可见,出租车与地铁具有较为相似的情况,无论是出发地还是目的地,工作日按照分类所得到的空间分布,按照城市相对地理位置可以大致分为两类,而休息日则难以观测得到模式。同时,无论是地铁还是出租车,工作日不同类别的空间的分布,出发地和目的地都形成互补。

Alt Text

Alt Text

About

上海市交通流量时空模式挖掘

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%