用户拥堵里程&时长估计 在某个特定场景下需要计算每位用户在一年之内处于拥堵状态的时长和行驶里程。 直接从几十万用户一年的GPS秒级数据计算开销太大(万亿行),因此利用现有的行程统计数据,使用简单的机器学习方法估计用户的拥堵里程和时长,可以大大减少计算量。 项目要点: 特征融合:从行程的速度特征整合为用户一年之内的速度特征; Box-Cox转换:使数据更加符合正态性分布; 交叉检验:10折交叉检验实现模型选择; 模型测试。