浅谈高速公路收费数据的处理方法(2)
1. 批次大小
每期数据可以是一个月的数据,也可以是一年的数据,但是不能更多;每期数据的相关数据规定的有效时段必须相同,例如:2009年和2010年的数据不能同期处理;
当南北网数据分开处理并且每一次处理一个网一年的数据时,某些处理过程需要高达几十个小时,完成全部处理过程需要近二百个小时;但是,当每次处理一个月数据时,南北网数据在一天内即可全部完成处理;
这中间的差别是因为进行某些数据处理时,随着数据量的增长,数据处理量不是呈线性关系增长,而是呈指数关系增长;
出于保持数据完整性考虑,应该采用较大的数据处理批量;出于实际处理效率考虑,应该采用较小的数据处理批量;
兼顾两者,通盘考虑,建议南北网数据分别处理,每次处理一个季度的数据为宜。
2. 处理位置
在存放原始数据的数据库中进行处理,不仅可以得到最好的数据处理效果,因为不需要传输数据,还可以节省大量数据传输时间;
具体操作时可以利用SQL脚本自动生成临时数据表,完成数据整理和数据导出后,再删除临时数据表释放存储空间;
以每次处理一个季度的数据为例,占用存储空间只有几个GB,加上处理过程中占用的日志空间,也不会超过20个GB;为了减少日志占用的存储空间,尽可能不要将处理脚本一次性全部提交,而是人为将其分割成几个部分分次提交。
3. 处理效率
为了提高处理效率,除了必须按先后顺序进行的处理外,应该尽可能将处理条件相同或者接近的数据处理放在一个处理过程中完成,例如:车辆轴型和总轴限处理过程;
在用到数据检索、数据匹配操作时,应该尽可能建立索引(不一定是建立主关键词,有时虽然不能建立主关键词,但是可以建立索引。)后,再进行数据处理,例如:行驶里程数据预检索过程;
应该尽早检查错误数据,并且及时加以剔除,以防止数据处理过程中断;因为数据处理过程中断后,不仅前面的处理工作全部浪费,而且数据库回滚恢复原状还需要占用大量的时间;
只有通过各种方法配合,通盘综合考虑,才可能有效的提高总处理效率。
三、结束语
高速公路联网营运在我国日渐广泛,软件技术和硬件设施的发展也与世界先进水平相距不远。和银行、电信、地质、保险、零售等数据挖掘技术应用广泛的行业相比,高速公路数据应用处理的方法和深度还有一定的差距,这与高速公路信息技术高速发展不相匹配。高速公路行业的主管部门希望在行政决策和行业管理上得到更充分、更深入、更有针对性的相关数据支持;同样高速公路管理公司和营运企业,也希望在改善服务质量、提高管理水平、优化资源配置等方面,得到更有效的数据支持。利用合理有效的数据处理手段能够总结提炼出对高速公路运营管理有益的规律和手段,能够完善高速公路的管理,有效地提高高速公路的管理质量和服务质量,为高速公路建设进一步向信息化、智能化方向发展打好基础。
参考文献:
[1] 交通部.联网收费技术要求[S]. 北京:人民交通出版社
[2] 江苏省苏南高速公路联网收费暂行技术要求
[3] 江苏省苏北高速公路联网收费暂行技术要求
[4] 江苏省高速公路联网收费系统计重收费(数据部分)技术要求
[5] 刘伟明等.高速公路收费系统理论与方法[M]. 北京:人民交通出版社
交通运输论文发表http://www.uuqikan.com/jtyslw/
转载请注明来自:http://www.uuqikan.com/jiaotongyunshulw/3901.html
