展开

浅谈大数据背景下数据挖掘的方法及其应用

发布时间:2019-01-18   |  所属分类:信息管理:论文发表  |  浏览:  |  加入收藏

  人类已迈入大数据时代,但很多时候我们会感到被数据淹没,却缺乏知识的困窘,并没有“得数据者得天下”的能力。因此,数据挖掘成了我们提取海量数据信息的必要窗口,本文主要探讨数据挖掘的一些算法、模型及其应用以提高大数据处理能力。

信息资源管理学报

  《信息资源管理学报》创刊号将于2011年6月26日出版《信息资源管理学报》,季刊,主编马费成,主办单位中国高等学校自然科学学报研究会与武汉大学,出版单位《信息资源管理学报》编辑部(武汉大学信息管理学院内)。主管单位中华人民共和国教育部。

  1.什么是大数据

  虽然说“大数据”一词在当今时期是炙手可热,很多人都曾对大数据进行定义,但至今为止仍然没有人给出一个明确的定义。大家都认为它具备规模大、多样化、动态化、处理速度快、蕴含有价值的信息,由于其具有规模庞大的特点,我们只能通过机器从浩如烟海、杂乱无章的数据中挖掘对我们有价值的信息,实现数据为我们所用。

  2.什么是数据挖掘

  从规模庞大的信息中,可以利用数学建模算法以及数学软件去找到对我们有价值的隐晦信息。[1]数据挖掘是面向事实的,利用数据挖掘工具,以客观统计分析方法挖掘出企业经营的需求信息,得到正确的销售模式、客户关系和行为策略等,有利于企业掌握正确的经营动态,增加利润并减少开支。“数据挖掘”在方法论上强调“面向数据”,由于它充分运用了自动化的数据收集技术与速度快、容量大的计算机,从而具有处理大量复杂数据库的能力。数据挖掘技术能够进一步运用统计等方法对数据进行再分析,以获得更深入的了解,并具有预测功能,可借助已有的数据预测未来。所以,曾有人说“数据挖掘是掌握商机的命脉”。

  3.數据挖掘的过程

  数据挖掘的过程一般可分为三个阶段,包括数据准备、模式发现与数据挖掘结果。数据准备阶段用于为后续的模式发现提供有质量的数据。包括数据净化、数据集成、数据变换和数据归约。模式发现阶段是数据挖掘过程中的核心阶段,第一要确定挖掘任务和挖掘算法,通过对历史数据的分析,结合用户需求、数据特点等因素,得到供决策使用的各种模式与规则,从该任务的众多算法中选择合适算法进行实际挖掘,得出挖掘结果,即相应的模式。挖掘结果阶段是怎样将挖掘出来的模式与规则以一种直观、容易理解的方式呈现给用户,即可视化。

  4.数据挖掘的方法及应用

  4.1关联规则

  关联规则挖掘[2]是数据挖掘的本质,它通过对规模庞大的信息进行量化处理,然后建立各类信息的联系,从而让那些看似无关的信息的关联性得以显现并为我们所用。

  应用:关联规则的案例最著名的莫过于“啤酒与尿布”的故事,这两件看似毫无关联的事务,挖掘人士通过在杂乱无章、浩如烟海的数据中将两者建立关联,从而为超市带来巨大利润。而这一方法被称为“购物篮分析”。此外,关联规则在金融服务、通信、互联网+行业的应用也越来越广,公司利用它在大量的金融数据中找到与开发投资策略相关联的交易和风险模型;股票公司则利用关联规则挖掘股票价格的趋势,信用卡公司挖掘客户的数据来获得信用模式;在通信领域,在路由器中采集有关入侵的信息,来判断黑客对系统的攻击习惯和行为,进而有效地提高了通信的安全性。此外,Web挖掘、科学数据分析、分类设计、捆绑销售和亏本销售分析等也都会从关联规则挖掘中受益。

  4.2聚类分析

  聚类分析是通过一定的规则将已有的数据集合划分成新的种类,而新的种类在性质上是相似的。所以它是研究数据间物理上或逻辑上相互关系的技术。通俗地讲即是“物以类聚”。聚类分析[3]获得的结果可以作为下一步研究的基础数据,比如关联规则挖掘、多元统计分析、时间序列分析等模型需要的数据。聚类分析的划分方法包括K-means算法、K-medoid算法;层次方法包括BIRCH算法、CURE算法;密度方法包括DBSCN算法、OPTICS算法;网格算法包括STING算法、Wavecluster算法等。

  对全国网络招聘信息[3]的文本数据进行聚类,获得主要的职业类型、专业领域以及热门的行业、职位、地域等,进而能够为高等院校及时了解社会对人才种类的需求变化情况,分析预测未来的人才市场的热点,有针对性地调整人才培养方案和设置安排相关课程提供重要的参考息,促进高校培养出更多适用当前社会就业形势的优秀人才,有助于广大在校大学生做出更合理有效的职业规划。对1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的食品、交通和通讯、衣着、娱乐教育文化服务、家庭设备用品及服务、居住、医疗保健、杂项商品和服务八个主要变量将我国的地区发达程度三类等。 聚类分析还可以帮助公司在客户基本库中获得不同的客户群体,通过购买模式来描述种类不同的客户特征。除此,聚类分析在生物学、信息检索、气候、心理学和药学领域也得到广泛的应用。

  4.3遗传算法

  遗传算法[4]是对生物系统在计算机上模拟研究,基于生物遗传、进化机制的适合于复杂系统优化的自适用概率优化算法。具有鲁棒性强、应用范围广、简单通用的特点。遗传算法搜索最优解的方法是模仿生物的进化过程,模拟自然选择、遗传中发生的复制、交叉、变异等现象。遵循“适者生存、不适者被淘汰”的进化规则,从而留下适应环境能力强的个体,结果群体不断地向最优解的方向进化,最终把最后一代种群里最优的个体通过解码得到满足要求的最优解。

  遗传算法由于全局搜索能力强、能胜任各种函数、高维空间的优化问题,而且在数据库领域中能较好地处理不同属性之间的关系,所以大数据库容量非常大时,我们进行穷举搜索是行不通的或者解决范围大、复杂的优化问题时,这时采取遗传算法进行搜索则是一个非常有效的选择。在数据挖掘领域中常见的有基于遗传算法的关联规则挖掘,基于遗传算法的聚类算法,基于遗传算法的分类、遗传算法和模拟退火算法相结合等。

  遗传算法在图像处理中的图像识别、图像边缘特征提取、图像恢复方面有着广泛的应用;在生产调度问题上,很多时候采用其他算法建立起来的数学模型只能得出近似解,而数据在不断的使用时误差会越来越大,此时采用遗传算法可以较为有效地解决这一问题,比如在流水线生产调度、任务分配、生产规划等方面。由于遗传算法是基于人工自适用的系统研究,所以在机器人领域占据很重要的地位,例如:基于遗传算法的模糊控制规则学习、使用遗传算法来设计空间交汇控制器、机器人逆运动求解问题等。

  4.4神经网络

  人工神经网络是由一个人工建立神经元的、有着模拟人脑结构和功能的有拓部结构和学习规则的动态信息处理系统。通过网络中各连权的改变,实现信息的处理与储存,每个神经元不仅是信息的存储单元,还是信息的处理单元,信息的处理与存储合二为一,在每个神经元的共同作用下,完成对输入模式的识别和记忆。神经网络的基本功能有非线性映射、分类识别、知识处理。因为人工神经元类型有很多种,他们之间的链接也种类不同,所以神经网络种类也有很多。从神经网络的的拓扑结构来看,有全互连型结构、层次性结构、网孔结构。BP神经网络是一种基于有监督的学习、使用非线性的可导函数作为它的传递函数的前馈神经网络,功能最为强大,也是应用领域最为广泛的类型。

  神经网络由于模拟生物的神经网络进行信息的处理,有着不断地自我学习的优势,被广泛地应用在聚类、预测、偏差分析等数据挖掘方面。比如在信息领域,常用来进行系统识别、神经控制和智能檢测;在医学领域,神经网络被用于检测数据分析、生物活性研究、建立医学专家系统;在经济领域上,用来进行信贷分析、市场预测;在军事领域上导弹的智能引导、航天器的姿态调控、战场管理和决策支持系统等。

  5.结束语

  未来,由于信息技术的应用普及,所产生的数据会越来越多,甚至以指数级速度增加。信息量过大导致数据应用也会变得越来越复杂,为了更加有效地提高大数据的利用率,更深层次地挖掘出对我们有价值的信息,我们还需要不断地研究、提高数据挖掘技术,实现对海量信息的掌控,让信息更加安全,让大数据更好地服务于人们。

  参考文献:

  [1] 林杰斌,刘明德,陈湘.数据挖掘与OLAPl理论与事务[M].北京:清华大学学报,2003:001- 005.

  [2] 廖琴,郝志峰,陈志宏.数据挖掘与数学建模[M].北京:国防工业出版社,2010:188- 239.

  [3] 王小妮.数据挖掘技术[J].北京:北京航空航天大学出版社,2014(5):032- 055.

  [4] 中国人民大学统计学系数据挖掘中心.统计学与数据挖掘[J].统计与信息论坛,2002(51):513- 520.

  [5] 孙晓莹,郭飞燕.数据挖掘在高校招生预测中的应用研究[J].计算机仿真,2012,29(4):387- 391.

转载请注明来自:http://www.uuqikan.com/xinxiguanlilw/19989.html


    上一篇:BFD技术在武汉气象信息网络中的应用
    下一篇:SDH设备网管信息传输方案设计