下载此文档

java大数据教程.docx


文档分类:IT计算机 | 页数:约4页 举报非法文档有奖
1/4
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/4 下载此文档
文档列表 文档介绍
1 数据挖掘数据挖掘( Data Mining ,简称 DM),是指从大量的数据中,挖掘出未知的且有价值的信息和知识的过程。 2 机器学****与数据挖掘与数据挖掘类似的有一个术语叫做”机器学****这两个术语在本质上的区别不大,如果在书店分别购买两本讲数据挖掘和机器学****的书籍,书中大部分内容都是互相重复的。具体来说,小的区别如下: 机器学****更侧重于技术方面和各种算法,一般提到机器学****就会想到语音识别, 图像视频识别,机器翻译,无人驾驶等等各种其他的模式识别,甚至于谷歌大脑等AI ,这些东西的一个共同点就是极其复杂的算法,所以说机器学****的核心就是各种精妙的算法。数据挖掘:更偏向于“数据”而非算法,而且包括了很多数据的前期处理,用爬虫爬取数据,然后做数据的清洗,数据的整合,数据有效性检测,数据可视化(画图)等等, 最后才是用一些统计的或者机器学****的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。所以,数据挖掘的范畴要更广泛一些。 3 数据挖掘所覆盖的学科 java 大数据教程中数据挖掘是一门交叉学科,覆盖了统计学、计算机程序设计、数学与算法、数据库、机器学****市场营销、数据可视化等领域的理论和实践成果4 数据挖掘的误区误区一:算法至上论。认为数据挖据是某些对大量数据操作的算法,这些算法能够自动地发现新的知识。误区二:技术至上论。认为数据挖据必须需要非常高深的分析技能,需要精通高深的数据挖掘算法,需要熟练程序开发设计。这两种认知都有一定的偏颇。实际上,数据挖掘本质上是人们处理商业问题的方法,通过适量的数据挖掘来获得有价值的结果,技术在随着大数据时代的来临变得愈发重要,但是最好的数据挖掘工程师往往是那些熟悉和理解业务的人。 5 数据挖掘能解决什么问题商业上的问题多种多样,例如: “如何能降低用户流失率? ”“某个用户是否会响应本次营销活动? “"如何细分现有目标市场? " “如何制定交叉销售策略以提升销售额? ”“如何预测未来销量? ”从数据挖掘的角度看,都可以转换为五类问题: 分类问题聚类问题回归问题关联分析推荐系统 分类问题简单来说,就是根据已经分好类的一推数据, 分析每一类的潜在特征建立分类模型。对于新数据,可以输出新出具属于每一类的概率。比如主流邮箱都具备的垃圾邮件识别功能:一开始,正常邮件和垃圾邮件都是混合在一起的,如果我们手工去点击哪些是垃圾邮件,逐渐的,垃圾邮件就会自动被识别放到垃圾文件夹。如果我们对于混在正常邮件中的垃圾持续进行判断,系统的识别率就会越来越高。我们人工点击判断,相当于预先分类(两类:垃圾邮件和非垃圾邮件),系统就会自己学****两类邮件的特征建立模式,对于新邮件, 会根据模式判断属于每个类别的可能性。 聚类问题和分类算法是不同概念,但是工作中业务人员经常误用。聚类的的目的也是把数据分类,但类别并不是预先定义的,算法根据“物以类聚”的原则,判断各条数据之间的相似性,相似的就归为一类。比如我有十万消费者的信息数据,比如包括性别,年龄,收入,消费等,通过聚类的方法事可以把这些数据分成不同的群,理论上每群用户内都是相

java大数据教程 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数4
  • 收藏数0 收藏
  • 顶次数0
  • 上传人63229029
  • 文件大小303 KB
  • 时间2017-06-11
最近更新