下载此文档

在数据清洗过程中基于MMDB的数据匹配技术的的研究.pdf


文档分类:IT计算机 | 页数:约80页 举报非法文档有奖
1/80
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/80 下载此文档
文档列表 文档介绍
摘要本论文所讨论的数据清洗是通过对数据库海量数据冗余信息的匹配、探测并去除错误数据和矛盾数据、提高数据质量的过程。数据质量问题出现在多个数据集合之间。由于出现数据输入错误、数据源异构、数据表示方法通用性差等情况,从而导致现有的数据库中存在这样或那样的“脏数据”。这些“脏数据”大大地干扰了数据处理结果的正确性、有效性和利用率。“数据清洗”利用数理统计、数据挖掘和预定义行业专家库等技术,将“脏数据”转化为满足数据质量要求的数据。为此,“数据清洗”过程在银行、电信、移动的海量数据管理和维护中显得越来越数据清洗过程可大致分为:数据解析、数据格式规范化、数据匹配、数据修正、清洗结果检查这�霰冉洗蟮牟街琛1疚闹饕L致鄣慕沟阍谟诤A渴�莸氖�据匹配问题,利用现在发展比较迅速的内存数据库系统������,���南喙丶际酰��菔�萜ヅ涞囊恍┨厥庑裕�岢隽艘恢諱�~树索引结构,以及该索引结构下的插入算法和查询算法。数据匹配从一定程度上可以说是数据库记录的精确匹配查询。传统的数据库查询优化的关注点是减少访问磁盘数据的�疧次数。面对数据清洗中海量数据匹配查询,以前旧的�������丫�辉偈视谩K孀偶扑慊�布�际醯姆⒄梗�谀诖�中存贮整个数据库数据已经成为可能。这使得内存数据库系统������,����昀捶⒄寡杆佟K�阉�惺�荻挤湃肽诖嬷校�苊饬�在查询过程中大量的磁盘��操作,在一定程度上提高了查询的执行时间。在删【�上,由于没有磁盘的��操作,因此提高数据匹配效率的关键变成了处理器的计算时间和缓存的有效利用率。处理该问题的方法很多,其中一种方法就是建立合理的数据索引结构,减少查询过程中的匹配失效,从而缩短处理器的执行时间。本文详细研究了现在数据库的数据索引结构,并根据数据匹配的一些特殊性,提出了一种��树�������饕�峁梗�约案盟饕��构下的插入算法和查询算法。利用���蚑�失效模型和执行时间模型,对该索引结构和常见的索引结构进行了性能分析。从分析结果中可以看出,��皇魉�引结构克服了原有的索引结构在��中暴露出输出速率提升水平低、缓存冲突过重要。��������������
多、使用指针过度等缺点,提高了数据匹配效率。关键词:数据清洗,数据匹配,�����Ⅱ
甌���������������.�������甇��������’������.��,�������������������������‘�����’�������������������������痶����������������������.����,�������、������甌������甋��甦������、��������.���甦�����痠�����.������甌������琤���������甤���������������:���������������.��.����,���疧����.���甀�����.������甋�
甀�������猼��������—����������������������.������琣���韶������.���.��������������瓸�����琣���,�����篸��
签名:塞.�二签名:斐��关于论文使用授权的说明独创性声明日期:�弧��晡缭聑争日本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。�C艿难�宦畚脑诮饷芎笥ψ袷卮斯娑�日期:’�一.�晡缭��奕�为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。确的说明并表示谢意。盘厂允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文导师签名:
第一章绪论��研究背景和意义数据清洗,同时也被称为������或者�������萸逑丛诓煌�的应用领域其要求不完全相同。例如,数据的抽取、转换、清洗和装入������琓�������琇���,��是建立数据仓库系统的重要环节之一。数据清洗是���痰囊桓鲋匾2糠郑�?悸鞘�莶挚獾募�尚杂朊嫦蛑�题的需要��ㄊ�莸那謇砑敖峁棺;�;在��从数据库中发现知识�惺��清洗主要是提高数据的可利用性�コ�肷�⑽薰厥�荨⒖瞻资�萦颍�悸鞘奔�顺序和数据的变化等���饕D谌莼故且谎�摹J�萸逑词且桓黾跎俅砦蠛筒�一致性、解决对象识别的过程。本论文所讨论的数据清洗是通过对数据库海量数据冗余信息的匹配、探测并去除错误数据和矛盾数据、提高

在数据清洗过程中基于MMDB的数据匹配技术的的研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数80
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2024678321
  • 文件大小0 KB
  • 时间2015-08-23