下载此文档

重复数据删除技术.docx


文档分类:IT计算机 | 页数:约11页 举报非法文档有奖
1/11
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/11 下载此文档
文档列表 文档介绍
重复数据删除技术.docx重复数据删除技术的发展及应用DevelopmentandApplicationofDe~DuplicationTechnology2010-09-28作者:王树鹏摘要:重复数据删除技术包括相同数据重复数据删除技术和相似数据重复数据删除技术。相同数据重复数据删除技术主要有:相同文件重复数据删除技术、固定长度分块的重复数据删除技术、基于内容分块的重复数据删除技术、基于滑动块的重复数据删除技术和基于数据特征的重复数据消除算法等。重复数据删除技术适合应用于数据备份系统、归档存储系统、远程灾备系统等场合。关键字:重复数据删除;存储;智能压缩英文摘要:Datade-duplicationtechnologycanbeusedtode--duplicationincludesde-duplicationoffixed-1engthblocks,ContentDefinedChunking(CDC),slidingblocks,andcharacteristic-,archivalstoragesystems,:deitEide-duplication;storage;pression基金项目:国家高技术研究发展(“863”)计划(2009AA01A403)重复数据删除也称为智能压缩或单一实例存储,是一种可自动搜索重复数据,将相同数据只保留唯一的一个副本,并使用指向单一副本的指针替换掉其他重复副本,以达到消除冗余数据、降低存储容量需求的存储技术。本文首先从不同角度介绍重复数据删除技术的分类,然后分别介绍相同数据重复数据删除技术和相似数据重复数据删除技术,并介绍重复数据消除的性能提升方法,最后分析重复数据技术的应用场景。。对于每个新数据块都生成一个散列,如果数据块的散列与存储设备上散列索引中的一个散列匹配,就表明该数据块是一个重复的数据块。DataDomain^飞康、昆腾的DXi系列设备都是采用SHA--5等类似的散列算法来进行重复数据删除。基于散列的方法存在内置的可扩展性问题。为了快速识别一个数据块是否已经被存储,这种基于散列的方法会在内存中拥有散列索引。随着数据块数量增加,该索引也随之增长。一旦索引增长超过了设备在内存中保存它所支持的容量,性能会急速下降,同时磁盘搜索会比内存搜索更慢。因此,冃前大部分基于散列的系统都是独立的,可以保持存储数据所需的内存量与磁盘空间量的平衡。这样的设计使得散列表就永远不会变得太大。基于内容识别该方法采用内嵌在数据中的文件系统的元数据识别文件,与其数据存储库中的其他版木进行逐字节地比较,找到该版本与第一个已存储版本的不同之处并为这些不同的数据创建一个增量文件。这种方法可以避免散列冲突,但是需要使用支持该功能的应用设备以便设备可以提取元数据。基于ProtecTierVTL的技术这种方法像基于散列的方法产品那样将数据分成块,并H采用自有算法决定给定的数据块是否与其他数据块的相似,然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被存储。,计算整个文件的哈希值,然后根据文件哈希值查找存储系统中是否存在相同的文件。这种方法的好处是在普通硬件条件下计算速度非常快;这种方法的缺点是即使不同文件存在很多相同的数据,也无法删除文件中的重复数据。文件块消冗将一个文件按不同的方式划分成数据块,以数据块为单位进行检测。该方法的优点是计算速度快、对数据变化较敏感。字节级消冗从字节层次查找和删除重复的内容,一般通过差异压缩策略生成差异部分内容。字节级消冗的优点是去重率比较高,缺点就是去重速度比较慢。(1)在线式消冗在线处理的重复数据删除是指在数据写入磁盘之前执行重复数据删除。其最大的优点是经济高效,可以降低对存储容量的需求,并且不需要用于保存还未进行重复数据删除的数据集。在线处理的重复数据删除减少了数据量,但同时也存在一个问题,处理本身会减慢数据吞吐速度。正是因为重复数据删除是在写入到磁盘之前进行的,因此重复数据删除处理本身就是一个单点故障。(2)后处理式消冗后处理的重复数据删除,也被称为离线重复数据删除,是在数据写到磁盘后再执行

重复数据删除技术 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数11
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sssmppp
  • 文件大小180 KB
  • 时间2020-08-12