下载此文档

北京大学计算机系网络与分布式系统实验室.ppt


文档分类:IT计算机 | 页数:约27页 举报非法文档有奖
1/27
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/27 下载此文档
文档列表 文档介绍
北京大学计算机系网络与分布式系统实验室.ppt闫宏飞,.://./~webg/cwt主要内容介绍构建CWT100g提议TREC追求的四个目标以大规模测试集为基础,推动信息检索的研究;经由开放式的论坛,使与会者能交流研究的成果与心得,以增进学术界、产业界与政府的交流互通;经由对真实检索环境的模拟与重要改进,加速将实验室研究技术转化为商业产品;发展适当且具应用性的评估技术,供各界遵循采用,包括开发更适用于现有系统的新的评估技术。背景介绍大纲介绍构建CWT100g提议Web测试集的设计原则测试集(testcollection)就包括文档集(documents)、查询集(queries)和相关结果集(relevancejudgments)三个部分。Web测试集设计中最基本的问题是:文档集能否真正代表所要研究的对象(此处即Web)?文档集应当是静态样本还是动态样本?在多大程度上可以成为研究对象的代表?为了使文档集能满足通用的或特定的研究目标,总体规模应当有多大?测试集使用框架CWT100g构建时间表√√√我是一小步,人类的一大步!√构建文档集文档集,根据天网搜索引擎截止2004年2月1日发现的中国范围内提供Web服务的1,000,614个主机,从中采样17,683个站点,在2004年6月搜集获得5,712,710个网页,包括网页内容和Web服务器返回的信息,容量为90GB。其中每个网页对应的服务器返回信息中的MIME类型都是"text/html"或者"text/plain"。[Yan,etal.,11,2004] ,,.,,"OntheConstructionofaLargeScaleChineseWebTestCollection,"puterScienceandTechnology,11,: //versionnumberurl:/ //URLorigin:/ //originalURLdate:Tue,15Apr200308:13:06GMT //timeofharvestip: //IPaddressunzip-length:30233 //Ifincluded,pressedlength:18133 //datalength //ablanklineXXXXXXXX //thefollowingsaredatapartXXXXXXXX….XXXXXXXX //dataend //insertanewline[Yan,etal.,2004] ,,,,"ANewDataStorageandServiceModelofChinaWebInfoMall,"presentedatthe4thInternationalWebArchivingWorkshop(IWAW04)of8thEuropeanConferenceonResearchandAdvancedTechnologiesforDigitalLibraries(ECDL08),Bath,UK,2004.

北京大学计算机系网络与分布式系统实验室 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数27
  • 收藏数0 收藏
  • 顶次数0
  • 上传人dyx110
  • 文件大小1.30 MB
  • 时间2019-10-19