北京大学计算机系网络与分布式系统实验室.ppt闫宏飞,.://./~webg/cwt主要内容介绍构建CWT100g提议TREC追求的四个目标以大规模测试集为基础,推动信息检索的研究;经由开放式的论坛,使与会者能交流研究的成果与心得,以增进学术界、产业界与政府的交流互通;经由对真实检索环境的模拟与重要改进,加速将实验室研究技术转化为商业产品;发展适当且具应用性的评估技术,供各界遵循采用,包括开发更适用于现有系统的新的评估技术。背景介绍大纲介绍构建CWT100g提议Web测试集的设计原则测试集(testcollection)就包括文档集(documents)、查询集(queries)和相关结果集(relevancejudgments)三个部分。Web测试集设计中最基本的问题是:文档集能否真正代表所要研究的对象(此处即Web)?文档集应当是静态样本还是动态样本?在多大程度上可以成为研究对象的代表?为了使文档集能满足通用的或特定的研究目标,总体规模应当有多大?测试集使用框架CWT100g构建时间表√√√我是一小步,人类的一大步!√构建文档集文档集,根据天网搜索引擎截止2004年2月1日发现的中国范围内提供Web服务的1,000,614个主机,从中采样17,683个站点,在2004年6月搜集获得5,712,710个网页,包括网页内容和Web服务器返回的信息,容量为90GB。其中每个网页对应的服务器返回信息中的MIME类型都是"text/html"或者"text/plain"。[Yan,etal.,11,2004] ,,.,,"OntheConstructionofaLargeScaleChineseWebTestCollection,"puterScienceandTechnology,11,: //versionnumberurl:/ //URLorigin:/ //originalURLdate:Tue,15Apr200308:13:06GMT //timeofharvestip: //IPaddressunzip-length:30233 //Ifincluded,pressedlength:18133 //datalength //ablanklineXXXXXXXX //thefollowingsaredatapartXXXXXXXX….XXXXXXXX //dataend //insertanewline[Yan,etal.,2004] ,,,,"ANewDataStorageandServiceModelofChinaWebInfoMall,"presentedatthe4thInternationalWebArchivingWorkshop(IWAW04)of8thEuropeanConferenceonResearchandAdvancedTechnologiesforDigitalLibraries(ECDL08),Bath,UK,2004.
北京大学计算机系网络与分布式系统实验室 来自淘豆网www.taodocs.com转载请标明出处.