下载此文档

面向中文网页的信息抽取关键技术研究与实现.pdf


文档分类:IT计算机 | 页数:约75页 举报非法文档有奖
1/75
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/75 下载此文档
文档列表 文档介绍
⑧面自史窒圆亟数值皇抽塑差键拉丕巫塞皇塞理论文作者签名:指导教师签名:论文评阅人评阅人答辩委员会主席:委员答辩日期:
学位论文版权使用授权书论文独创性声明本学位论文作者完全了解逝婆盘堂有权保留并向国家有关部门或机构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝垫盘堂可或撰写过的研究成果,也不包含为获得逝姿太堂或其他教育机构的学位或证本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者签名:签字目期:年以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ导师签名:签字日期:月日
摘要随着互联网技术的发展,网络中趁娴氖抗婺T嚼丛脚哟螅谡庑┖量的趁嬷校判矶嘤没枰5男畔ⅰMǔG榭鱿拢芄晃S没苯使用的信息都是以结构化的形式组织,而趁嬷杏没枰5男畔⑼ǔ6及在大量的页面无结构化或半结构化文本中,因此用户难以直接利用趁娴男息。为了更好的利用趁嬷邪男畔ⅲ托枰4觲页面中抽取出用户所需要的信息,并将其以结构化的形式存储。网页信息抽取旨在从网页中抽取出结构化信息,网页中不仅仅包含由自然语言构成的自由文本藿峁够谋,同时也包含如表格、列表等半结构化文本。本文主要针对从中文网页中抽取信息进行研究,采用一种结合网页段落筛选和数据集成的技术同时从网页自由文本和半结构化文本中抽取信息的综合方法进行中文网页信息抽取。该方法采用启发式规则从网页中筛选出自由文本和半结构化文本,之后针对自由文本采用分词、词性标注、基于规则的命名实体识别技术等自然语言处理技术和语义抽取规则进行信息抽取,同时采用包装器归纳的方法归纳出单槽规则用于半结构化文本信息抽取,最终将从两种文本中抽取出的信息转换为规范化数据以解决数据冲突从而实现数据集成。本文也将上述方法应用于针对网页中企业注册信息抽取的系统实现并进行相关实验,并对其抽取效果进行评估,.%,并且该方法信息抽取的当鹊ザ啦捎米杂晌谋净虬虢峁够本信息抽取方法都有了非常显著的提高。关键词:信息抽取,自由文本,半结构化文本,包装器归纳浙江大学硕士学位论文
瑆,狤,.%..—甀瑆.,·痵·瓼琣瑃...:,,浙江大学硕士学位论文,瑃
目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第滦髀邸璴课题背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文的组织⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第孪喙丶际醯难芯孔凼觥信息抽取介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯自由文本信息抽取技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯命名实体识别技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯虢峁够畔⒊槿〖际酢数据集成⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一第禄谧匀挥镅源淼淖杂晌谋拘畔⒊槿自由文本信息抽取实现概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一中文分词与词性标注⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一命名实体识别⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..语义规则的组成⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一自由文本抽取规则归纳⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第禄诎捌鞴槟傻陌虢峁够谋拘畔⒊槿包装器归纳方法概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一训练集标注⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一抽取规则设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..包装器归纳算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一第缕笠底⒉嵝畔⒊槿∠低成杓朴胧迪帧企业注册信息抽取系统框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..网页占网页段落筛选⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一数据语义集成⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一系统实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一实验结果与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⒊槿〗⒊槿〗峁敕治觥⋯.....⋯⋯....⋯.⋯..⋯⋯.......⋯⋯.⋯..⋯⋯.⋯.........⋯.⋯.......⋯⋯⋯⋯.....⋯.........

面向中文网页的信息抽取关键技术研究与实现 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数75
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wh7422
  • 文件大小0 KB
  • 时间2015-11-02