信息抽取方法-数控滚圆机滚弧机张家港电动液压滚圆机滚弧机折弯
作者:lujianjun | 来源:欧科机械 | 发布时间:2019-06-17 10:08 | 浏览次数:

提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本。实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%。本算法对于包含过多短文本的网页抽取的准确度还有待提高。 标签的属性值放置在引号中有字符必须为英文字符<不能省略结束标签解析DOM树通过标签属性对,将获取的HTML文档解析为一颗以html为根节点的DOM树,现以图1所示网页为例,解析后生成的DOM树结构如图2所示。图1网页样例图Fi树结构图F降噪处理初步构建好的DOM树分支多,其中大量分支放置着无意义内容,如脚本信息、链接广告等。这样的树若是不拓展设置降噪环节,不但会将之后正文抽取的工作复杂化,还会在一定程度上降低抽取的效率和精确度信息抽取方法-数控滚圆机滚弧机张家港电动液压滚圆机滚弧机折弯机倒角机。信息抽取方法-数控滚圆机滚弧机张家港电动液压滚圆机滚弧机折弯机倒角机本文用视觉特征和标签过滤的方法对网页做降噪处理,对通常不含正文文本内容的标签做剪枝处理,得到一个简洁的DOM树。这里将给出研究分述如下。1.2.1视觉特征降噪经比对多个网页发现,大量的网页布局基本类似,都由h个区域中的任意几个构成,其中97%的网页均含有head、foot区域,right、left区域选择性拥有。以图1为例,对应的区域结构则如图3所示。参阅文献[10]所示,本文由公司网站滚圆机网站采集转载中国知网资源整理!www.gunyuanji.name依据其中提出的可视布局去除网页噪音的算法,去除网页中的head,foot区域。设计得到步骤如下:1)显示已解析的DOM树,由此获取网页实际大校2)由网页的实际大小分别得出上、下边界的阈值,相应记为top、lower。3)将网页内除body标签外的所有元素取?对区域进行划分,去除head、foot区域,实现初步噪音处理。未去除的元素均暂时作为正文。图3网页区域结构图Fig标签过滤在初步获取的正文文本中,可能包含right、left区域,这些区域中的元素都作为正文包含其中,需要通过标签过滤的方式再次去除网页噪音。这里的标签过滤分为2种,一种是过滤不含正文的标签,另一种是通过链接密度过滤正文中难以识别的超链接。网页中的标签大体可分为2类,一类是构建网页框架,显示正文文本的有用标签,一类是用来修饰网页使其美观的无用标签。本文的目的是抽取正文信息,因此需删去DOM树上的无用标签,如:script和hidden的标签及其内容,文本样式修饰标签<style>,文本格式修饰标签<b>、<i>、<strong>、<u>、<em>等。只保留可能包含正文的有用标签<等。在过滤无用标签时能够过滤掉一部分具有明显标签的链接,但如果在正文文本的一行中超链接长度所占比率较大,以上方法则无法准确识别,还需通过链接密度进行判断。这里的链接不仅包括广告链接和正文内容中的某些链接,还包括图片链接等多种广义上的链接。使用链接密度除噪的方法需统计出树中的纯文本数量,记作NumText,每个节点下的纯文本数量,记作note.NumText,每个节点下的链接数量,记作link.NumText。计算链接密度D,D为节点下链接数量与纯文本数量的比值。数学公式可表述如下:D1)由公式(1)得到,密度值越大,信息抽取方法-数控滚圆机滚弧机张家港电动液压滚圆机滚弧机折弯机倒角机本文由公司网站滚圆机网站采集转载中国知网资源整理!www.gunyuanji.name