提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本。实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%。本算法对于包含过多短文本的网页抽取的准确度还有待提高。 标签的属性值放置在引号中有字符必须为英文字符<不能省略结束标签解析DOM树通过标签属性对,将获取的HTML文档解析为一颗以html为根节点的DOM树,现以图1所示网页为例,解析后生成的DOM树结构如图2所示。图1网页样例图Fi树结构图F降噪处理初步构建好的DOM树分支多,其中大量分支放置着无意义内容,如脚本信息、链接广告等。这样的树若是不拓展设置降噪环节,不但会将之后正文抽取的工作复杂化,还会在一定程度上降低抽取的效率和精确度信息抽取方法-数控滚圆机滚弧机张家港电动液压滚圆机滚弧机折弯机倒角机。信息抽取方法-数控滚圆机滚弧机张家港电动液压滚圆机滚弧机折弯机倒角机本文用视觉特征和标签过滤的方法对网页做降噪处理,对通常不含正文文本内容的标签做剪枝处理,得到一个简洁的DOM树。这里将给出研究分述如下。1.2.1视觉特征降噪经比对多个网页发现,大量的网页布局基本类似,都由h个区域中的任意几个构成,其中97%的网页均含有head、foot区域,right、left区域选择性拥有。以图1为例,对应的区域结构则如图3所示。参阅文献[10]所示,本文由公司网站滚圆机网站采集转载中国知网资源整理!www.gunyuanj
- [2019-08-06]传感器优化设计-液压电动滚圆机
- [2019-08-06]界面自组装-数控滚圆机滚弧机电
- [2019-08-06]澄清效果的影响-数控滚圆机滚弧
- [2019-08-05]刚度的解析公式-数控滚圆机滚弧
- [2019-08-05]制备及缓释性能-数控滚圆机滚弧
- [2019-08-05]组振动建模研究-数控滚圆机滚弧
- [2019-08-04]模型的风电功率预测-数控滚圆机
- [2019-08-04]最大准入容量计算-数控滚圆机滚
- [2019-08-03]传输电缆建模研究-数控滚圆机滚
- [2019-08-03]风电网损及运行-数控滚圆机滚弧