【论文阅读】Web Data Extraction Based On Visual Information

[论文阅读] web data extraction based on visual information and partial tree alignment

基础概念

DOMTree:未经渲染的HTML节点树,如图(a)所示。VBT(Visual Block Tree):网页的可视块树模型,如图(b)所示。

【论文阅读】Web Data Extraction Based On Visual Information

视觉特性:选择网站设计者最广泛使用的属性来定义结果页面的视觉外观,例如font-weight,font-size,text-align,vertical-align,color。(【译者】云中的猫:应该还需要包含一些关于大小的属性,比如width和height)视觉相似度:如果两个块的所有视觉特性相同,则A和B视觉上相似。

【论文阅读】Web Data Extraction Based On Visual Information

算法步骤

算法可分为四个步骤:

第一步:找到数据区域

数据区域:包含一组相似对象的描述的一组数据记录通常呈现在页面的连续区域中,该区域称为数据区域,比如图(a)中的b3。

通过以下公式来筛选出数据区域:

【论文阅读】Web Data Extraction Based On Visual Information

大致意思就是通过计算该区域占到整个区域的比值,获得一个关于数据区域的候选者列表(候选者对象可能不止一个,此时便选择area值最小的那一个,area值猜测为视觉区域的面积)。

第二步:在数据区域中识别记录

识别记录需要解决两个问题:

可能存在不属于数据区域中的任何数据记录的块,例如b3_1,b3_9,这些块称为噪声块。一个数据记录可以对应于可视块树中的一个或多个子树,并且一个数据记录包含的子树的总数不是固定的。作者使用了Jaccard相似性来识别数据区域的子块,然后重新组合这些块。

【论文阅读】Web Data Extraction Based On Visual Information

第三步:从这些记录中提取数据项并对齐相同语义的数据项

数据记录包含一些静态模板文本和标签,这些文本和标签不是由Web数据库生成的。这些文本或标签通常是数据的注释,例如书籍记录中的“价格:”提醒我们旁边的项目是书的价格。这些标签对Web数据注释很有用。数据记录可能包含一些可选数据项。例如,有些书有折扣价,有些则没有。

第四步:生成包装器

由于来自同一Web数据库的所有结果页面共享相同的可视化模板,因此一旦提取了结果页面上的数据记录和数据项,我们就可以使用这些提取的数据记录和数据项来生成Web数据库的提取包装器,以便可以使用包装器快速处理来自同一Web数据库的新结果页面,而无需重新应用整个提取过程。

聚类 Clustering

如果

【论文阅读】Web Data Extraction Based On Visual Information,则把a的两个子块i和j聚类在一起。

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

如公式所示,还是比较好理解的,作者通过节点间的视觉相似度,将Jaccard系数比较高的聚为同一类,否则分开,效果如下图所示。

小绿鲸英文文献阅读器 小绿鲸英文文献阅读器

英文文献阅读器,专注提高SCI阅读效率

小绿鲸英文文献阅读器 199 查看详情 小绿鲸英文文献阅读器

【论文阅读】Web Data Extraction Based On Visual Information

重组 Regroup

在前一步骤中获得的聚类不对应于数据记录。相反,同一簇中不是噪声块簇的块都来自不同的数据记录。

需要重新组合块,使得属于相同数据记录的块形成组。重组块的基本思想如下:据统计,在数据记录中的第一块总是必须的,例如ASB 3_2,B 3_4,B 3_7。这些块称为强制块。因此,包含必需块的集群具有最大数量; 设n是这个最大数。可能有多个群集包含n个块。作者的重组方法从左到右遍历数据区域的子块,以找到包含n个块的第一个簇外观。作者将此群集称为C max。C max中的每个块是一条记录的第一块。所以作者可以找到每个记录的第一个块。而且,两个相邻的强制块之间的块形成一个记录。第一个记录左侧的块是噪声块。但是,无法识别最后的记录边界,因为数据区域底部可能存在噪声阻塞。最后一条记录不在两个相邻的强制块之间。我们的方法记录每个记录的最后一个块所属的簇,写为R 簇。然后从右到左遍历数据区域的子块,以找到属于R 簇的块的第一次出现。该块是最后一条记录的最后一个块,最后一条记录右侧的块是噪声块。最后,确定每条记录。

数据项对齐

让每条记录对应成一个树,叶节点是数据项,因此需要用到树匹配技术。

【论文阅读】Web Data Extraction Based On Visual Information

简单的树匹配让T成为一棵树。n表示T的节点数.T [i]表示在树的前序遍历中第i树的节点。(M,T 1, T 2)是从T 1到T 2的映射M ,其中M是满足以下整数(i,j)的任何整数对集合:

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

中间关于不同节点的映射比较还是采用了Sim()方法。

部分树匹配

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

数据集和实验结果

数据集

该数据集由UIUC Web Integration Repoitory [16]提供,其中包含来自8个代表域的447个深度Web源的原始查询接口,这些域是机票,酒店,租赁,书籍,电影,音乐,工作和汽车。我们在每个域中选择5个域和4个接口。对于每个Web数据库,提交10个不同的查询并收集10个结果页面。

结果和比较

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

以上就是【论文阅读】Web Data Extraction Based On Visual Information的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/461582.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 03:42:50
下一篇 2025年11月8日 03:46:27

相关推荐

  • IIS服务器配置及网站发布

    asp.net运行环境的设置指南 首先,打开“开始”菜单,进入“控制面板”,然后选择“程序”或“程序和功能”,点击“打开或关闭Windows功能”;在弹出的窗口中,找到并勾选“Internet信息服务”,然后展开“Web管理工具”和“万维网服务”,确保选中“.Net扩展、ASP、ASP.NET、IS…

    2025年12月1日
    000
  • 关于软中断

    如转发 请标明出处! 经常有朋友提到软中断的问题… 说实话,我从事这行这么多年,还从未在VxWorks领域听过这个词,真是孤陋寡闻了。 查了一下资料,软中断应该是Linux的softirq吧,它的典型应用就是中断的bottom half。关于中断,这是嵌入式领域的一个关键词,每个操作系统…

    2025年11月29日 运维
    000
  • Web渗透环境

    学习web渗透的第一步是搭建适合的学习和实验环境。本文将详细介绍如何配置web渗透环境。 首先,需要在Windows电脑上安装虚拟机软件VMware。访问VMware的官方网站,下载VMware Workstation 16 Pro,下载链接为https://www.vmware.com/produ…

    2025年11月29日 运维
    000
  • WCF学习笔记 1

    wcf简要介绍 什么是WCF WCF全名:Windows Communication Foundation 是微软开发的一系列支持数据通信的应用程序框架。 是全新的Windows通讯开发平台。 老的Windows通讯开发平台有:WebService和.net Remoting等。 WCF是对这些技术…

    2025年11月27日 系统教程
    000
  • webmin纯web界面管理linux系统「建议收藏」

    大家好,又见面了,我是你们的朋友全栈君。今天我们来探讨从windows环境管理转向linux环境管理时所面临的挑战之一:学习使用新的工具。作为管理员,您希望深入了解操作系统的细节,以充分发挥其功能。然而,在学习阶段,您仍需完成具体的工作。为了加速您掌握linux的进程,我们将安装一个名为webmin…

    2025年11月27日 运维
    000
  • 分享几个纯净版Windows系统下载网站

    现在安装windows系统变得更加简单,不再需要光盘,只需一个装机工具就能轻松完成安装过程,无需任何电脑装机知识,只需遵循安装向导即可。然而,一些u盘装机工具因为没有提供镜像文件,用户不得不自行在网上寻找和下载,这过程中容易遇到捆绑网站的“陷阱”。 在此,我向大家推荐几个我平时使用的操作系统下载网站…

    2025年11月26日 系统教程
    000
  • 旧金山国际机场遭网络攻击,黑客窃取Windows用户凭据

    上周五,旧金山国际机场(sfo)公开了其两个网站遭遇网络攻击的事件,导致用户的windows登录凭据被黑客窃取。目前,sfo已通过数据泄露声明的通知,提醒受影响的用户更改windows密码。 此次网络攻击发生在2020年3月,攻击目标是SFOConnect.com和SFOConstruction.c…

    2025年11月26日 系统教程
    000
  • 「docker实战篇」python的docker爬虫技术-fiddler抓包工具(三)

    在本文中,我们将详细探讨三款app抓包工具的对比,并深入介绍fiddler的功能和使用方法。 对比三款APP抓包工具 软件名称 支持的操作系统 使用平台 调试难易程度 软件功能程度 fiddlerWindows/Linux/Mac网页端,APP端一般多mitmproxyWindows/Mac/Lin…

    2025年11月26日 系统教程
    100
  • Windows 11彻底禁用IE浏览器,网银系统,政府网站如何兼容Chrome和Firefox等浏览器?

    历史背景 近期微软宣布了一项重大决定:自2022年6月15日起,Windows系统将不再支持IE浏览器,而即将推出的Windows 11也将完全禁用IE浏览器。 许多年份较早开发的老网站,如银行、学校和政府机构等,为了兼容IE浏览器,采用了基于ActiveX控件开发的众多插件和控件。一旦Window…

    2025年11月24日
    000
  • WebRender:让网页渲染如丝顺滑

    firefox quantum 发布在即。它带来了许多性能改进,包括从 servo 引入的的极速 css 引擎。 但 Servo 中的很大一块技术尚未被 Firefox Quantum 引入,虽然已经为期不远。这就是WebRender,它是 Quantum Render 项目的一部分,正被添加到 F…

    2025年11月10日 系统教程
    100
  • 在微软官方网站”满速”下载Windows10最新系统镜像方法。

    在微软官方网站上获取windows 10最新系统镜像的方法并不直接,因为默认的下载页面只提供了升级工具和媒体创建工具的下载。要想直接获取系统镜像文件,你需要先下载媒体创建工具,然后通过这个工具来下载win10的镜像文件。 然而,通过修改浏览器的UA字符串,你可以在浏览器中直接获取最新Win10系统的…

    2025年11月10日 系统教程
    000
  • 利用Webman实现网站的图像优化和处理

    利用Webman实现网站的图像优化和处理 在现如今的互联网时代,图像在网页中的应用已经变得越来越重要。无论是美观性还是页面加载速度,都与图像的优化和处理密不可分。本文将介绍如何利用Webman这个强大的工具来实现网站的图像优化和处理,以提升用户体验和页面性能。 Webman是一个基于Python的图…

    2025年11月10日 PHP框架
    100
  • 如何为自己的 GPT 输入数据?

    有时候我们看到一篇好的资料时,需要GPT根据资料内容做出核心总结,但你会发现,当你复制整个资料给它时,就会出现以下错误 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 因为3.5的输入框只能输入2000字左右,4.0的在2600字,这时候如何…

    2025年11月9日 科技
    100
  • 科技初创公司可能陷入的人工智能内容陷阱

    愿意创业的开发者可能无法抗拒将内容生成委托给人工智能的诱惑。这不是个好主意,这就是原因。 随着我们继续见证一场技术革命,人工智能工具在各个领域似乎变得必不可少。在科技初创公司的世界里,许多程序员、软件开发人员和其他人才都希望成长为独立的企业家,人工智能内容席卷了整个行业,改变了企业传达信息和与客户互…

    2025年11月9日
    000
  • 程序员问答平台 Stack Overflow 版主罢工,抗议公司允许 AI 生成内容涌入网站

    6 月 7 日消息,stack overflow 是一个由 stack exchange 运营的知名软件开发者论坛,用户可以在上面提问和回答各种编程问题。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 版主们在一封公开信中写道:“Stack…

    2025年11月9日 科技
    000
  • 97 条 Linux 运维工程师常用命令总结

    ​ 1、ls 选项目录名 | 列出相关目录下的所有目录和文件 -a 列出包括.a开头的隐藏文件的所有文件 -A 通-a,但不列出”.”和”..” -l 列出文件的详细信息 -c 根据ctime排序显示 -t 根据文件修改时间排序 —colo…

    2025年11月8日 运维
    100
  • 看完这篇项目设计规约!你应该就能构建良好的工程结构了

    在应用分层架构中,上层依赖下层是默认的设计原则,箭头关系表示直接依赖关系。例如,开放接口层可以直接依赖于web层,也可以直接依赖于service层。以下是对各个层的详细描述和异常处理、领域模型、二方库依赖、服务器规约等方面的规约: 应用分层架构: 开放接口层: 可以直接封装Service方法暴露成R…

    2025年11月8日 运维
    000
  • 一个新视角:前端框架们都卷错方向了?

    大家好,我是卡颂。 近年来,前端领域涌现了许多新框架,如Svelte、Solid.js、Astro、Qwik等。伴随这些框架的出现,还出现了许多高端的新概念,如「运行时/编译时框架」、「Islands架构」、「Selective Hydration」等。这些概念的核心目标是「通过各种方式,让页面加载…

    2025年11月7日 系统教程
    000
  • Webots和ROS的使用说明(译)

    具体使用教程: https://www.php.cn/link/59e29dc7066b5a6fcf68b48e6dd67347https://www.php.cn/link/59e29dc7066b5a6fcf68b48e6dd67347/Tutorialssudo apt install ros…

    2025年11月7日 系统教程
    000
  • 如何使用 PHP 函数扩展构建动态网站?

    可通过使用 php 函数扩展来创建动态网站,提升用户体验。例如,通过创建自定义函数对数据进行分页(如博客帖子),确保当前页码有效,并显示页码导航,从而增强网站的交互性。 使用 PHP 函数扩展构建动态网站 前言:PHP 函数扩展是一种强大的机制,它允许开发人员扩展 PHP 的功能,并创建自定义函数以…

    2025年11月7日 后端开发
    100

发表回复

登录后才能评论
关注微信