【论文阅读】Web Data Extraction Based On Visual Information

[论文阅读] web data extraction based on visual information and partial tree alignment

基础概念

DOMTree:未经渲染的HTML节点树,如图(a)所示。VBT(Visual Block Tree):网页的可视块树模型,如图(b)所示。

【论文阅读】Web Data Extraction Based On Visual Information

视觉特性:选择网站设计者最广泛使用的属性来定义结果页面的视觉外观,例如font-weight,font-size,text-align,vertical-align,color。(【译者】云中的猫:应该还需要包含一些关于大小的属性,比如width和height)视觉相似度:如果两个块的所有视觉特性相同,则A和B视觉上相似。

【论文阅读】Web Data Extraction Based On Visual Information

算法步骤

算法可分为四个步骤:

第一步:找到数据区域

数据区域:包含一组相似对象的描述的一组数据记录通常呈现在页面的连续区域中,该区域称为数据区域,比如图(a)中的b3。

通过以下公式来筛选出数据区域:

【论文阅读】Web Data Extraction Based On Visual Information

大致意思就是通过计算该区域占到整个区域的比值,获得一个关于数据区域的候选者列表(候选者对象可能不止一个,此时便选择area值最小的那一个,area值猜测为视觉区域的面积)。

第二步:在数据区域中识别记录

识别记录需要解决两个问题:

可能存在不属于数据区域中的任何数据记录的块,例如b3_1,b3_9,这些块称为噪声块。一个数据记录可以对应于可视块树中的一个或多个子树,并且一个数据记录包含的子树的总数不是固定的。作者使用了Jaccard相似性来识别数据区域的子块,然后重新组合这些块。

【论文阅读】Web Data Extraction Based On Visual Information

第三步:从这些记录中提取数据项并对齐相同语义的数据项

数据记录包含一些静态模板文本和标签,这些文本和标签不是由Web数据库生成的。这些文本或标签通常是数据的注释,例如书籍记录中的“价格:”提醒我们旁边的项目是书的价格。这些标签对Web数据注释很有用。数据记录可能包含一些可选数据项。例如,有些书有折扣价,有些则没有。

第四步:生成包装器

由于来自同一Web数据库的所有结果页面共享相同的可视化模板,因此一旦提取了结果页面上的数据记录和数据项,我们就可以使用这些提取的数据记录和数据项来生成Web数据库的提取包装器,以便可以使用包装器快速处理来自同一Web数据库的新结果页面,而无需重新应用整个提取过程。

聚类 Clustering

如果

【论文阅读】Web Data Extraction Based On Visual Information,则把a的两个子块i和j聚类在一起。

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

如公式所示,还是比较好理解的,作者通过节点间的视觉相似度,将Jaccard系数比较高的聚为同一类,否则分开,效果如下图所示。

小绿鲸英文文献阅读器 小绿鲸英文文献阅读器

英文文献阅读器,专注提高SCI阅读效率

小绿鲸英文文献阅读器 199 查看详情 小绿鲸英文文献阅读器

【论文阅读】Web Data Extraction Based On Visual Information

重组 Regroup

在前一步骤中获得的聚类不对应于数据记录。相反,同一簇中不是噪声块簇的块都来自不同的数据记录。

需要重新组合块,使得属于相同数据记录的块形成组。重组块的基本思想如下:据统计,在数据记录中的第一块总是必须的,例如ASB 3_2,B 3_4,B 3_7。这些块称为强制块。因此,包含必需块的集群具有最大数量; 设n是这个最大数。可能有多个群集包含n个块。作者的重组方法从左到右遍历数据区域的子块,以找到包含n个块的第一个簇外观。作者将此群集称为C max。C max中的每个块是一条记录的第一块。所以作者可以找到每个记录的第一个块。而且,两个相邻的强制块之间的块形成一个记录。第一个记录左侧的块是噪声块。但是,无法识别最后的记录边界,因为数据区域底部可能存在噪声阻塞。最后一条记录不在两个相邻的强制块之间。我们的方法记录每个记录的最后一个块所属的簇,写为R 簇。然后从右到左遍历数据区域的子块,以找到属于R 簇的块的第一次出现。该块是最后一条记录的最后一个块,最后一条记录右侧的块是噪声块。最后,确定每条记录。

数据项对齐

让每条记录对应成一个树,叶节点是数据项,因此需要用到树匹配技术。

【论文阅读】Web Data Extraction Based On Visual Information

简单的树匹配让T成为一棵树。n表示T的节点数.T [i]表示在树的前序遍历中第i树的节点。(M,T 1, T 2)是从T 1到T 2的映射M ,其中M是满足以下整数(i,j)的任何整数对集合:

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

中间关于不同节点的映射比较还是采用了Sim()方法。

部分树匹配

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

数据集和实验结果

数据集

该数据集由UIUC Web Integration Repoitory [16]提供,其中包含来自8个代表域的447个深度Web源的原始查询接口,这些域是机票,酒店,租赁,书籍,电影,音乐,工作和汽车。我们在每个域中选择5个域和4个接口。对于每个Web数据库,提交10个不同的查询并收集10个结果页面。

结果和比较

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

以上就是【论文阅读】Web Data Extraction Based On Visual Information的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/461582.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 03:42:50
下一篇 2025年11月8日 03:46:27

相关推荐

  • 使用CSS Flexbox构建网站标题

    在 CSS3 没有普及的时候,创建一个网站 header 是一项既可怕又困难的任务 ?。那时,Flexbox 还是个新东西,我们不得不使用老方法,比如 float和clearfix技术。今天,情况完全不同了,Flexbox 得到了广泛的支持,大大的减少了我们的开发工作,同时也为我们提供了更多的可能性…

    2025年12月24日 好文分享
    000
  • 用CSS实现网站变黑白色

    这篇文章主要介绍了关于用css实现网站变黑白色,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 以下为全站CSS代码.  html { filter:progid:DXImageTransform.Microsoft.BasicImage(grayscale=1); } 使用方法:这段…

    好文分享 2025年12月24日
    000
  • 网站内容防复制:CSS与JavaScript的高级策略与局限性

    本文深入探讨了在网站上禁用内容复制和粘贴的有效策略,包括使用CSS的user-select: none属性和JavaScript的事件监听器来阻止默认行为。文章详细解释了这些方法的实现方式及其相较于传统JavaScript禁用右键的优势,并澄清了关于“粘贴随机文本”的常见误解。同时,文章也强调了客户…

    2025年12月23日
    000
  • 优化网站性能的关键技巧

    网站性能优化部分有哪些技巧,需要具体代码示例 随着互联网的发展,网站已经成为了人们获取信息、进行交流和实现商业目标的重要工具。然而,随着网站使用人数的增加和功能的扩展,网站性能问题也日益凸显。一个性能低下的网站不仅影响用户体验,还可能导致用户流失和交易失败,因此网站性能优化成为了开发者必须面对的重要…

    2025年12月22日
    000
  • 提高网站性能的关键步骤和工具

    网站性能优化的必备步骤与工具 随着互联网的快速发展,越来越多的企业将自己的业务线上化,不仅可以拓展更广阔的市场,还可以提升业务的效率。然而,在线上运营的过程中,网站性能的优化成为了每个企业都必须面对的问题。一个优秀的网站性能可以提升用户体验,增加用户转化率,从而提升业务的收入。本文将从必备步骤和工具…

    2025年12月22日
    000
  • 提升网站性能的关键指南:从速度到用户体验,让你的网站更上一层楼!

    网站性能优化的必备指南:从速度到体验,让你的网站更上一层楼! 随着互联网的快速发展,网站已经成为企业宣传、产品展示、线上销售的重要渠道。然而,随着用户对网站速度和体验要求的提升,一个高性能的网站已经成为吸引用户和保留用户的关键之一。本文将为你提供一份网站性能优化的必备指南,从速度到体验,帮助你的网站…

    2025年12月22日
    000
  • 提升网站性能的重要性与方法论

    网站性能优化的必要性与方法论 随着互联网的发展,网站已成为人们获取信息和进行各类在线交流的主要途径之一。然而,很多网站在面对高访问量和复杂的业务场景时表现不佳,导致用户体验差、页面加载缓慢等问题,影响了用户对网站的满意度和忠诚度。因此,对于网站来说,性能优化是一项必要且关键的工作。 首先,让我们一起…

    2025年12月21日
    000
  • 通过响应式布局提升网站用户体验的方法

    如何利用响应式布局提升网站用户体验 随着移动设备的普及和网络技术的不断发展,越来越多的用户选择使用移动设备访问网站,而不再局限于传统的电脑浏览器。在这个时代,网站的用户体验关系到用户留存和转化率,因此,网站的适应性和响应性成为了至关重要的因素之一。而响应式布局(Responsive Web Desi…

    2025年12月21日
    000
  • 美化网站顶级页面链接按钮:使用get_pages()方法

    如果您按照我之前的教程进行操作,现在您的网站上将会有一个主题(或子主题),其中包含指向网站标题中的顶级页面的链接。 我创建了一个 26 的子主题,这就是我的链接现在的样子: 在本教程中,我将向您展示如何向您的主题添加一些 CSS,以使这些链接更好一些。让我们从删除项目符号并添加浮动开始。 删除项目符…

    2025年12月21日 好文分享
    000
  • 如何利用C++实现一个简单的网站访问统计程序?

    随着互联网的迅速发展,越来越多的网站开始关注网站访问数据的统计,并将这些数据用于网站的优化和改进。因此,开发一个简单的网站访问统计程序对于网站管理者来说非常有用。而其中一个实现这一目标的可能性是通过使用C++,该语言可以帮助您以更高效的方式获取和处理数据。 以下是如何实现一个简单的网站访问统计程序的…

    2025年12月17日
    000
  • Linux环境中基于Python脚本实现监控网站可用性的技术

    Linux环境中基于Python脚本实现监控网站可用性的技术 摘要:本文介绍了如何在Linux环境中使用Python脚本来监控网站的可用性。具体包括通过发送HTTP请求和解析响应来检测网站是否可访问,以及如何将该监控脚本配置为定时任务并发送报警邮件。 简介随着互联网的发展,网站可用性成为了一个至关重…

    2025年12月13日
    000
  • 拒绝由于信息差亏钱,这5个币圈必备网站请收藏!

    CoinMarketCap提供全球加密货币数据,支持价格监控与资讯获取;2. CoinGecko强调去中心化与多维评估,助力项目潜力分析;3. TradingView集成实时行情与技术工具,满足专业图表分析需求;4. Dune Analytics通过SQL查询链上数据,实现深度业务洞察;5. Def…

    2025年12月11日
    100
  • 如何使用 PHP 函数扩展构建动态网站?

    可通过使用 php 函数扩展来创建动态网站,提升用户体验。例如,通过创建自定义函数对数据进行分页(如博客帖子),确保当前页码有效,并显示页码导航,从而增强网站的交互性。 使用 PHP 函数扩展构建动态网站 前言:PHP 函数扩展是一种强大的机制,它允许开发人员扩展 PHP 的功能,并创建自定义函数以…

    2025年12月9日
    000
  • IIS服务器配置及网站发布

    asp.net运行环境的设置指南 首先,打开“开始”菜单,进入“控制面板”,然后选择“程序”或“程序和功能”,点击“打开或关闭Windows功能”;在弹出的窗口中,找到并勾选“Internet信息服务”,然后展开“Web管理工具”和“万维网服务”,确保选中“.Net扩展、ASP、ASP.NET、IS…

    2025年12月1日
    000
  • 关于软中断

    如转发 请标明出处! 经常有朋友提到软中断的问题… 说实话,我从事这行这么多年,还从未在VxWorks领域听过这个词,真是孤陋寡闻了。 查了一下资料,软中断应该是Linux的softirq吧,它的典型应用就是中断的bottom half。关于中断,这是嵌入式领域的一个关键词,每个操作系统…

    2025年11月29日 运维
    000
  • Web渗透环境

    学习web渗透的第一步是搭建适合的学习和实验环境。本文将详细介绍如何配置web渗透环境。 首先,需要在Windows电脑上安装虚拟机软件VMware。访问VMware的官方网站,下载VMware Workstation 16 Pro,下载链接为https://www.vmware.com/produ…

    2025年11月29日 运维
    000
  • WCF学习笔记 1

    wcf简要介绍 什么是WCF WCF全名:Windows Communication Foundation 是微软开发的一系列支持数据通信的应用程序框架。 是全新的Windows通讯开发平台。 老的Windows通讯开发平台有:WebService和.net Remoting等。 WCF是对这些技术…

    2025年11月27日 系统教程
    000
  • webmin纯web界面管理linux系统「建议收藏」

    大家好,又见面了,我是你们的朋友全栈君。今天我们来探讨从windows环境管理转向linux环境管理时所面临的挑战之一:学习使用新的工具。作为管理员,您希望深入了解操作系统的细节,以充分发挥其功能。然而,在学习阶段,您仍需完成具体的工作。为了加速您掌握linux的进程,我们将安装一个名为webmin…

    2025年11月27日 运维
    100
  • 分享几个纯净版Windows系统下载网站

    现在安装windows系统变得更加简单,不再需要光盘,只需一个装机工具就能轻松完成安装过程,无需任何电脑装机知识,只需遵循安装向导即可。然而,一些u盘装机工具因为没有提供镜像文件,用户不得不自行在网上寻找和下载,这过程中容易遇到捆绑网站的“陷阱”。 在此,我向大家推荐几个我平时使用的操作系统下载网站…

    2025年11月26日 系统教程
    100
  • 旧金山国际机场遭网络攻击,黑客窃取Windows用户凭据

    上周五,旧金山国际机场(sfo)公开了其两个网站遭遇网络攻击的事件,导致用户的windows登录凭据被黑客窃取。目前,sfo已通过数据泄露声明的通知,提醒受影响的用户更改windows密码。 此次网络攻击发生在2020年3月,攻击目标是SFOConnect.com和SFOConstruction.c…

    2025年11月26日 系统教程
    000

发表回复

登录后才能评论
关注微信