
本文档旨在指导开发者如何使用Jsoup库从HTML页面中提取特定菜单组下的食谱数据。我们将详细介绍如何通过查找包含目标菜单标题的卡片,并利用其data-target属性来定位和提取相应的row recipe_container div元素。通过本文的学习,你将能够有效地从复杂的HTML结构中提取所需的信息。
使用Jsoup提取特定菜单组的食谱数据
在Web数据抓取中,经常会遇到需要从复杂的HTML结构中提取特定信息的情况。本教程将以提取特定菜单组的食谱数据为例,介绍如何使用Jsoup库实现这一目标。
目标: 从包含多个菜单组的HTML页面中,提取指定菜单组(例如 “Freshen’s”)下的所有食谱数据。
HTML结构:
假设HTML结构如下:
每个菜单组都包含在一个card元素中,其标题位于card-header中,而食谱数据则位于card-body下的row recipe_container div元素中。
Jsoup代码示例:
以下Java代码演示了如何使用Jsoup提取特定菜单组的食谱数据:
import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;import java.io.IOException;public class JsoupExample { public static void main(String[] args) throws IOException { String pageUrl = "your_page_url_here"; // 替换为你的页面URL String inputMenuHeading = "Freshen's"; // 1. 连接到页面并获取Document对象 Document doc = Jsoup.connect(pageUrl).get(); // 2. 查找包含目标菜单标题的card-header元素,并获取其data-target属性值 String targetId = doc.select("[class=card-header][id*=menu_group_heading]") .stream() .filter(e -> e.html().contains(inputMenuHeading)) .findFirst() .map(e -> e.select("a").attr("data-target")) .orElse(null); if (targetId != null) { // 3. 使用data-target属性值作为ID选择器,找到对应的card-body元素,并提取其中的row recipe_container元素 Elements recipeContainers = doc.select(String.format("%s .row.recipe_container", targetId)); // 4. 打印或处理提取到的食谱数据 System.out.println("Recipe data for " + inputMenuHeading + ":"); for (Element recipeContainer : recipeContainers) { System.out.println(recipeContainer.html()); // 打印每个recipe_container的内容 // 或者进行其他处理,例如提取特定字段 } } else { System.out.println("Menu heading '" + inputMenuHeading + "' not found."); } }}
代码解释:
连接到页面并获取Document对象: 使用Jsoup.connect(pageUrl).get()连接到目标页面,并将HTML内容解析为Document对象。查找包含目标菜单标题的card-header元素: 使用doc.select(“[class=card-header][id*=menu_group_heading]”)选择所有class为card-header并且id包含menu_group_heading的元素。 然后使用stream().filter(e -> e.html().contains(inputMenuHeading))过滤出包含目标菜单标题的元素。 findFirst().map(e -> e.select(“a”).attr(“data-target”))获取第一个匹配元素的 a 标签的 data-target 属性值。 orElse(null) 如果没有找到匹配的元素,则返回 null。提取食谱数据: 使用doc.select(String.format(“%s .row.recipe_container”, targetId))选择id为targetId的元素下的所有class同时包含row和recipe_container的元素。打印或处理提取到的食谱数据: 遍历提取到的recipeContainers,并打印或进行其他处理。
注意事项:
替换your_page_url_here为实际的页面URL。确保Jsoup库已添加到你的项目中。如果目标页面结构发生变化,可能需要调整选择器。在实际应用中,应该添加适当的异常处理机制,以处理网络连接错误或页面解析错误。orElse(null) 确保在没有找到匹配的菜单标题时,程序不会抛出NoSuchElementException异常。
总结:
通过本教程,你学习了如何使用Jsoup库从复杂的HTML结构中提取特定菜单组的食谱数据。 这种方法可以应用于各种Web数据抓取场景,只需要根据实际的HTML结构调整选择器即可。 记住,理解HTML结构是成功提取数据的关键。 此外,在实际应用中,需要考虑异常处理、页面结构变化等因素,以确保程序的健壮性和可靠性。
以上就是使用Jsoup嵌套div ID列出特定范围的元素的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/117592.html
微信扫一扫
支付宝扫一扫