
本文旨在解决使用beautifulsoup进行网页抓取时遇到的空列表问题。我们将深入分析导致空列表的常见原因,特别是选择器不准确和代码结构不合理。教程将演示如何通过采用更精确的css选择器和优化迭代逻辑来构建健壮的抓取脚本,确保数据能够被正确提取,避免常见的抓取失败。
网页抓取中的常见挑战:空列表问题
在使用BeautifulSoup进行网页内容抓取时,开发者常常会遇到一个令人困惑的问题:尽管目标网页内容清晰可见,但抓取结果却是一个空列表。这通常意味着我们的抓取逻辑未能成功定位并提取到预期的HTML元素。空列表的出现,往往是由于选择器不准确、HTML结构理解有误或代码迭代方式存在缺陷所致。
以下是一个可能导致空列表的初始抓取尝试示例:
import requestsfrom bs4 import BeautifulSoupurl = 'https://inshorts.com/en/read/technology'news_data = []news_category = url.split('/')[-1]headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}data = requests.get(url, headers=headers)if data.status_code == 200: soup = BeautifulSoup(data.content, 'html.parser') # 尝试查找标题和文章内容 headlines = soup.find('div', class_=['news-card-title', 'news-right-box']) articles = soup.find('div', class_=['news-card-content', 'news-right-box']) # 检查并尝试组合数据 if headlines and articles and len(headlines) == len(articles): # 此处会出错 news_articles = [ { 'news_headline': headline.find_all('span', attrs={'itemprop': 'headline'}).string, 'news_article': article.find_all('div', attrs={'itemprop': 'articleBody'}).string, 'news_category': news_category } for headline, article in zip(headlines, articles) ] news_data.extend(news_articles)print(news_data) # 输出结果为空列表
深入分析原始代码的问题所在
上述代码之所以会输出空列表,主要原因在于对BeautifulSoup的find()方法及其返回值的理解和使用存在偏差,以及后续逻辑的结构性问题:
find() 方法的局限性: soup.find() 方法只会返回第一个匹配的Tag对象,如果没有找到任何匹配项,则返回 None。在示例中,headlines 和 articles 变量很可能因为选择器不准确或目标元素不存在而直接被赋值为 None。NoneType 对象的处理: 如果 headlines 或 articles 变量为 None,那么 if headlines and articles 条件就会失败,导致后续的代码块不执行。即使它们成功找到了一个 Tag 对象,len(headlines) 这样的操作也会引发 TypeError,因为 Tag 对象没有 len() 方法。迭代逻辑的缺陷: zip(headlines, articles) 期望 headlines 和 articles 都是可迭代的序列(如列表)。但由于 find() 返回的是单个 Tag 对象或 None,而不是一个包含多个 Tag 对象的列表,这种 zip 操作是无法按预期工作的。即使 headlines 和 articles 都是单个 Tag 对象,zip 也只会迭代一次,且后续的 find_all().string 操作也可能因 None 或找不到子元素而失败。文本提取方式: 使用 .string 属性来提取文本内容在某些情况下可能会返回 None,特别是当标签包含子标签或混合内容时。更稳健的方法是使用 get_text()。
优化策略:使用CSS选择器精准定位元素
为了解决上述问题并实现可靠的网页抓取,我们可以采用以下优化策略:
小绿鲸英文文献阅读器
英文文献阅读器,专注提高SCI阅读效率
437 查看详情
使用CSS选择器: CSS选择器提供了更强大、更灵活的方式来定位HTML元素。BeautifulSoup通过 soup.select()(返回所有匹配的元素列表)和 soup.select_one()(返回第一个匹配的元素)支持CSS选择器。定位父级容器: 识别包含所有目标信息(如新闻标题、文章内容)的共同父级HTML元素。这样,我们只需迭代这些父级容器,并在每个容器内部提取所需的数据。这大大简化了逻辑,并提高了代码的健壮性。统一迭代逻辑: 避免对多个独立的元素列表进行 zip 操作,而是通过迭代父级容器,在其内部直接查找子元素。使用 get_text() 提取文本: get_text() 方法能够递归地提取一个标签内所有文本内容,并将其拼接成一个字符串,比 .string 更具鲁棒性。
下面是基于这些优化策略的改进代码示例:
import requestsfrom bs4 import BeautifulSoupurl = 'https://inshorts.com/en/read/technology'news_data = []news_category = url.split('/')[-1]headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}data = requests.get(url, headers=headers)if data.status_code == 200: soup = BeautifulSoup(data.content, 'html.parser') # 使用CSS选择器定位所有新闻文章的父级容器 # 这里的'[itemtype="http://schema.org/NewsArticle"]'是一个非常精确的选择器 # 它匹配所有具有指定itemtype属性的元素,通常代表一个独立的内容块 for article_container in soup.select('[itemtype="http://schema.org/NewsArticle"]'): # 在每个文章容器内部,使用select_one()定位标题和文章主体 headline_element = article_container.select_one('[itemprop="headline"]') article_body_element = article_container.select_one('[itemprop="articleBody"]') # 检查元素是否存在,并使用get_text()提取内容 news_headline = headline_element.get_text(strip=True) if headline_element else "N/A" news_article = article_body_element.get_text(strip=True) if article_body_element else "N/A" news_data.append( { 'news_headline': news_headline, 'news_article': news_article, 'news_category': news_category } )print(news_data) # 将输出包含数据的列表
关键改进点与最佳实践
选择器精度至关重要: 示例中使用了 [itemtype=”http://schema.org/NewsArticle”] 这样的属性选择器,它通常比简单的类名或标签名更具唯一性和稳定性。在实际抓取中,务必花时间检查目标网站的HTML结构,找到最能代表目标内容的独特标识符(如 id、独特的 class 组合、自定义属性等)。迭代逻辑的鲁棒性: 通过首先定位包含单个完整数据记录的父级元素(如 article_container),然后遍历这些父级元素,并在每个父级元素内部查找其子元素,可以极大地增强代码的鲁棒性。这种“先大后小”的策略避免了多个独立列表之间长度不匹配或元素顺序错乱的问题。select() 与 select_one() 的选择:soup.select(‘CSS选择器’):返回所有匹配的元素列表,适用于需要获取多个相同类型元素的情况。element.select_one(‘CSS选择器’):返回第一个匹配的元素,如果没有找到则返回 None。适用于在已知父元素内查找唯一的子元素。get_text() 的应用: 始终优先使用 get_text(strip=True) 来提取文本内容。strip=True 参数可以自动去除文本两端的空白字符,使得提取的数据更干净。相比之下,.string 属性在标签内包含其他标签时会返回 None,不够灵活。空值处理: 在提取 headline_element 和 article_body_element 后,增加了 if headline_element else “N/A” 这样的判断,这是良好的编程习惯。即使选择器通常很准确,也应考虑到某些元素可能偶尔缺失的情况,避免程序因 NoneType 错误而崩溃。User-Agent 设置: 在 headers 中设置 User-Agent 是一个良好的实践,可以模拟浏览器请求,减少被网站识别为爬虫的风险,从而避免被阻止访问。
总结
当使用BeautifulSoup进行网页抓取时遇到空列表,通常是由于HTML元素选择器不够精确或数据迭代逻辑存在缺陷。通过深入理解目标网页的HTML结构,并利用强大的CSS选择器(如属性选择器)来精准定位包含完整数据记录的父级容器,然后在其内部安全地提取子元素,可以构建出高效且健壮的网页抓取脚本。同时,采用 get_text() 进行文本提取和适当的空值处理,将进一步提升代码的可靠性,确保数据能够被成功抓取。
以上就是BeautifulSoup网页抓取指南:避免空列表的常见陷阱与最佳实践的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/920895.html
微信扫一扫
支付宝扫一扫