
本教程详细介绍了如何利用Python和Selenium库从Google地图抓取商家(如花园)的评分和评论数量。文章将涵盖Selenium环境配置、搜索查询、处理无限滚动加载以及最关键的动态网页元素定位策略,特别是针对Google地图中评分和评论等信息的正确XPath定位方法,以克服常见的抓取挑战,并提供完整的示例代码和实践建议。
1. 环境准备与Selenium基础配置
在开始之前,请确保您的Python环境中已安装Selenium库,并下载与您的Chrome浏览器版本兼容的ChromeDriver。
pip install selenium
然后,我们需要初始化WebDriver并配置一些基本选项,例如保持浏览器开启状态(detach=True)以便观察自动化过程,并设置显式等待(WebDriverWait)以提高脚本的健壮性。
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.support.ui import WebDriverWaitimport time# 配置Chrome选项,保持浏览器开启chrome_options = Options()chrome_options.add_experimental_option("detach", True)# 初始化WebDriverdriver = webdriver.Chrome(options=chrome_options)# 初始化ActionChains用于模拟用户操作,如滚动actionChains = ActionChains(driver)# 初始化WebDriverWait用于显式等待元素wait = WebDriverWait(driver, 20)
2. 导航与搜索操作
首先,我们需要导航到Google地图并执行搜索。为了确保页面加载完全,我们会在关键步骤后加入适当的延时或显式等待。
# 访问Google主页并接受cookie(如果出现)driver.get("https://www.google.com/")try: # 尝试点击接受cookie按钮,可能因页面语言或版本不同而异 wait.until(EC.element_to_be_clickable((By.ID, "L2AGLb"))).click()except: pass # 如果没有找到按钮或不需要点击,则跳过# 访问Google地图driver.get("https://www.google.com/maps")# 等待搜索框加载并输入查询time.sleep(3) # 简单等待,可以替换为更健壮的显式等待search_box = wait.until(EC.presence_of_element_located((By.ID, "searchboxinput")))search_box.send_keys("jardins in toulouse")search_box.send_keys(Keys.RETURN)# 等待搜索结果加载time.sleep(5) # 简单等待,可以替换为显式等待特定元素出现
3. 处理无限滚动加载
Google地图的搜索结果通常采用无限滚动加载机制。为了获取尽可能多的结果,我们需要模拟用户滚动操作,直到无法加载更多内容为止。这里采用了一种巧妙的策略:滚动到列表底部元素,然后通过模拟键盘向下箭头键来触发更多加载,并判断最后一个元素是否变化来决定是否停止。
# 定义一个辅助函数,用于等待元素位置稳定# 这对于处理动态加载或动画效果的元素非常有用,确保元素在操作前不再移动def wait_for_element_location_to_be_stable(element): initial_location = element.location previous_location = initial_location start_time = time.time() while time.time() - start_time < 1: # 在1秒内位置没有变化则认为稳定 current_location = element.location if current_location != previous_location: previous_location = current_location start_time = time.time() # 位置变化,重置计时器 time.sleep(0.4) # 短暂等待,避免CPU空转# 定位搜索结果列表中的所有商家链接元素# 这些元素通常具有相同的class属性,如'hfpxzc'results = wait.until(EC.presence_of_all_elements_located((By.XPATH, "//a[@class='hfpxzc']")))break_condition = False# 定位一个可以接收键盘焦点的元素,通常是搜索框或某个输入框focus_element = driver.find_element(By.ID, 'searchboxinput') # 使用searchboxinput作为焦点元素while not break_condition: # 记录当前列表的最后一个元素,用于判断是否加载了新内容 temp = results[-1] # 滚动到当前列表的最后一个元素,确保其可见 actionChains.scroll_to_element(results[-1]).perform() # 将焦点移到某个元素(如搜索框)并点击,确保后续的键盘操作生效 actionChains.move_to_element(focus_element).click().perform() # 模拟按下几次向下箭头键,触发页面滚动和新内容加载 for i in range(3): actionChains.send_keys(Keys.ARROW_DOWN).perform() time.sleep(0.5) # 短暂等待,给页面加载时间 # 等待最后一个元素的位置稳定,确保页面渲染完成 wait_for_element_location_to_be_stable(temp) # 重新获取所有商家链接元素,检查是否有新元素加载 results = wait.until(EC.presence_of_all_elements_located((By.XPATH, "//a[@class='hfpxzc']"))) # 如果重新获取的列表的最后一个元素与之前的最后一个元素相同, # 说明没有新的内容加载,可以停止滚动 if results[-1] == temp: break_condition = True
4. 准确提取评分和评论数量
这是本教程的核心部分,也是原问题中遇到的主要挑战。最初的代码尝试使用绝对XPath来定位评分,但这种方法在动态网页中极易失效,因为它依赖于元素在DOM中的精确位置,而这个位置可能会随着页面加载或内容变化而改变。
正确的做法是使用相对XPath,并从当前结果元素的上下文(即每个商家链接元素)出发去查找其关联的评分和评论信息。通过分析Google地图的DOM结构,我们发现评分信息通常位于商家链接元素的父级容器中,并且具有特定的类名。
问题分析: 原始的`rating_xpath = “/
以上就是使用Selenium从Google地图提取商家评分与评论数量的实战教程的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1365020.html
微信扫一扫
支付宝扫一扫