Google 地图评论数据抓取:提升稳定性和准确性

google 地图评论数据抓取:提升稳定性和准确性

本文旨在解决使用自动化工具抓取 Google 地图评论数据时遇到的不完整或不准确问题,特别是评论平均分和评论数量的抓取遗漏。我们将分析常见原因,并重点介绍如何利用 Selenium 结合动态定位策略和显式等待机制,构建更健壮、更可靠的爬虫,确保数据抓取的完整性和准确性。

1. 问题背景与常见挑战

在进行网页数据抓取时,尤其面对像 Google 地图这样高度动态和交互性强的网站,常常会遇到数据抓取不完整的问题。例如,当尝试抓取商家列表中的评论平均分和评论数量时,可能只成功抓取了部分数据,而其他数据则遗漏或显示为“N/A”。这通常是由于以下几个原因造成的:

页面加载时序问题: 网页内容并非一次性加载完成,而是通过 JavaScript 动态渲染。如果抓取逻辑在元素尚未完全加载或渲染之前就尝试定位,就会导致失败。元素定位策略的脆弱性: 使用硬编码的 XPath 或基于索引的定位方式,在页面结构稍有变化时就可能失效。特别是当点击一个列表项后,页面内容发生变化,原有的全局索引可能不再适用。缺乏有效的等待机制: 简单的 time.sleep() 或 wait_for_timeout() 无法保证特定元素已加载完毕,可能导致过早或过晚的尝试定位。

原始代码示例中,reviews_span_xpath = f’//div[{index + 1}]//span[@role=”img”]’ 这类基于列表 index 的 XPath,在点击某个列表项并进入其详情页后,很可能不再指向当前详情页内的评论元素。详情页内的元素应该使用相对其自身布局的 XPath 或 CSS 选择器来定位。

2. 推荐方案:利用 Selenium 实现健壮抓取

为了克服上述挑战,我们推荐使用 Selenium 结合其强大的浏览器自动化能力和灵活的等待机制。Selenium 能够模拟用户行为,并提供更精细的元素交互和等待控制,从而提高抓取的稳定性。

2.1 Selenium 简介与优势

Selenium 是一个用于 Web 应用程序测试的工具,但它也被广泛用于网页抓取。其主要优势包括:

真实浏览器模拟: Selenium 启动真实的浏览器实例(如 Chrome, Firefox),能够完全模拟用户操作,包括 JavaScript 渲染、AJAX 请求等。可视化调试: 在开发过程中,可以直接看到浏览器中的操作,便于定位问题。强大的元素定位: 支持多种定位策略(ID, Name, Class Name, Tag Name, Link Text, Partial Link Text, XPath, CSS Selector)。显式等待机制: 提供 WebDriverWait,可以等待特定条件满足后再进行操作,避免因加载延迟导致的问题。

2.2 核心抓取策略

为了准确抓取 Google 地图的评论数据,我们需要遵循以下策略:

遍历列表项并点击: 首先定位到所有商家列表项,然后逐一点击,进入每个商家的详情页。显式等待详情页加载: 在点击后,不要立即尝试抓取,而是等待详情页的关键元素(如商家名称、地址或评论区域)出现。在详情页内定位元素: 一旦详情页加载完成,使用相对于详情页布局的 XPath 或 CSS 选择器来定位评论相关的元素,而不是依赖于列表的原始索引。提取并解析数据: 从评论元素的 aria-label 属性中提取评论平均分和评论数量。

2.3 示例代码:使用 Selenium 抓取 Google 地图评论

以下是一个使用 Python 和 Selenium 实现 Google 地图评论抓取的示例框架。

from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECimport reimport timeclass Business:    def __init__(self):        self.name = "N/A"        self.address = "N/A"        self.website = "N/A"        self.phone_number = "N/A"        self.category = "N/A"        self.reviews_average = None        self.reviews_count = Nonedef scrape_google_maps_reviews(search_url):    # 配置 ChromeDriver 服务    # 请确保您的 ChromeDriver 版本与 Chrome 浏览器版本兼容    service = Service(executable_path='/path/to/chromedriver') # 替换为您的 ChromeDriver 路径    options = webdriver.ChromeOptions()    # options.add_argument('--headless') # 可选:无头模式,不显示浏览器界面    options.add_argument('--disable-gpu')    options.add_argument('--no-sandbox')    options.add_argument('--disable-dev-shm-usage')    options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36")    driver = webdriver.Chrome(service=service, options=options)    driver.get(search_url)    # 显式等待搜索结果加载    WebDriverWait(driver, 20).until(        EC.presence_of_element_located((By.CSS_SELECTOR, 'div[role="feed"]'))    )    businesses_data = []    # 模拟滚动以加载更多商家    # 找到包含商家列表的滚动区域,通常是 role="feed" 的 div    scrollable_div_xpath = '//*[@id="QA0Szd"]/div/div/div[1]/div[2]/div/div[1]/div/div/div[2]' # 示例XPath,可能需要根据实际页面调整    try:        scrollable_div = WebDriverWait(driver, 10).until(            EC.presence_of_element_located((By.XPATH, scrollable_div_xpath))        )        last_height = driver.execute_script("return arguments[0].scrollHeight", scrollable_div)        while True:            driver.execute_script("arguments[0].scrollTop = arguments[0].scrollHeight", scrollable_div)            time.sleep(2) # 等待新内容加载            new_height = driver.execute_script("return arguments[0].scrollHeight", scrollable_div)            if new_height == last_height:                break            last_height = new_height    except Exception as e:        print(f"滚动加载失败或无滚动区域: {e}")    # 获取所有商家列表项    # 注意:这里获取的是列表中的元素,后续点击后,详情页的元素需要重新定位    listing_elements = driver.find_elements(By.CSS_SELECTOR, 'div[role="feed"] > div > a')     print(f"找到 {len(listing_elements)} 个商家列表项。")    for i in range(len(listing_elements)):        try:            # 重新获取列表项,因为点击后页面可能刷新或元素引用失效            # 也可以尝试存储元素的唯一标识符(如 href),然后通过 href 重新定位            # 但最简单可靠的方式是每次循环重新获取所有可见列表项,然后点击第i个            # 注意:这里需要确保点击后,浏览器能正确返回列表视图,或者详情页是侧边栏            # Google Maps 详情页通常是侧边栏,所以可以直接点击            # 重新定位当前可见的列表项            current_listing_elements = driver.find_elements(By.CSS_SELECTOR, 'div[role="feed"] > div > a')            if i >= len(current_listing_elements):                print(f"列表项 {i+1} 不再可见,跳过。")                continue            listing_to_click = current_listing_elements[i]            # 获取商家的名称或链接,用于日志和验证            listing_name = listing_to_click.find_element(By.CSS_SELECTOR, '.qBF1Pd').text if listing_to_click.find_elements(By.CSS_SELECTOR, '.qBF1Pd') else "未知名称"            print(f"n尝试点击商家: {listing_name}")            listing_to_click.click()            # 显式等待详情页加载完成,例如等待商家名称或评论区域出现            WebDriverWait(driver, 10).until(                EC.presence_of_element_located((By.CSS_SELECTOR, 'div.qBF1Pd.fontHeadlineSmall')) # 商家名称            )            WebDriverWait(driver, 10).until(                EC.presence_of_element_located((By.CSS_SELECTOR, 'button[data-item-id="reviews"]')) # 评论按钮            )            time.sleep(1) # 短暂等待,确保所有动态内容渲染完毕            business = Business()            # 在详情页内定位元素并抓取信息            try:                business.name = driver.find_element(By.CSS_SELECTOR, 'div.qBF1Pd.fontHeadlineSmall').text            except:                pass            try:                business.address = driver.find_element(By.CSS_SELECTOR, 'button[data-item-id="address"] div.fontBodyMedium').text            except:                pass            try:                business.website = driver.find_element(By.CSS_SELECTOR, 'a[data-item-id="authority"] div.fontBodyMedium').text            except:                pass            try:                business.phone_number = driver.find_element(By.CSS_SELECTOR, 'button[data-item-id^="phone:tel:"] div.fontBodyMedium').text            except:                pass            try:                # 类别通常在名称下方,可能需要更精确的定位                category_element = driver.find_element(By.XPATH, '//*[@id="QA0Szd"]/div/div/div[1]/div[3]/div/div[1]/div/div/div[2]/div[2]/div/div[1]/div[2]/div/div[2]/span/span/button')                business.category = category_element.text            except:                pass            # 尝试滚动详情面板以确保评论元素可见(如果需要)            # 通常详情面板是可滚动的,评论可能在下方            detail_panel_xpath = '//*[@id="QA0Szd"]/div/div/div[1]/div[3]/div/div[1]' # 详情面板的示例XPath            try:                detail_panel = driver.find_element(By.XPATH, detail_panel_xpath)                driver.execute_script("arguments[0].scrollTop = arguments[0].scrollHeight", detail_panel)                time.sleep(1) # 等待滚动完成            except Exception as e:                print(f"详情面板滚动失败: {e}")            # 定位评论元素 (注意:这里不再使用 index,而是直接定位详情页内的评论区域)            # Google Maps 评论通常在一个带有 role="img" 的 span 中,且其父元素可能是评论按钮            reviews_span_xpath_in_detail = '//button[contains(@aria-label, "stars")]/span[@role="img"]'            reviews_element = driver.find_elements(By.XPATH, reviews_span_xpath_in_detail)            if reviews_element:                reviews_label = reviews_element[0].get_attribute("aria-label")                print(f"Reviews Label for {business.name}: {reviews_label}")                # 使用正则表达式处理评论标签                match = re.match(r'([d.]+) stars ([d,]+) Reviews', reviews_label)                if match:                    business.reviews_average = float(match.group(1))                    business.reviews_count = int(re.sub(',', '', match.group(2)))                else:                    print(f"无法解析评论标签: {reviews_label}")            else:                print(f"未找到 {business.name} 的评论信息。")            businesses_data.append(business)            # 返回到列表视图 (如果详情页是独立页面,则需要 driver.back())            # 对于 Google Maps 侧边栏详情,通常不需要额外操作,直接点击下一个列表项即可            # 但为了确保,可以尝试点击一个返回按钮或者等待列表重新可见            # 如果列表项是动态加载的,每次循环重新获取 listing_elements 是必要的            # 简单等待,确保页面状态稳定,为下一次点击做准备            time.sleep(1)         except Exception as e:            print(f"处理第 {i+1} 个商家时发生错误: {e}")            # 发生错误时,尝试返回列表或刷新页面,然后继续            # driver.refresh() # 谨慎使用,可能导致当前列表丢失            time.sleep(2) # 稍作等待,避免连续错误            continue # 继续下一个商家    driver.quit()    return businesses_data# 示例用法if __name__ == "__main__":    search_query = "restaurants in New York"    # 注意:Google Maps 的 URL 结构可能很复杂,这里只是一个示例    # 实际应用中,您可能需要先通过搜索框输入查询,然后获取结果页URL    # 或者直接构建一个包含查询参数的URL    google_maps_url = f"https://www.google.com/maps/search/{search_query.replace(' ', '+')}"    scraped_data = scrape_google_maps_reviews(google_maps_url)    print("n--- 抓取结果 ---")    for biz in scraped_data:        print(f"名称: {biz.name}")        print(f"地址: {biz.address}")        print(f"网站: {biz.website}")        print(f"电话: {biz.phone_number}")        print(f"类别: {biz.category}")        print(f"平均评分: {biz.reviews_average}")        print(f"评论数量: {biz.reviews_count}")        print("-" * 20)    print(f"总共抓取了 {len(scraped_data)} 条商家数据。")

2.4 代码解析与注意事项

service = Service(executable_path=’/path/to/chromedriver’): 替换为您的 ChromeDriver 可执行文件的实际路径。ChromeDriver 必须与您安装的 Chrome 浏览器版本兼容。options.add_argument(‘–headless’): 启用无头模式,浏览器将在后台运行,不显示界面。这在生产环境中很有用,但调试时建议注释掉。WebDriverWait 和 EC: 这是 Selenium 显式等待的核心。WebDriverWait(driver, 20): 最长等待 20 秒。EC.presence_of_element_located((By.CSS_SELECTOR, ‘div[role=”feed”]’)): 等待指定 CSS 选择器对应的元素出现在 DOM 中。EC.visibility_of_element_located(…): 等待元素不仅在 DOM 中,而且可见。针对详情页的等待,我们等待商家名称 (div.qBF1Pd.fontHeadlineSmall) 和评论按钮 (button[data-item-id=”reviews”]) 出现,以确保页面加载完整。动态定位评论元素: reviews_span_xpath_in_detail = ‘//button[contains(@aria-label, “stars”)]/span[@role=”img”]’。这个 XPath 不再依赖于列表的 index,而是查找详情页中包含“stars”的 aria-label 属性的按钮,然后在其内部寻找 role=”img” 的 span。这种定位方式更具鲁棒性,因为它直接针对评论元素的语义特征。模拟滚动: 对于 Google 地图,商家列表通常是无限滚动的。代码中加入了模拟滚动的逻辑,以加载更多商家。请注意 scrollable_div_xpath 可能需要根据实际页面结构调整。错误处理: 使用 try-except 块来捕获可能发生的异常,例如元素未找到。这可以防止爬虫因单个元素的失败而完全中断。重新获取列表项: 在循环内部,每次点击前重新获取 listing_elements 是一个重要的实践。这是因为在点击一个商家后,Google 地图的 DOM 可能会发生变化(例如,侧边栏详情页打开,列表项可能被重新渲染或隐藏),导致之前获取的元素引用失效(StaleElementReferenceException)。重新获取可以确保我们总是在操作当前有效的 DOM 元素。time.sleep() 的使用: 尽管我们强调使用显式等待,但在某些复杂交互后,或者在滚动加载内容时,短暂的 time.sleep() 仍然可以作为补充,给浏览器留出足够的渲染时间。但应尽量减少其使用,并优先考虑显式等待。

3. 总结

抓取动态网页数据,特别是像 Google 地图这样复杂的应用,需要更精细的控制和更健壮的策略。通过从 Playwright 转向 Selenium,并结合以下关键实践,可以显著提高抓取任务的成功率和数据准确性:

选择合适的工具: Selenium 提供完整的浏览器自动化能力,便于处理动态内容和复杂的交互。采用动态定位策略: 避免使用脆弱的基于索引的 XPath,转而使用更具语义化和稳定性的 CSS 选择器或相对 XPath。利用显式等待机制: 告别不精确的 time.sleep(),使用 WebDriverWait 等待特定条件满足,确保元素已加载并可交互。细致的错误处理: 编写健壮的代码,处理可能出现的各种异常,确保爬虫的韧性。模拟用户行为: 模拟滚动、点击等真实用户行为,以触发内容的动态加载。

遵循这些原则,您将能够构建出更稳定、更高效的 Google 地图评论数据抓取解决方案。请务必遵守目标网站的 robots.txt 协议和服务条款,进行负责任的抓取。

以上就是Google 地图评论数据抓取:提升稳定性和准确性的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1363368.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 03:22:40
下一篇 2025年12月14日 03:22:55

相关推荐

  • Google Maps数据抓取:提升评论数据抓取鲁棒性的策略与实践

    针对Google Maps评论数据抓取中遇到的不完整问题,本文深入探讨了导致抓取失败的常见原因,特别是动态内容加载和选择器脆弱性。文章提供了使用Playwright等自动化工具进行鲁棒性数据抓取的关键策略,包括优化等待机制、使用更稳定的选择器以及正确处理页面交互,旨在帮助开发者构建高效且可靠的爬虫系…

    2025年12月14日
    000
  • pandas DataFrame 行间除法:计算相邻行的商

    pandas DataFrame 是数据分析和处理的强大工具。在许多场景下,我们需要对 DataFrame 中的数据进行行间计算。本文将介绍如何使用 pandas 计算 DataFrame 中相邻两行的商,并将结果存储在新的一列中。 首先,我们创建一个示例 DataFrame: import pan…

    2025年12月14日
    000
  • 实现分层计算的递归函数

    本文介绍如何使用递归函数来处理分层依赖关系的计算,特别是当计算公式依赖于其他指标时。通过构建指标缩写与ID的字典,并结合 pandas.eval 函数,可以有效地解析和计算复杂的公式,最终得到所需的结果。 在处理具有层级依赖关系的计算问题时,递归函数是一种强大的工具。例如,当一个指标的计算公式依赖于…

    2025年12月14日
    000
  • 使用 CP437 编码打印删除线文本

    本文介绍了如何在支持 CP437 编码的打印机上打印删除线文本。通过使用特定的控制字符 b”xST”,可以在打印机上实现删除线效果,替代了传统方案中无效的字符叠加方法,提供了一种简洁高效的解决方案。 在某些打印场景下,我们需要在打印文本中添加删除线效果。如果打印机使用的是 C…

    2025年12月14日
    000
  • CP437 编码打印机实现删除线文本打印指南

    本文详细阐述了如何在采用 CP437 编码的打印机上实现删除线文本效果。针对常见的 UTF-8 打印机解决方案(如 b”x1bx4c”)和通用控制字符(如 b”x08″)在 CP437 环境下无效的问题,本教程提供了一个专用的字节序列 b”…

    2025年12月14日
    000
  • 如何在CP437编码的打印机上打印删除线文本

    在CP437编码的打印机上打印删除线文本,通常需要使用特定的控制字符。先前尝试的x1bx4c方法,虽然在UTF-8打印机上有效,但在CP437编码下并不适用。同样,退格键x08也无法实现所需的删除线效果。 解决方案:使用xST命令 在CP437编码的打印机上,可以使用xST命令来实现删除线效果。 x…

    2025年12月14日
    000
  • Python多线程环境下上下文管理器内函数调用的监控与管理

    本文深入探讨了在Python中如何监控特定上下文管理器内函数调用的执行情况,并着重解决了多线程环境下全局状态导致的监控混乱问题。通过引入threading.local实现线程局部存储,以及合理使用线程锁,我们构建了一个健壮的解决方案,确保每个线程的监控上下文独立且互不干扰,同时允许子线程的监控数据汇…

    2025年12月14日
    000
  • Python上下文管理器中函数调用的线程安全监控

    本文探讨了如何在Python中利用上下文管理器监控指定函数的执行,记录函数名和执行时间,并确保在嵌套上下文和多线程环境下的数据隔离与准确性。针对全局变量在多线程中引发的上下文交叉监控问题,文章提出了一种基于threading.local和线程锁的解决方案,实现了主线程与子线程各自上下文的独立管理,并…

    2025年12月14日
    000
  • Python多线程环境中上下文内函数调用监控的线程安全实现

    本文探讨了在Python中如何实现上下文内函数调用的监控,并着重解决了多线程环境下的线程安全问题。通过引入threading.local和线程锁,我们设计了一个分离主线程与子线程处理器的方案,确保每个线程的监控上下文独立且数据准确,同时允许主线程的上下文收集所有线程的监控记录,从而实现高效且可靠的函…

    2025年12月14日
    000
  • 在Python多线程上下文中监控函数调用

    在Python多线程环境下,如何实现上下文感知的函数调用监控。针对原始方案中全局状态导致的多线程安全问题,文章详细阐述了利用threading.local实现线程局部存储,以及通过threading.Lock确保共享资源访问的线程安全机制。通过重构监控处理器,确保每个线程拥有独立的上下文列表,同时允…

    2025年12月14日
    000
  • 解决用户安装Python工具的PATH环境变量问题:以Pipenv为例

    当用户通过pip安装Python工具如Pipenv时,常会遇到PATH环境变量未包含其可执行文件路径的警告。本文将详细指导如何通过修改shell配置文件(如~/.bashrc或~/.profile)将用户安装的二进制文件目录添加到系统PATH中,确保工具能够被正确识别和执行。此外,也将提及使用系统包…

    2025年12月14日
    000
  • Python上下文中的函数调用监控与多线程兼容性实现

    本文深入探讨了在Python中监控特定函数调用、记录其执行时间等信息,并将其关联到特定上下文的需求。针对单线程环境中可行但在多线程场景下因全局状态导致的上下文混淆问题,文章详细介绍了如何利用threading.local和线程锁机制,构建一个线程安全的监控处理器,确保每个线程拥有独立的上下文管理,同…

    2025年12月14日
    000
  • 将用户级Python工具目录添加到Linux PATH环境变量的教程

    当用户通过pip install –user安装Python工具(如Pipenv)时,其可执行文件通常位于用户主目录下的.local/bin中,而该路径默认不在系统环境变量PATH中,导致命令无法直接执行。本教程将详细指导如何通过修改shell配置文件(如~/.profile或~/.ba…

    2025年12月14日
    000
  • 解决Linux系统下用户安装程序(如Pipenv)不在PATH环境变量的问题

    本文详细介绍了在Linux系统上,当通过pip install –user等方式将程序(例如Pipenv)安装到用户目录后,如何解决其可执行文件不在系统PATH环境变量中的问题。教程提供了两种主要方法:通过修改~/.bashrc或~/.profile文件来永久添加自定义路径,以及通过系统…

    2025年12月14日
    000
  • 解决Pipenv安装后PATH环境变量配置问题

    本文旨在解决在Linux系统上通过pip install –user方式安装Pipenv后,其可执行文件未自动添加到系统PATH环境变量的问题。文章将详细指导用户如何通过修改shell配置文件(如~/.bashrc或~/.profile)手动配置PATH,确保Pipenv命令可被系统识别…

    2025年12月14日
    000
  • 怎样用Python实现自动化交易?量化投资基础

    用python实现自动化交易的核心在于构建数据驱动的交易系统,其核心步骤包括:1.获取并清洗市场数据;2.开发和验证交易策略;3.进行回测以评估策略表现;4.对接api实现实盘交易;5.执行风险管理;6.持续监控与优化。具体工具方面,pandas和numpy用于数据处理与计算,tushare和aks…

    2025年12月14日 好文分享
    000
  • 怎样用Python处理视频流?OpenCV实时分析

    使用python的opencv库可以高效处理视频流并进行实时分析。1. 安装opencv:通过pip安装opencv-python或完整版。2. 捕获视频流:使用videocapture类读取摄像头或视频文件,并用循环逐帧处理。3. 实时图像处理:包括灰度化、canny边缘检测、高斯模糊等操作。4.…

    2025年12月14日 好文分享
    000
  • Python中如何计算数据百分比?div数学运算技巧

    计算百分比的核心公式是(部分值 / 总值)* 100,python中需注意浮点数精度、零除错误处理及在不同数据结构中的应用。1. 使用基础公式时,python 3 的除法默认返回浮点结果;2. 浮点数精度问题可通过 decimal 模块解决,适用于金融或科学计算;3. 零除错误的稳健处理方式包括返回…

    2025年12月14日 好文分享
    000
  • 怎样用Python实现数据标记?map映射函数指南

    使用map函数进行数据标记的核心答案是:通过定义一个处理单个数据点的函数,再利用map将该函数批量应用到整个数据集,实现高效、简洁的数据标签分配。1. 定义一个接收单个数据点并返回标签的函数;2. 将该函数和数据集传递给map函数;3. map会逐个应用函数到每个元素,生成对应标签;4. 转换map…

    2025年12月14日 好文分享
    000
  • 使用 Python Typing 实现泛型类型依赖的组合

    本文旨在解决 Python 中泛型类型依赖组合的问题,通过使用 Protocol 协议定义可索引类型,并结合 TypeVar 约束泛型类型,从而实现对 MutableMapping 和 MutableSequence 等类型的灵活约束。本文将提供代码示例和详细解释,帮助读者理解如何在 Python …

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信