使用Goroutine和sync.WaitGroup实现多协程爬虫,通过带缓冲channel控制并发数,结合goquery解析HTML并用channel收集结果,提升爬取效率且避免资源耗尽。

多协程爬虫在 Golang 中非常常见,得益于其轻量级的 goroutine 和高效的并发模型。使用多个协程可以显著提升爬取效率,同时保持代码简洁。下面介绍如何用 Golang 实现一个简单但实用的多协程爬虫。
1. 使用 Goroutine 发起并发请求
Golang 的 goroutine 让并发变得简单。只需在函数调用前加上 go 关键字,就能启动一个新协程执行任务。
例如,我们有一组 URL 需要抓取:
urls := []string{ "https://httpbin.org/delay/1", "https://httpbin.org/delay/2", "https://httpbin.org/get",}
可以用协程并发请求:
立即学习“go语言免费学习笔记(深入)”;
for _, url := range urls { go fetch(url)}
但这样会立即返回,主程序可能在协程完成前退出。需要使用 sync.WaitGroup 控制等待。
2. 控制协程数量:避免资源耗尽
如果 URL 很多,直接为每个都开协程会导致内存暴涨或被目标网站封禁。应使用信号量机制控制最大并发数。
通过带缓冲的 channel 模拟信号量:
semaphore := make(chan struct{}, 10) // 最大 10 个并发var wg sync.WaitGroupfor _, url := range urls {wg.Add(1)go func(u string) {defer wg.Done()semaphore <- struct{}{} // 获取令牌defer func() { <-semaphore }() // 释放令牌
fetch(u)}(url)
}wg.Wait() // 等待所有任务完成
这种方式既能并发,又能限制同时运行的协程数量。
Cowriter
AI 作家,帮助加速和激发你的创意写作
107 查看详情
3. 数据提取与结果收集
爬取页面后通常需要解析 HTML 提取数据。可使用 goquery 库(类似 jQuery)来操作 DOM。
安装:
go get github.com/PuerkitoBio/goquery
示例:提取标题
func parseTitle(body io.Reader) string { doc, _ := goquery.NewDocumentFromReader(body) return doc.Find("title").Text()}
将结果通过 channel 收集,避免竞态条件:
results := make(chan string, len(urls))// 在协程中:title := parseTitle(resp.Body)results <- fmt.Sprintf("%s: %s", url, title)
4. 错误处理与重试机制
网络请求可能失败,需加入错误判断和简单重试。
func fetchWithRetry(url string, maxRetries int) error { var err error for i := 0; i < maxRetries; i++ { resp, err := http.Get(url) if err == nil && resp.StatusCode == 200 { // 处理成功 return nil } time.Sleep(time.Second << uint(i)) // 指数退避 } return err}
配合 context 可实现超时控制:
ctx, cancel := context.WithTimeout(context.Background(), 10*time.Second)req, _ := http.NewRequestWithContext(ctx, "GET", url, nil)client.Do(req)
基本上就这些。Golang 多协程爬虫的核心是合理利用 goroutine、channel 和 WaitGroup,控制并发规模,安全提取数据。不复杂但容易忽略细节,比如限流和错误处理。写好之后性能通常远超单线程爬虫。
以上就是Golang如何实现多协程爬虫_Golang 多协程爬虫实践的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/980889.html
微信扫一扫
支付宝扫一扫