
Go语言爬虫库Colly:队列线程数与请求延迟的实际影响
本文探讨Go语言爬虫库Colly中queue线程数设置及其与请求延迟的交互作用。 我们将分析设定线程数和请求延迟后,实际爬取过程中的表现差异。
假设我们设置队列线程数为2:
q, _ := queue.New(2, storage)
并向其中添加三个请求。同时,为collector设置5秒的请求延迟:
c.Limit(&colly.LimitRule{DomainGlob: "*", Delay: 5 * time.Second})
预期是:两个线程几乎同时发出前两个请求,并在5秒后得到响应;第三个请求在10秒后发出并响应。然而,实际结果并非如此:
前两个请求被创建。5秒后,第一个请求响应。第三请求随即创建。另5秒后,第二个请求响应。再5秒后,第三个请求响应。
这表明Colly的请求延迟并非仅作用于单个请求,而是影响整个队列的处理。 如果设置了请求延迟,队列线程数的设置似乎失效。
这种现象的原因可能有:
请求处理的串行化: 尽管设置了两个线程,但由于collector的延迟设置,每个请求必须在前一个请求完成之后才能开始。 这导致实际处理过程变成了串行。延迟的累积效应: 第一个请求响应耗时5秒,第二个请求延迟5秒后才开始,第三个请求则在第二个请求响应后才开始,延迟效果累积,每个请求都需要等待前一个请求的完成。
关于Colly的OnRequest回调函数,需要注意的是,它主要用于创建请求,而非实际发出请求。请求加入队列后OnRequest触发,而请求的实际发出由Colly内部机制控制。
因此,在Colly中使用queue时,如果设置了请求延迟,线程数设置可能无法达到预期效果。 理解这种机制对于优化爬虫程序至关重要。
以上就是在Go的爬虫colly中,设定queue线程数和请求延迟后,实际效果是怎样的?的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1385975.html
微信扫一扫
支付宝扫一扫