
从网站提取网址时如何去除括号和单引号?
在使用 python 爬取网站时,有时会遇到从 html 代码中提取的网址被括号或单引号包裹的情况。以下是一个使用 lxml 和 requests 模块去除这些符号的解决方案:
import requestsfrom lxml import etreeurl = 'http://www.prnasia.com/m/mediafeed/rss?id=2303&t=240'# 设置 HTTP 请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'}# 发送 HTTP GET 请求res = requests.get(url, headers=headers)# 将 HTML 响应解析为 DOM 树res_dome = etree.HTML(res.text)# 使用 XPath 提取网址hrefs = res_dome.xpath('//h3/a/@href')# 移除括号和单引号cleaned_hrefs = [href.replace('(', '').replace(')', '').replace("'", "") for href in hrefs]print(cleaned_hrefs)
这样,您将得到一个包含所有提取网址(无括号或单引号)的列表。
以上就是Python爬虫中,如何去除提取网址中的括号和单引号?的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1351828.html
微信扫一扫
支付宝扫一扫