不知道有多少同学在学 Python 爬虫的时候收购了每次都要手动给 header 或者 data 加引号。反正Forece是受够了,今天给大家讲一下如何在 Pycharm 开发环境中迅速快速的将这些头信息自动加引号变成字典。
学习爬虫,少不了和 header 打交道
方法一:手动修改
但是我们从开发者面板出来的数据都不是带引号的,都需要手动添加。初学者一般都是这样创建 header 字典的,真实不真实?
方法二:代码转换
或者有些朋友说,我可以自己写一段代码,直接将字符串转换为字典
# 原始header数据 raw_headers = """Host: open.tool.hexun.com Pragma: no-cache Cache-Control: no-cache User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36 Accept: */* Referer: http://stock.hexun.com/gsxw/ Accept-Encoding: gzip, deflate Accept-Language: zh-CN,zh;q=0.9,en;q=0.8""" # 代码转换 headers = dict([line.split(": ",1) for line in raw_headers.split("\n")]) # 输出显示 print(headers)
方法三:利用 headers_raw_to_dict 模块
from copyheaders import headers_raw_to_dict raw_headers = """Host: open.tool.hexun.com Pragma: no-cache Cache-Control: no-cache User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36 Accept: */* Referer: http://stock.hexun.com/gsxw/ Accept-Encoding: gzip, deflate Accept-Language: zh-CN,zh;q=0.9,en;q=0.8""" headers = headers_raw_to_dict(raw_headers) print(headers)
方法四:Pycharm 正则替换(最容易最简单的方法)
其他IDE应该也有正则替换,PyCharm中替换的快捷键是Ctrl+R,选中Regex正则模式
然后
源匹配为 (.*): (.*)$ 替换匹配为 "$1": "$2",
其他方法:
网上看到有人推荐Chrome的插件Postman ,还有在线转换工具 curlconverter,针对初学者来说,感觉有点复杂,有兴趣的朋友可以了解一下。