赛派号

旧手机回收报价表 【爬虫】网页URL解码,全部是%25开头的类型

问题描述

今天遇到一个奇奇怪怪的网站,url类似这种: ‘https://www.*******.com/search_%25E5%258F%25AB%25E6%2588%2591%25E9%259D%2593%25E5%25A5%25B3’ search后面跟着那么长一串,让人摸不着头脑。

一些废话

爬取网站信息的第一步就是,根据关键词,构建出包含着”爬取意图“的URL,也就是把key的值加进去。 有些很朴素的网站,不用对key进行编码,直接粘上关键词就能搜索; 很多常规的是对中文关键词进行’utf-8’或‘gb2312’编码即可。

解决方法

各种尝试了一通,发现这是进行了双重编码处理的,从每个%后面都跟着25便可发现端倪。 最后,终于被我发现了,这是先用’utf-8’编码,再套了一层’gb2312’… 上代码:

from urllib import parse keyword = '叫我靓女' wd = urllib.parse.quote(keyword.encode('utf-8')) ress = urllib.parse.quote(wd.encode('gb2312')) print(ress)

输出结果:

%25E5%258F%25AB%25E6%2588%2591%25E9%259D%2593%25E5%25A5%25B3

问题解决!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lsinopec@gmail.com举报,一经查实,本站将立刻删除。

上一篇 没有了

下一篇没有了