python urllib2中文乱码怎么解决
很多乱码问题是编码造成的,一般对于中文网站基本是UTF-8,GB2312,可以GB18030通吃。
另一个造成乱码的原因是压缩格式,很多规模较大的网站都是以gzip的压缩格式输出页面的,所以在用BS解析之前需要先判断该网页是否经过压缩,如果经过压缩则先进行解压操作。
相关推荐:《Python教程》
代码:
# coding: u8 import urllib2 url = "http://sports.sina.com.cn/g/premierleague/index.shtml" response = urllib2.urlopen(url) html = response.read() print html
输出:
wױ83’͠L/J .uVխ[w5;:S煝{7l!Zp8′-y϶=ePUsł;__Zj ::]K챵 eYڕkV%IBUVY”*’)ڤS. JT>”TTZk !x*)ld2I,kUUҭ/kXjjkHI U0n2}jUSݲ”>!pj^[LJg’o^=Nqȕ7n|57yy’\ul j=9T,g/t0ݕ7’^o|v}>8=7흯!tpٹˏgFS?zd~`MuC%U2\ f߉Vqߍ7~2~ɓlE=}M}Xwo}us’>?*zpS:7Oݚ~чb= HK!sعinQR}@TsY|,#b\d #yM@qaRTPVNw ?[((tGP,A$O/EXP)oNgA\`Z 4 eL7ȓVn ɄeR fT`&WՂbV f{ j_p@-@[Ib_ͷCZ’!4O1C,کhy b0W(ժZ˨V5-ټX)5{EkvXÝN (PPUCkϫ? j( V3{Z!LOOP LP%WPL!\=! @XD8ׯjpT,W #we~م {CBo@_Y ijp;^,=(h :NxH|Ar]-|Bkq< ڻ }.ܹlt.)cptRXJ4CJЃBv@BXdP&6dógsR^=/fb@s#m} uZh.V80_)$.1W hS*zQJÑ|ă{nIPa±a#نL<SA %^yg2*\fxJhQh_FBK(c您可能感兴趣的文章:
python urllib2中文乱码怎么解决
python3.6想使用urllib2包怎么办
怎么用python扒网页?
Python2爬虫入门:Urllib的高级用法
python3没有urllib2该怎么处理?
python写爬虫出现乱码怎么回事
python中的urllib2怎么用
执行python脚本出现乱码怎么解决
php网页标题中文乱码如何解决
Python中文乱码怎么办