教程集 www.jiaochengji.com
教程集 >  Python编程  >  Python入门  >  正文 python爬虫乱码是文字方块如何解决?

python爬虫乱码是文字方块如何解决?

发布时间:2020-12-02   编辑:jiaochengji.com
教程集为您提供python爬虫乱码是文字方块如何解决?等资源,欢迎您收藏本站,我们将为您提供最新的python爬虫乱码是文字方块如何解决?资源

在跟一群小伙伴探讨完乱码的问题后,小编发现了各式各样的获取方法,当然乱码的问题也是蜂拥而来,都让小编觉得出错比找数据不要太容易了。小编近期一直在收集大家的问题,不断地更新整理后分享给大家,希望更多的小伙伴看到后都知道该如何去解决,今天就python爬虫乱码是文字方块的解决办法。


解析网页时,时常可以看到如下情景:

这种情况下,我们需要的仅仅是数字,则需要找到相应的字体对应规则。

首先,转码,将字符串转为bytes类型:

然后,根据0~9各个字符的bytes类型编码,建立对应词典,示例中这个网站的网页载入有点贱嘻嘻,弄了三套对应的转换模式,现在也不知道是否每天还会更新,反正人肉分别将30个bytes类型编码与字符串做对应,用数组或者字典皆可。

 

最后就可以根据内容来进行转码了。

上面说到这是有限的解决方案,原因在于,如果网站实行动态加密,那可能就要去看具体的js内容了,再就是有的可能是图片,可能需要OCR来进行辅助。

在爬相应的网站的时候,友好起见,我使用了selenium chromedriver,载入后,再刷新一次,效果更好,说的好像刷新一次以后,就不是机器人了一样哈哈。


小伙伴们看完也可以试试小编这种办法,如果是出现其他类型的乱码现象,也可以去往期的文章找一找。更多Python学习推荐:JQ教程网Python大全


您可能感兴趣的文章:
《Python2爬虫入门教程指南》(系列教程)
python爬虫一般都爬什么信息
Python 爬虫学习系列教程
Python爬虫进阶之Robots协议
Python2爬虫入门之如何学习爬虫
Python3爬虫入门:Robots协议
经典必备之Python爬虫入门(一)
python写爬虫出现乱码怎么回事
python的爬虫是什么意思
如何使用python多线程有效爬取大量数据?

[关闭]
~ ~