教程集 > Python编程 > Python入门 > 正文 python百度反收集如何使用

python百度反收集如何使用

发布时间：2021-05-04 编辑：jiaochengji.com

教程集为您提供python百度反收集如何使用等资源，欢迎您收藏本站，我们将为您提供最新的python百度反收集如何使用资源

1、从用户请求的Headers反爬虫是最常见的反爬虫策略。

伪装headers。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。如果遇到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；或者将Referer值修改为目标网站域名[评论：往往容易被忽略，通过对请求的抓包分析，确定referer，在程序中模拟访问请求头中添加]。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。

相关推荐：《Python基础教程》

2、基于用户行为反爬虫

还有一部分网站是通过检测用户行为，例如：同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。这种防爬，需要有足够多的ip来应对。

大多数网站都是前一种情况，对于这种情况，使用IP代理就可以解决。可以专门写一个爬虫，爬取网上公开的代理ip，检测后全部保存起来。有了大量代理ip后可以每请求几次更换一个ip，这在requests或者urllib中很容易做到，这样就能很容易的绕过第一种反爬虫。

编写爬虫代理：

步骤：

1.参数是一个字典{'类型'：'代理ip：端口号'}

proxy_support=urllib.request.ProxyHandler({})

2.定制、创建一个opener

opener=urllib.request.build_opener(proxy_support)

3.安装opener

urllib.request.install_opener(opener)

4.调用opener

opener.open(url)

您可能感兴趣的文章：
python百度反收集如何使用
 怎样做才能让搜索有更多的收录
 python如何判断网页元素是否存在
 百度浏览器收藏夹导出的方法介绍
 baidu site:不到首页原因
 cython与python的不同有哪些
 PHP教程.应用实例15
python web为什么不火
 如何解决baidu,google 对论坛收录问题
 python可以抓取数据吗

上一篇：java编写的界面可以调用python吗下一篇：python无法安装scipy怎么办

[关闭]

python百度反收集如何使用

最近更新

浏览排行