登陆

python爬虫避免IP被封的一些办法!封我IP不存在的

admin 2020-02-14 196人围观 ,发现0个评论

在编写爬虫爬取数据的时分,由于许多网站都有反爬虫办法,所以很简单被封IP,就不能持续爬了。在爬取大数据量的数据时更是瑟瑟发抖,时刻忧虑着下一秒IP或许就被封了。

本文就如何处理这个问python爬虫避免IP被封的一些办法!封我IP不存在的题总结出一些应对办法,这些办法能够独自运用,也能够一起运用,作用更好。

假造User-Agent

在恳求头中把User-Agent设置成浏览器中的User-Agent,来假造浏览器拜访。比方:

headers ={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'} resp = requests.get(url,headers = headers)

还能够先搜集多种浏览器的User-Agent,每次建议恳求时随机从中选一个运用,能够进一步进步安全性:

私信小编01python爬虫避免IP被封的一些办法!封我IP不存在的 获取更多爬虫教程以及视频哦!

把上面随机挑选一个User-Agent的代码封装成一个函数:

注:一些常见浏览器的Usepython爬虫避免IP被封的一些办法!封我IP不存在的r-Agent可拜见:blog.csdn.net/qianxing1

在每次重复爬取之间设置一个随机时刻距离

比方:

time.slee新生儿打嗝怎么办p(random.randint(0,3)) # 暂停0~3秒的整数秒,时刻区间:[0,3]

或:

time.sleep(random.random()) # 暂停0~1秒,时刻区间:[0,1)

假造cookies

若从浏览器中能够正常拜访python爬虫避免IP被封的一些办法!封我IP不存在的一个页面,则能够将浏览器中的cookies仿制过来运用,比方:

注:用浏览器cookies建议恳求后,假如恳求频率过于频频仍会被封IP,这时能够在浏览器进步行相应的手艺验证(比方点击验证图片等),然后就能够持续正常运用该cookies建议恳求。

运用署理

能够换着用多个署理IP来进行拜访,避免同一个IP建议过多恳求而被封IP,比方:

附:GitHub上的一个"反反爬虫"项目

道高一尺魔高一丈,你有反爬虫办法,那我也有各种"反反爬虫"的办法,GitHub上就有一位大神专门整理了一个这样的项目:Anti-Anti-Spider,链接地址为:github.com/luyishisi/An能够研究一下。

请关注微信公众号
微信二维码
不容错过
Powered By Z-BlogPHP