400-893-5552

电脑代理IP怎么设置

 
2020-05-15 14:02所属分类
  我们请求一个网页时,不仅携带着headers等信息,而且会带一个ip地址。如果你一直携带着同一个ip地址,去大量快速请求同一个域名下的网页,网站就会识别出这是同一个人(同一个ip)在大量请求他的网站,这时往往会把你的ip封掉,或者弹出验证码验证你是不是机器。
 
 
  如果试一下用python不加任何约束,成百上千次地循环访问豆瓣电影页面,会发现一段时间后爬虫报错,无法抓取到信息。这时如果你用浏览器登录豆瓣的网站,也会发现登不进去,因为你这个ip已经被封掉了,无论用python还是浏览器请求都没有用。这时你如果换一个wifi,就又可以正常访问了。
 
  这种反爬虫方式只有当你大规模抓取网页时才会出现,如果你只是想抓取豆瓣top250个电影信息,请求次数非常少,则只使用自己的一个ip就不会被封。
 
  用python做爬虫时,要想绕过这道反爬虫机制,一般有两种方法
 
  降低抓取速度。比如每两次请求之间间隔2秒,即设置time.sleep(2)(事先import time)。(你user-agent等伪装得当的情况下,如果2秒请求一次,这是人手动也可以操作出来的,网站就不敢确定你是一个爬虫程序,只有统一个ip 1秒请求很多次,网站才会直接判断你是爬虫)有时设置随机sleep时间,防止网站识别出你访问时间太过均匀
 
  可以设置代理IP,使用不断变化的IP来请求,这样就不会被判定为同一个人,请求非常快也无法被判定为爬虫。大量抓取时,如果不想以牺牲爬虫速度为代价获取数据,一般都要设置代理IP。
 
  要想获得代理ip,主要有两种途径,一个是从免费代理ip网站上获得,另一个是购买付费代理。
 
  就我个人而言,平时要抓取的数据大都在千或者万的级别,需要使用代理ip。但是爬虫只运行几个小时也就能结束了,因此我会选择按小时购买付费代理IP。如果数据量再大,需要跑几天几个月这种的,使用付费代理就比较贵了。
友情链接    PPTP 代理IP 极速加速 91IP代理 IP代理 51IP代理 代理IP