2017年6月

流量跑的飞快!Nginx禁止谷歌爬虫访问

博客居然被Google攻击了(笑),没有配置好反爬虫。一开始还没反应过来,以为是ShadowSocks的帐号被人窃取了,因为人懒用的弱密码。但是后来更改密码以后,流量依旧高涨(一个月跑掉300G),才发现不对劲。配置了IFTOP以后,才发现是谷歌的爬虫太凶猛。

#触发原因:反代了谷歌首页,没有禁止爬虫。爬虫陷入死循环。

#解决方法
在域名的conf文件里的locate一栏里加入下列

if ($http_user_agent ~* (baiduspider|googlebot|soso|bing|sogou|yahoo|sohu-search|yodao|YoudaoBot|robozilla|msnbot|MJ12bot|NHN|Twiceler)){ return 403; }

禁止爬虫访问。
重启nginx,并且
再测试一下

curl -I -A 'baiduspider' XXX.conm

如果返回403,则生效