网站屏蔽恶意爬虫User-Agent方法/屏蔽爬虫AI采集UA列表
新搭建的环境,刚转移过来,就发现大量的爬虫,采集程序过来了。
在之前谷子也在环境做过屏蔽,不过时间久了,都忘记还要弄,再加上有些新的蜘蛛爬虫开始泛滥,所以重新总结一下。
主要还是两种方式,一个修改Nginx配置文件直接拒绝访问,一个通过宝塔防火墙。
此前的搜索引擎还是认Robot.txt文件的,但是小蜘蛛和采集爬虫很显然不会遵守这个的。
爬虫爬取内容,增加服务器压力,主要是不带来访问,屏蔽它们是很有必要的。
屏蔽方法:
1:nginx配置文件屏蔽。
以宝塔为例,进入宝塔面板,然后选择网站-对应网站设置- 复制到 配置文件 当中,然后重启nginx即可生效。
如果是脚本版,找nginx.conf配置文件添加也可以。
一些常用的爬虫,复制进去保存,然后nginx重新载入即可:
#屏蔽垃圾蜘蛛
if ($http_user_agent ~* (SemrushBot|python|MJ12bot|AhrefsBot|hubspot|petalbot|ImagesiftBot|ImagesiftBot|opensiteexplorer|leiki|webmeup)) {
return 444;
}
也有更详细一点的内容。也可以同样的方法复制进配置文件屏蔽:
if ($http_user_agent ~ "Neevabot|TTD-Content|FeedDemon|ThinkBot|MTRobot|SMTBot|LieBaoFast|Punkspider|MauiBot|Barkrowler|MegaIndex.ru|JikeSpider|TkBot|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|SemrushBot|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|MJ12bot|heritrix|EasouSpider|LinkpadBot|Ezooms|bsalsa|DotBot|DataXu|Daum|BLEXBot|Scrapy|PetalBot|proximic|GrapeshotCrawler|Mail.RU_Bot|Nimbostratus-Bot|ias-|AdsTxtCrawler|SeznamBot|evc-batch|AspiegelBot|Re-re Studio|^$" )
{
return 403;
}
现在出现了OpenAI的GPTBot,也可以加入进去。
2:通过宝塔防火墙。
不管是收费的nginx防火墙还是收费版的Nginx防火墙,均有UA黑名单功能。
打开防火墙设置,全局设置,UA黑名单。即可添加黑名单UA。
(.*)Scrapy(.*) //PY写爬出必备头//后为简单解释 导入时请忽略
(.*)SemrushBot(.*) //垃圾蜘蛛
(.*)AhrefsBot(.*) //外链爬取
(.*)Applebot(.*) //苹果蜘蛛
(.*)AspiegelBot(.*) //华为蜘蛛
(.*)DotBot(.*) //垃圾国外蜘蛛
(.*)DataForSeoBot(.*) //垃圾SEO蜘蛛
(.*)java(.*) //JAVA写的爬虫
(.*)MJ12bot(.*) //垃圾国外蜘蛛
(.*)PetalBot(.*) //华为蜘蛛
(.*)python(.*) //PY探测器
(.*)seo(.*) //垃圾SEO蜘蛛
(.*)Censys(.*) //安全渗透平台绕过CDN的
手动添加到防火墙。
Amazonbot
ClaudeBot
PetalBot
gptbot
Ahrefs
Semrush
Imagesift
Teoma
ia_archiver
twiceler
MSNBot
Scrubby
Robozilla
Gigabot
yahoo-mmcrawler
yahoo-blogs/v3.9
psbot
https://www.xgiu.com/nginx_conf_zz
发表评论