网站屏蔽恶意爬虫User-Agent方法/屏蔽爬虫AI采集UA列表-网站屏蔽恶意爬虫User-Agent方法/屏蔽爬虫AI采集UA列表新搭建的环境，刚转移过来，就发现大量的爬虫，采集程序过来了。在

网站屏蔽恶意爬虫User-Agent方法/屏蔽爬虫AI采集UA列表

新搭建的环境，刚转移过来，就发现大量的爬虫，采集程序过来了。
在之前谷子也在环境做过屏蔽，不过时间久了，都忘记还要弄，再加上有些新的蜘蛛爬虫开始泛滥，所以重新总结一下。

主要还是两种方式，一个修改Nginx配置文件直接拒绝访问，一个通过宝塔防火墙。
此前的搜索引擎还是认Robot.txt文件的，但是小蜘蛛和采集爬虫很显然不会遵守这个的。
爬虫爬取内容，增加服务器压力，主要是不带来访问，屏蔽它们是很有必要的。

屏蔽方法：
1：nginx配置文件屏蔽。
以宝塔为例，进入宝塔面板，然后选择网站-对应网站设置- 复制到配置文件当中，然后重启nginx即可生效。
如果是脚本版，找nginx.conf配置文件添加也可以。
Nginx配置文件禁止爬虫

一些常用的爬虫，复制进去保存，然后nginx重新载入即可：

#屏蔽垃圾蜘蛛
if ($http_user_agent ~* (SemrushBot|python|MJ12bot|AhrefsBot|hubspot|petalbot|ImagesiftBot|ImagesiftBot|opensiteexplorer|leiki|webmeup)) {
return 444;
}

也有更详细一点的内容。也可以同样的方法复制进配置文件屏蔽：

if ($http_user_agent ~ "Neevabot|TTD-Content|FeedDemon|ThinkBot|MTRobot|SMTBot|LieBaoFast|Punkspider|MauiBot|Barkrowler|MegaIndex.ru|JikeSpider|TkBot|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|SemrushBot|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|MJ12bot|heritrix|EasouSpider|LinkpadBot|Ezooms|bsalsa|DotBot|DataXu|Daum|BLEXBot|Scrapy|PetalBot|proximic|GrapeshotCrawler|Mail.RU_Bot|Nimbostratus-Bot|ias-|AdsTxtCrawler|SeznamBot|evc-batch|AspiegelBot|Re-re Studio|^$" )
{
return 403;
}

现在出现了OpenAI的GPTBot,也可以加入进去。

2：通过宝塔防火墙。

不管是收费的nginx防火墙还是收费版的Nginx防火墙，均有UA黑名单功能。
打开防火墙设置，全局设置，UA黑名单。即可添加黑名单UA。

PS：重点需屏蔽Imagesift、Semrush、Ahrefs，这几个UA爬得凶，真正的一点用都没。然后在网上搜索UA的时候注意下下，有些蜘蛛的UA是搜索引擎的，不小心加入了可能导致网站被搜索引擎拔毛。

(.*)Scrapy(.*) //PY写爬出必备头
(.*)SemrushBot(.*) //垃圾蜘蛛
(.*)AhrefsBot(.*) //外链爬取
(.*)Applebot(.*) //苹果蜘蛛
(.*)AspiegelBot(.*) //华为蜘蛛
(.*)DotBot(.*) //垃圾国外蜘蛛
(.*)DataForSeoBot(.*) //垃圾SEO蜘蛛
(.*)java(.*) //JAVA写的爬虫
(.*)MJ12bot(.*) //垃圾国外蜘蛛
(.*)PetalBot(.*) //华为蜘蛛
(.*)python(.*) //PY探测器
(.*)seo(.*) //垃圾SEO蜘蛛
(.*)Censys(.*) //安全渗透平台绕过CDN的

//后为简单解释导入时请忽略

手动添加到防火墙。

Amazonbot
ClaudeBot
PetalBot
gptbot
Ahrefs
Semrush
Imagesift
Teoma
ia_archiver
twiceler
MSNBot
Scrubby
Robozilla
Gigabot
yahoo-mmcrawler
yahoo-blogs/v3.9
psbot