网站屏蔽恶意爬虫User-Agent方法/屏蔽爬虫AI采集UA列表-网站屏蔽恶意爬虫User-Agent方法/屏蔽爬虫AI采集UA列表 新搭建的环境,刚转移过来,就发现大量的爬虫,采集程序过来了。 在

谷子猫博客

一个简单爱分享的小站!^_^!
首页>> 技术文档 >>网站屏蔽恶意爬虫User-Agent方法/屏蔽爬虫AI采集UA列表

网站屏蔽恶意爬虫User-Agent方法/屏蔽爬虫AI采集UA列表


新搭建的环境,刚转移过来,就发现大量的爬虫,采集程序过来了。
之前谷子也在环境做过屏蔽,不过时间久了,都忘记还要弄,再加上有些新的蜘蛛爬虫开始泛滥,所以重新总结一下。

主要还是两种方式,一个修改Nginx配置文件直接拒绝访问,一个通过宝塔防火墙。
此前的搜索引擎还是认Robot.txt文件的,但是小蜘蛛和采集爬虫很显然不会遵守这个的。
爬虫爬取内容,增加服务器压力,主要是不带来访问,屏蔽它们是很有必要的。

屏蔽方法:
1:nginx配置文件屏蔽。
以宝塔为例,进入宝塔面板,然后选择网站-对应网站设置- 复制到 配置文件 当中,然后重启nginx即可生效。
如果是脚本版,找nginx.conf配置文件添加也可以。
Nginx配置文件禁止爬虫

一些常用的爬虫,复制进去保存,然后nginx重新载入即可:

    #屏蔽垃圾蜘蛛
    if ($http_user_agent ~* (SemrushBot|python|MJ12bot|AhrefsBot|hubspot|petalbot|ImagesiftBot|ImagesiftBot|opensiteexplorer|leiki|webmeup)) {
return 444;
}

也有更详细一点的内容。也可以同样的方法复制进配置文件屏蔽:

if ($http_user_agent ~ "Neevabot|TTD-Content|FeedDemon|ThinkBot|MTRobot|SMTBot|LieBaoFast|Punkspider|MauiBot|Barkrowler|MegaIndex.ru|JikeSpider|TkBot|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|SemrushBot|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|MJ12bot|heritrix|EasouSpider|LinkpadBot|Ezooms|bsalsa|DotBot|DataXu|Daum|BLEXBot|Scrapy|PetalBot|proximic|GrapeshotCrawler|Mail.RU_Bot|Nimbostratus-Bot|ias-|AdsTxtCrawler|SeznamBot|evc-batch|AspiegelBot|Re-re Studio|^$" )
{
  return 403;
}




现在出现了OpenAI的GPTBot,也可以加入进去。

2:通过宝塔防火墙。

不管是收费的nginx防火墙还是收费版的Nginx防火墙,均有UA黑名单功能。
打开防火墙设置,全局设置,UA黑名单。即可添加黑名单UA。

PS:重点需屏蔽Imagesift、Semrush、Ahrefs,这几个UA爬得凶,真正的一点用都没。然后在网上搜索UA的时候注意下下,有些蜘蛛的UA是搜索引擎的,不小心加入了可能导致网站被搜索引擎拔毛。


(.*)Scrapy(.*) //PY写爬出必备头
(.*)SemrushBot(.*)  //垃圾蜘蛛
(.*)AhrefsBot(.*)  //外链爬取
(.*)Applebot(.*) //苹果蜘蛛
(.*)AspiegelBot(.*) //华为蜘蛛
(.*)DotBot(.*) //垃圾国外蜘蛛
(.*)DataForSeoBot(.*) //垃圾SEO蜘蛛
(.*)java(.*) //JAVA写的爬虫
(.*)MJ12bot(.*) //垃圾国外蜘蛛
(.*)PetalBot(.*) //华为蜘蛛
(.*)python(.*) //PY探测器
(.*)seo(.*) //垃圾SEO蜘蛛
(.*)Censys(.*) //安全渗透平台绕过CDN的
//后为简单解释 导入时请忽略

手动添加到防火墙。


Amazonbot
ClaudeBot
PetalBot
gptbot
Ahrefs
Semrush
Imagesift
Teoma
ia_archiver
twiceler
MSNBot
Scrubby
Robozilla
Gigabot
yahoo-mmcrawler
yahoo-blogs/v3.9
psbot

添加爬虫Bot的UA到宝塔防火墙黑名单

宝塔防火墙设置屏蔽垃圾爬虫




参照之前内容:
https://www.xgiu.com/nginx_conf_zz



×

感谢您的支持,我们会一直保持!

扫码支持
请土豪扫码随意打赏

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

打赏作者
版权所有,转载注意明处:谷子博客 » 网站屏蔽恶意爬虫User-Agent方法/屏蔽爬虫AI采集UA列表
标签: seo教程 seo 浏览器 禁止 更新 百度

发表评论

路人甲

网友评论(0)