谷子猫博客

一个简单爱分享的小站!^_^!
首页>> 技术文档 >>网站屏蔽恶意蜘蛛爬虫教程/Nginx配置文件封禁Spider方法


之前已经发现现在互联网流量很多来源于互联网大厂的蜘蛛爬虫。

通过爬虫机器人采集互联网内容。遗憾的是大厂的爬虫通常不会带来有效流量,它们采集到内容,图片资源后,有的训练自家的AI,有的把内容整理后自己再展出,与搜索引擎不同,它们不会保留引导到其它站点的连接。除了取走内容,它们一些爬虫的光顾程度还很高,占用服务器资源。

随着AI的发展,联网的BOT蜘蛛越来越多,可以在后台将bot封禁掉。

以宝塔面板为例,在 网站-设置-配置文件 当中,能够修改nginx配置文件,Nginx读取到UA如果是特定蜘蛛,会返回错误提示:

Nginx配置文件封禁Spider方法

如:

if ($http_user_agent ~ “hubspot|CCBot|VelenPublicWebCrawler|Konturbot|my-tiny-bot|eiki|webmeup|ExtLinksBot|Go-http-client|Python|ZoominfoBot|MegaIndex.ru|GPTBot|MauiBot|Amazonbot|ds-robot|intelx.io|coccocbot|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Applebot|Java|Barkrowler|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|DuckDuckGo|ClaudeBot|coccocbot|ZmEu|oBot|GPTBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|MJ12bot|DotBot|heritrix|Html5plus|BLEXBot|serpstatbot|Ezooms|JikeSpider|Barkrowler|InfoTigerBot|SemrushBot|DuckDuckGo-Favicons-Bot|ImagesiftBot|^$” ) {
return 403;
}


#临时禁止,以后可以删除
if ($http_user_agent ~ “hubspot|rwth-aachen.de|^$” ) {

return 403;

}


HttpClient 有时候是恶意的,但有时候会影响

小蜘蛛:

if ($http_user_agent ~ “Phpzhanqun|HostHarvest|python-requests|^$” ) {

return 403;

}


也可以宝塔防火墙组件的UA黑名单功能,添加蜘蛛:
宝塔防火墙组件的UA黑名单禁止爬虫


Amazonbot:Amazonbot is Amazon’s web crawler used to improve our services, such as enabling Alexa to answer even more questions for customers. Amazonbot respects standard robots.txt rules. 可以屏蔽

Go-http-client:这个是 是阿里云(或腾讯云 )的全站加速 为了确定最优线路用的蜘蛛,也可能是go语言制作的http客户端,可能其它程序抓使用的;不是正常浏览器,暂作屏蔽 。

Bytespider: 字节跳动的蜘蛛,可能为了迅速建立数据库,抓取频率过高。海外市占率低,可以考虑屏蔽。

Pro Sitemaps Generator: pro-sitemaps.com 一个生成站点地图的工具,会给网站增加负担,不需要都加,碰到了加就可以。

增加:

ImagesiftBot,这个是抓取图片,给AI用的蜘蛛
researchscan.comsys.rwth-aachen.de: 德国大学研究网站安全的扫描 (临时禁止,以后可以删除)

GPTBot: ChatGPT的蜘蛛,禁用!

ClaudeBot: 大数据AI抓取蜘蛛,非常没有道德暴力抓取,直击禁止。最好还能禁止他们服务器的IP。



×

感谢您的支持,我们会一直保持!

扫码支持
请土豪扫码随意打赏

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

打赏作者
版权所有,转载注意明处:谷子博客 » 网站屏蔽恶意蜘蛛爬虫教程/Nginx配置文件封禁Spider方法
标签: 禁止 更新 VPS

发表评论

路人甲

网友评论(0)