之前已经发现现在互联网流量很多来源于互联网大厂的蜘蛛爬虫。
通过爬虫机器人采集互联网内容。遗憾的是大厂的爬虫通常不会带来有效流量,它们采集到内容,图片资源后,有的训练自家的AI,有的把内容整理后自己再展出,与搜索引擎不同,它们不会保留引导到其它站点的连接。除了取走内容,它们一些爬虫的光顾程度还很高,占用服务器资源。
随着AI的发展,联网的BOT蜘蛛越来越多,可以在后台将bot封禁掉。
以宝塔面板为例,在 网站-设置-配置文件 当中,能够修改nginx配置文件,Nginx读取到UA如果是特定蜘蛛,会返回错误提示:
if ($http_user_agent ~ “hubspot|CCBot|VelenPublicWebCrawler|Konturbot|my-tiny-bot|eiki|webmeup|ExtLinksBot|Go-http-client|Python|ZoominfoBot|MegaIndex.ru|GPTBot|MauiBot|Amazonbot|ds-robot|intelx.io|coccocbot|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Applebot|Java|Barkrowler|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|DuckDuckGo|ClaudeBot|coccocbot|ZmEu|oBot|GPTBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|MJ12bot|DotBot|heritrix|Html5plus|BLEXBot|serpstatbot|Ezooms|JikeSpider|Barkrowler|InfoTigerBot|SemrushBot|DuckDuckGo-Favicons-Bot|ImagesiftBot|^$” ) {
return 403;
}
#临时禁止,以后可以删除
if ($http_user_agent ~ “hubspot|rwth-aachen.de|^$” ) {
return 403;
}
HttpClient 有时候是恶意的,但有时候会影响
小蜘蛛:
if ($http_user_agent ~ “Phpzhanqun|HostHarvest|python-requests|^$” ) {
return 403;
}
也可以宝塔防火墙组件的UA黑名单功能,添加蜘蛛:

Amazonbot:Amazonbot is Amazon’s web crawler used to improve our services, such as enabling Alexa to answer even more questions for customers. Amazonbot respects standard robots.txt rules. 可以屏蔽
Go-http-client:这个是 是阿里云(或腾讯云 )的全站加速 为了确定最优线路用的蜘蛛,也可能是go语言制作的http客户端,可能其它程序抓使用的;不是正常浏览器,暂作屏蔽 。
Bytespider: 字节跳动的蜘蛛,可能为了迅速建立数据库,抓取频率过高。海外市占率低,可以考虑屏蔽。
Pro Sitemaps Generator: pro-sitemaps.com 一个生成站点地图的工具,会给网站增加负担,不需要都加,碰到了加就可以。
增加:
ImagesiftBot,这个是抓取图片,给AI用的蜘蛛
researchscan.comsys.rwth-aachen.de: 德国大学研究网站安全的扫描 (临时禁止,以后可以删除)
GPTBot: ChatGPT的蜘蛛,禁用!
ClaudeBot: 大数据AI抓取蜘蛛,非常没有道德暴力抓取,直击禁止。最好还能禁止他们服务器的IP。
发表评论