AI爬虫失控?OpenAI被指“洗劫”小型网站,7人团队十年心血险些毁于一旦
作者:微信文章近日,乌克兰一家名为 Triplegangers 的小型企业因 OpenAI 的 GPTBot 网络爬虫而陷入困境,整个公司网站几乎毁于一旦。
这一事件不仅对该公司造成了巨大的损失,也引发了关于 AI 爬虫的道德和法律边界的广泛讨论。
十年心血网站一夜之间宕机
Triplegangers 是一家专注于人体 3D 模型的企业,成立已有十余年,依靠 7 名员工一步步建立起了一个庞大的“人体数字替身”数据库。
这一数据库包含大量高精度的 3D 图像和扫描数据,覆盖了“脸部”、“全身”、“姿态全身”、“情侣全身”等多个类别,主要服务于 3D 艺术家、游戏开发者以及需要真实人类特征数字化再现的客户。
据该公司 CEO Oleksandr Tomchuk 介绍,该网站目前拥有超过 65,000 种产品,每种产品页面至少附有三张高质量图片,总计数十万张图像。如此庞大的数据资源,承载着团队多年的努力和商业价值。
然而,令人意想不到的是,这一切险些在一场“爬虫风暴”中被摧毁。
罪魁祸首:GPTBot 爬虫
事件起因于 OpenAI 推出的 GPTBot 网络爬虫工具。据悉,GPTBot 自 2023 年 8 月上线以来,主要用于抓取公开可用的互联网数据,以优化和训练其大语言模型(如 ChatGPT)。
然而,Triplegangers 的团队发现,GPTBot 突然对其网站发起了数万次请求,试图下载网站中的所有内容,包括数十万张图片和详细说明。这种大规模的抓取行为迅速耗尽了服务器资源,导致整个网站彻底宕机。
“他们的爬虫程序正在摧毁我们的网站!”Tomchuk 愤怒地表示,“这就像一次 DDoS 攻击。”
更让团队无奈的是,OpenAI 的爬虫程序不仅使用了 GPTBot,还包括 ChatGPT-User 和 OAI-SearchBot 两款爬虫工具,同时发起请求。
根源:robots.txt 配置问题
OpenAI 声称,其爬虫工具严格遵守网络标准 robots.txt 文件的指令。
网站所有者可以通过配置 robots.txt 文件明确禁止爬虫访问。然而,问题在于:
1.配置要求复杂
Trilegangers 的网站起初并未正确配置 robots.txt 文件,这使得 OpenAI 的爬虫认为其内容可以随意抓取。
2.识别时间滞后
即使后来修正了配置,OpenAI 的系统也需要约 24 小时才能生效。这期间爬虫仍然会对网站造成影响。
3.更多未知爬虫的存在
即便屏蔽了 GPTBot,其他爬虫工具(如 Barkrowler 和 Bytespider)依旧可以绕过限制发起抓取。
正是这些技术上的“漏洞”让 Trilegangers 网站猝不及防。
商业和法律挑战
这起事件不仅让 Triplegangers 网站下线,还可能带来高额的 AWS 云服务账单。而更令人担忧的是,团队至今无法确认 OpenAI 究竟抓取了哪些数据,以及这些数据是否会用于商业用途。
在欧洲,《通用数据保护条例》(GDPR)明确规定,未经授权收集与使用个人数据是违法行为。但在现有规则下,AI 爬虫可以利用技术手段规避监管,进一步模糊了责任边界。
Tomchuk 表示:“我们的业务涉及实际人体扫描,相关内容受到严格的知识产权保护。任何未经授权的抓取行为都可能导致严重的法律后果。”
业界的普遍困境
事实上,Triplegangers 的遭遇并非孤例。许多中小型网站在面对 AI 爬虫时都表现得措手不及。
一名网站开发者 @markerz 分享了自己的经历:
“我的一个网站曾被 Meta 的 AI 爬虫完全摧毁,它不断发起请求,直到服务器崩溃。尽管后来我屏蔽了这些爬虫,但 AI 爬虫的存在对小型网站来说无异于噩梦。”
另一位从事爬虫开发的工程师 @griomnib 更是直言:
“AI 公司对网络的基本礼仪毫无尊重。低效、激进的爬虫行为让人极度厌恶。”
事件的警示意义
此次事件不仅揭示了 AI 爬虫工具带来的潜在风险,也为中小企业敲响了警钟:
1.加强技术防御
网站运营者应熟练掌握 robots.txt 文件的配置方法,并结合其他工具(如 Cloudflare)进一步阻止爬虫访问。
2.主动监控日志
定期检查服务器日志是发现异常爬取行为的关键。
3.呼吁更严格的法规
目前关于 AI 爬虫的法律法规尚不完善,业界需要制定更清晰的规则,保护小型企业的合法权益。
正如 Tomchuk 所言:“现在,我们不得不每天监控日志活动,以防止爬虫偷取数据。但并不是每一家小型企业都能负担这样的额外成本。”
Triplegangers 的经历让我们看到了技术进步背后的另一面——当强大的 AI 工具被滥用时,受害者往往是那些缺乏资源的中小企业。如何平衡技术创新与商业伦理,将是未来必须直面的挑战。
----------------------------------------------------------------------------
“垂直求值”——聚焦学术前沿,速览科技要闻。精筛各领域文献,深析科研成果。
关注垂直求值微信公众号
论文咨询及论文合作请添加垂直求值小助理
微信号✅:ATesfaye7
小红书
页:
[1]