新闻 发表于 2025-2-3 23:17

AI爬虫成黑灰产利器:降维打击,反爬策略形同虚设,轻松窃取海量敏感数据

作者:微信文章
AI大家都知道,已经耳熟能详了,爬虫大家也应该知道。但这两者结合起来,在灰产里面又能做什么样的事情呢?今天我来给大家分享一个灰产发财的案例。

这个案例是前几天一个北京自由职业的朋友聊天时候跟我说,让我大开眼界。

在介绍具体的案例之前还是简单跟大家做一个科普。我们所说的AI人工智能,具体体现在基于大模型算力的基础上做推测、分析和内容生成。除了文本外,AI目前已经能够做到对于图片上的文案提取和分析。

比如,给一大堆有文字描述的图片,AI除了可以解析出图片上的文本外,还能够继续文本进行聚类,还可以根据prompt抓取符合指定规则的图片文本。

我随手画的一幅图,可以轻松利用豆包解析出来符合规则的文本。



另外一个背景是爬虫,爬虫我们又叫蜘蛛,简单来说就是抓取互联网上的信息,抓什么信息都可以,理论上只要是互联网开放的资源,都可以通过HTTP请求抓取。

一般来说,网上的数据如果是量少的话,几乎没有什么价值。但是一旦数量特别大的时候就形成了规模化的效应。

比如你要是通过肉眼去网上搞几百个手机号是没有什么价值的,但是如果你通过爬虫的方式爬到了几十万甚至几百万的用户手机号,那么这一批数据是值钱的,自然有很多买家愿意购买。

除了用户的隐私信息之外,还有一条非常巨大的产业链,就是爬取竞对的业务数据。比如说电商网站之间相互爬商品和订单的信息,这些是有很高的战略分析价值的。

我之前在研究生的时候,到了一个就业平台实习,主要就是去竞对网站抓取简历和招聘信息。只要分析了竞对的简历和招聘聚类情况,就能够极大的改善自己的战略计划。

比如只要发现有某一些大公司开始在竞对招聘网站上发布信息,就可以发动自己招聘专员去主动联系这些公司以获取独家职位。

爬虫这条路随着人们的安全意识越来越高,也随着平台化对于用户隐私和业务数据的监管越来越严,爬虫这条路就不太好操作了。

爬虫的基本原理是通过HTTP的URI或者模仿用户登录去抓取数据。

现在的很多网站在反爬上面做了大量的工作,只通过API的话根本就访问不到任何有用的数据。比如还会在当下的业务里面叠加很多随机的干扰因子,使得爬虫不太容易快速的抓取到有效的信息。

于是乎在这个背景下,AI和爬虫结合就产生了新的爬取能力。

AI做爬虫,目前换了一个新的思路,采用浏览器+图形识别的能力来抓取和分析数据,这种方式就使得避开了原来API调用的缺点,使得传统的反爬策略都失效了。

这种方式的优点就是它模拟是真人的操作,几乎是和真人一模一样的访问,AI先打开浏览器模拟用户登录,访问指定的页面后,调用截图功能,然后对图片上面的文案进行分析获得最终的核心数据。

这种大幅度降低了用真人的成本,绕过了API的加密限制。几乎可以做到所见即所得,并且用prompt方式可以更高的灵敏度去做微调。

比如当平台把价格隐藏在某一些角落里面,或者随机的变化在界面的展示位置,传统的API抓取就可能失效了,但是AI图形识别能力能够精准的发现并且进行批量的采集,就算网站调整了规则,我们只需要调整prompt就行。

所以在这种黑科技下,识别和抓取变得更加的精准。黑灰产又换了一种方式,对于数据爬取有了革命性的进展。

所以在这里做工程和算法的同学一定要注意保护好自己平台的信息。不仅在API上面做反爬,还要考虑到在当前的AI抓图分析的情况下如何反爬。
页: [1]
查看完整版本: AI爬虫成黑灰产利器:降维打击,反爬策略形同虚设,轻松窃取海量敏感数据