【AI爬虫成黑灰产利器:降维打击,反爬策略形同虚设,轻松窃取海量敏感数据】萍聚社区-德国热线-德国实用信息网人工智能

新闻发表于 2025-2-3 23:17

AI爬虫成黑灰产利器:降维打击,反爬策略形同虚设,轻松窃取海量敏感数据

作者：微信文章
AI大家都知道，已经耳熟能详了，爬虫大家也应该知道。但这两者结合起来，在灰产里面又能做什么样的事情呢？今天我来给大家分享一个灰产发财的案例。

这个案例是前几天一个北京自由职业的朋友聊天时候跟我说，让我大开眼界。

在介绍具体的案例之前还是简单跟大家做一个科普。我们所说的AI人工智能，具体体现在基于大模型算力的基础上做推测、分析和内容生成。除了文本外，AI目前已经能够做到对于图片上的文案提取和分析。

比如，给一大堆有文字描述的图片，AI除了可以解析出图片上的文本外，还能够继续文本进行聚类，还可以根据prompt抓取符合指定规则的图片文本。

我随手画的一幅图，可以轻松利用豆包解析出来符合规则的文本。

另外一个背景是爬虫，爬虫我们又叫蜘蛛，简单来说就是抓取互联网上的信息，抓什么信息都可以，理论上只要是互联网开放的资源，都可以通过HTTP请求抓取。

一般来说，网上的数据如果是量少的话，几乎没有什么价值。但是一旦数量特别大的时候就形成了规模化的效应。

比如你要是通过肉眼去网上搞几百个手机号是没有什么价值的，但是如果你通过爬虫的方式爬到了几十万甚至几百万的用户手机号，那么这一批数据是值钱的，自然有很多买家愿意购买。

除了用户的隐私信息之外，还有一条非常巨大的产业链，就是爬取竞对的业务数据。比如说电商网站之间相互爬商品和订单的信息，这些是有很高的战略分析价值的。

我之前在研究生的时候，到了一个就业平台实习，主要就是去竞对网站抓取简历和招聘信息。只要分析了竞对的简历和招聘聚类情况，就能够极大的改善自己的战略计划。

比如只要发现有某一些大公司开始在竞对招聘网站上发布信息，就可以发动自己招聘专员去主动联系这些公司以获取独家职位。

爬虫这条路随着人们的安全意识越来越高，也随着平台化对于用户隐私和业务数据的监管越来越严，爬虫这条路就不太好操作了。

爬虫的基本原理是通过HTTP的URI或者模仿用户登录去抓取数据。

现在的很多网站在反爬上面做了大量的工作，只通过API的话根本就访问不到任何有用的数据。比如还会在当下的业务里面叠加很多随机的干扰因子，使得爬虫不太容易快速的抓取到有效的信息。

于是乎在这个背景下，AI和爬虫结合就产生了新的爬取能力。

AI做爬虫，目前换了一个新的思路，采用浏览器+图形识别的能力来抓取和分析数据，这种方式就使得避开了原来API调用的缺点，使得传统的反爬策略都失效了。

这种方式的优点就是它模拟是真人的操作，几乎是和真人一模一样的访问，AI先打开浏览器模拟用户登录，访问指定的页面后，调用截图功能，然后对图片上面的文案进行分析获得最终的核心数据。

这种大幅度降低了用真人的成本，绕过了API的加密限制。几乎可以做到所见即所得，并且用prompt方式可以更高的灵敏度去做微调。

比如当平台把价格隐藏在某一些角落里面，或者随机的变化在界面的展示位置，传统的API抓取就可能失效了，但是AI图形识别能力能够精准的发现并且进行批量的采集，就算网站调整了规则，我们只需要调整prompt就行。

所以在这种黑科技下，识别和抓取变得更加的精准。黑灰产又换了一种方式，对于数据爬取有了革命性的进展。

所以在这里做工程和算法的同学一定要注意保护好自己平台的信息。不仅在API上面做反爬，还要考虑到在当前的AI抓图分析的情况下如何反爬。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI爬虫成黑灰产利器:降维打击,反爬策略形同虚设,轻松窃取海量敏感数据