FuzzyAI —— 使用多种攻击技术测试 AI 模型

我爱免费 · 发表于 2025-1-17 00:56

作者：微信文章

FuzzyAI 是由CyberArk开发的开源工具，旨在帮助企业识别和解决人工智能（AI）模型中的漏洞，特别是防范模型被绕过安全限制（即“越狱”）的风险。

主要功能：

背景：

随着AI模型在各行业的广泛应用，如客户互动、内部流程改进和自动化等，新的安全挑战也随之而来。FuzzyAI通过为企业提供系统化的方法，测试AI模型对各种对抗性输入的反应，揭示其安全系统中的潜在弱点，使AI的开发和部署更加安全。

已实现的攻击方法：

Attack Type	Title	Reference
ArtPrompt	基于 ASCII 艺术的对齐大型语言模型的越狱攻击	arXiv:2402.11753
Taxonomy-based paraphrasing	使用情感诉求等说服性语言技术绕过大型语言模型的安全防护	arXiv:2401.06373
PAIR (Prompt Automatic Iterative Refinement)	使用两个大型语言模型迭代优化提示，自动生成对抗性提示	arXiv:2310.08419
Many-shot jailbreaking	嵌入多个虚假对话示例以削弱模型安全性	Anthropic Research
Genetic	使用遗传算法修改提示以实现对抗性目标	arXiv:2309.01446
Hallucinations	使用模型生成的内容绕过强化学习奖励模型的过滤器	arXiv:2403.04769
DAN (Do Anything Now)	促使大型语言模型采用不受限制的人格，忽略标准内容过滤器，从而可以“立即执行任何操作”	GitHub Repo
WordGame	将有害提示伪装为文字谜题	arXiv:2405.14023
Crescendo	通过一系列逐步升级的对话，从无害查询开始，逐渐引导对话进入受限或敏感话题	arXiv:2404.01833
ActorAttack	受演员网络理论启发，构建语义网络，通过“演员”巧妙引导对话朝向有害目标，同时隐藏恶意意图	arxiv 2410.10700
Best-of-n jailbreaking	使用输入变体反复引出有害响应，利用模型的敏感性	arXiv:2412.03556
Back To The Past	通过添加职业相关前缀和过去相关后缀修改提示
Please	通过在提示中添加“请”作为前缀和后缀修改提示
Thought Experiment	通过在提示中添加与思想实验相关的前缀，并添加“已采取预防措施”的后缀进行修改
Default	将提示按原样发送到模型

当前支持的模型：

供应商	模型
Anthropic	Claude (3.5, 3.0, 2.1)
OpenAI	GPT-4o, GPT-4o mini, GPT-4
Gemini	Gemini Pro, Gemini 1.5
Azure	GPT-4, GPT-3.5 Turbo
Bedrock	Claude (3.5, 3.0), Meta (LLaMa)
AI21	Jamba (1.5 Mini, Large)
Ollama	LLaMA (3.3, 3.2, 3.1), Dolphin-LLaMA3, Vicuna

你也可以自行添加对其他模型的支持，具体方法请看

https://github.com/cyberark/FuzzyAI/wiki/DIY#adding-support-for-new-models

获取方式：

FuzzyAI作为开源软件，使用 Apache 许可证，可在CyberArk Labs的GitHub页面上获取 (https://github.com/cyberark/FuzzyAI)。

通过使用FuzzyAI，企业和研究人员可以积极强化其AI系统，抵御新兴威胁，确保AI模型的安全性和可靠性。

账号		自动登录	找回密码
密码			注册

萍聚头条

FuzzyAI —— 使用多种攻击技术测试 AI 模型

本帖子中包含更多资源