|
作者:微信文章
FuzzyAI 是由CyberArk开发的开源工具,旨在帮助企业识别和解决人工智能(AI)模型中的漏洞,特别是防范模型被绕过安全限制(即“越狱”)的风险。
主要功能:
全面模糊测试:FuzzyAI使用多种攻击技术测试AI模型,揭示诸如绕过防护机制、信息泄露、提示注入或生成有害输出等漏洞。
可扩展框架:用户可以添加自定义的攻击方法,针对特定领域的漏洞进行测试,以满足不同组织的需求。
社区协作:FuzzyAI拥有一个不断壮大的社区生态系统,促进对抗技术和防御机制的持续进步。
背景:
随着AI模型在各行业的广泛应用,如客户互动、内部流程改进和自动化等,新的安全挑战也随之而来。FuzzyAI通过为企业提供系统化的方法,测试AI模型对各种对抗性输入的反应,揭示其安全系统中的潜在弱点,使AI的开发和部署更加安全。
已实现的攻击方法:
| Attack Type | Title | Reference | ArtPrompt | 基于 ASCII 艺术的对齐大型语言模型的越狱攻击 | arXiv:2402.11753 | Taxonomy-based paraphrasing | 使用情感诉求等说服性语言技术绕过大型语言模型的安全防护 | arXiv:2401.06373 | PAIR (Prompt Automatic Iterative Refinement) | 使用两个大型语言模型迭代优化提示,自动生成对抗性提示 | arXiv:2310.08419 | Many-shot jailbreaking | 嵌入多个虚假对话示例以削弱模型安全性 | Anthropic Research | Genetic | 使用遗传算法修改提示以实现对抗性目标 | arXiv:2309.01446 | Hallucinations | 使用模型生成的内容绕过强化学习奖励模型的过滤器 | arXiv:2403.04769 | DAN (Do Anything Now) | 促使大型语言模型采用不受限制的人格,忽略标准内容过滤器,从而可以“立即执行任何操作” | GitHub Repo | WordGame | 将有害提示伪装为文字谜题 | arXiv:2405.14023 | Crescendo | 通过一系列逐步升级的对话,从无害查询开始,逐渐引导对话进入受限或敏感话题 | arXiv:2404.01833 | ActorAttack | 受演员网络理论启发,构建语义网络,通过“演员”巧妙引导对话朝向有害目标,同时隐藏恶意意图 | arxiv 2410.10700 | Best-of-n jailbreaking | 使用输入变体反复引出有害响应,利用模型的敏感性 | arXiv:2412.03556 | Back To The Past | 通过添加职业相关前缀和过去相关后缀修改提示 |
| Please | 通过在提示中添加“请”作为前缀和后缀修改提示 |
| Thought Experiment | 通过在提示中添加与思想实验相关的前缀,并添加“已采取预防措施”的后缀进行修改 |
| Default | 将提示按原样发送到模型 |
|
|
当前支持的模型:
供应商 | 模型 | Anthropic | Claude (3.5, 3.0, 2.1) | OpenAI | GPT-4o, GPT-4o mini, GPT-4 | Gemini | Gemini Pro, Gemini 1.5 | Azure | GPT-4, GPT-3.5 Turbo | Bedrock | Claude (3.5, 3.0), Meta (LLaMa) | AI21 | Jamba (1.5 Mini, Large) | Ollama | LLaMA (3.3, 3.2, 3.1), Dolphin-LLaMA3, Vicuna |
你也可以自行添加对其他模型的支持,具体方法请看
https://github.com/cyberark/FuzzyAI/wiki/DIY#adding-support-for-new-models
获取方式:
FuzzyAI作为开源软件,使用 Apache 许可证,可在CyberArk Labs的GitHub页面上获取 (https://github.com/cyberark/FuzzyAI)。
通过使用FuzzyAI,企业和研究人员可以积极强化其AI系统,抵御新兴威胁,确保AI模型的安全性和可靠性。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?注册
x
|