萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 196|回复: 0

FuzzyAI —— 使用多种攻击技术测试 AI 模型

[复制链接]
发表于 2025-1-17 00:56 | 显示全部楼层 |阅读模式
作者:微信文章


FuzzyAI 是由CyberArk开发的开源工具,旨在帮助企业识别和解决人工智能(AI)模型中的漏洞,特别是防范模型被绕过安全限制(即“越狱”)的风险。



主要功能:

    全面模糊测试:FuzzyAI使用多种攻击技术测试AI模型,揭示诸如绕过防护机制、信息泄露、提示注入或生成有害输出等漏洞。

    可扩展框架:用户可以添加自定义的攻击方法,针对特定领域的漏洞进行测试,以满足不同组织的需求。

    社区协作:FuzzyAI拥有一个不断壮大的社区生态系统,促进对抗技术和防御机制的持续进步。





背景:

随着AI模型在各行业的广泛应用,如客户互动、内部流程改进和自动化等,新的安全挑战也随之而来。FuzzyAI通过为企业提供系统化的方法,测试AI模型对各种对抗性输入的反应,揭示其安全系统中的潜在弱点,使AI的开发和部署更加安全。

已实现的攻击方法:

Attack TypeTitleReference
ArtPrompt基于 ASCII 艺术的对齐大型语言模型的越狱攻击arXiv:2402.11753
Taxonomy-based paraphrasing使用情感诉求等说服性语言技术绕过大型语言模型的安全防护arXiv:2401.06373
PAIR (Prompt Automatic Iterative Refinement)使用两个大型语言模型迭代优化提示,自动生成对抗性提示arXiv:2310.08419
Many-shot jailbreaking嵌入多个虚假对话示例以削弱模型安全性Anthropic Research
Genetic使用遗传算法修改提示以实现对抗性目标arXiv:2309.01446
Hallucinations使用模型生成的内容绕过强化学习奖励模型的过滤器arXiv:2403.04769
DAN (Do Anything Now)促使大型语言模型采用不受限制的人格,忽略标准内容过滤器,从而可以“立即执行任何操作”GitHub Repo
WordGame将有害提示伪装为文字谜题arXiv:2405.14023
Crescendo通过一系列逐步升级的对话,从无害查询开始,逐渐引导对话进入受限或敏感话题arXiv:2404.01833
ActorAttack受演员网络理论启发,构建语义网络,通过“演员”巧妙引导对话朝向有害目标,同时隐藏恶意意图arxiv 2410.10700
Best-of-n jailbreaking使用输入变体反复引出有害响应,利用模型的敏感性arXiv:2412.03556
Back To The Past通过添加职业相关前缀和过去相关后缀修改提示
Please通过在提示中添加“请”作为前缀和后缀修改提示
Thought Experiment通过在提示中添加与思想实验相关的前缀,并添加“已采取预防措施”的后缀进行修改
Default将提示按原样发送到模型

当前支持的模型:
供应商模型
AnthropicClaude (3.5, 3.0, 2.1)
OpenAIGPT-4o, GPT-4o mini, GPT-4
GeminiGemini Pro, Gemini 1.5
AzureGPT-4, GPT-3.5 Turbo
BedrockClaude (3.5, 3.0), Meta (LLaMa)
AI21Jamba (1.5 Mini, Large)
OllamaLLaMA (3.3, 3.2, 3.1), Dolphin-LLaMA3, Vicuna


你也可以自行添加对其他模型的支持,具体方法请看

https://github.com/cyberark/FuzzyAI/wiki/DIY#adding-support-for-new-models

获取方式:

FuzzyAI作为开源软件,使用 Apache 许可证,可在CyberArk Labs的GitHub页面上获取 (https://github.com/cyberark/FuzzyAI)。

通过使用FuzzyAI,企业和研究人员可以积极强化其AI系统,抵御新兴威胁,确保AI模型的安全性和可靠性。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-2-12 07:59 , Processed in 0.056052 second(s), 16 queries , MemCached On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表