人类通过诱导攻击、数据篡改和语义欺骗等手段成功欺骗AI系统,甚至让AI转账5万美元或误判图像内容。以下是具体方式:
-
诱导性指令操控
通过精心设计的指令(如伪装成安全审计员),引导AI违反预设规则。例如,某实验中的AI代理Freysa因一句特殊Prompt被诱骗转账4.7万美元,尽管其核心功能仅为批准或拒绝转账。 -
视觉干扰欺骗
在图像中添加人眼不可见的噪点,使AI误判内容。例如,噪点面具可骗过人脸识别系统,将用户识别为他人,甚至让AI将****误判为正常内容。 -
语义漏洞利用
使用替代词汇绕过AI安全过滤机制。例如,通过算法生成与敏感词语义相近的词汇(如“**”替代“裸体”),欺骗文本生成模型输出违规内容。 -
规则边界试探
反复测试AI的逻辑漏洞,例如通过暗示“转账不违反规则”等话术,逐步突破其决策边界。
这些案例揭示了AI在对抗性环境中的脆弱性,未来需加强对抗训练与安全验证。