24小时故障咨询电话客服在线解答故障
Meta 开源 LlamaFirewall 防护工具,助力构建安全 AI 智能体

Meta 开源 LlamaFirewall 防护工具,助力构建安全 AI 智能体

更新时间:  浏览次数:7690  

IT之家 5 月 9 日消息,meta AI 公司最新推出 LlamaFirewall,应对 AI 智能体不断演变的威胁格局,为生产环境中的 AI 智能体提供系统级安全保护。

随着大型语言模型(LLMs)嵌入 AI 智能体并被广泛应用于高权限场景,安全隐患随之增加。这些智能体可以读取邮件、生成代码、调用 API,一旦被恶意利用,后果不堪设想。

传统的安全机制,如聊天机器人内容审核或硬编码模型限制,已无法满足具备广泛能力的 AI 智能体需求。meta AI 针对提示注入攻击、智能体行为与用户目标不一致、以及不安全的代码生成三大核心挑战,开发了 LlamaFirewall。

IT之家援引博文介绍,LlamaFirewall 采用分层框架,包含三个专门的防护模块:

promptGuard 2 是一个基于 BERT 架构的分类器,能实时检测越狱行为和提示注入,支持多语言输入,其 86M 参数模型性能强劲,22M 轻量版本则适合低延迟部署。

AlignmentCheck 是一种实验性审计工具,通过分析智能体内部推理轨迹,确保行为与用户目标一致,特别擅长检测间接提示注入。

CodeShield 则是一个静态分析引擎,检查 LLM 生成代码中的不安全模式,支持多种编程语言,能在代码提交或执行前捕获 SQL 注入等常见漏洞。

meta 在 AgentDojo 基准测试中评估了 LlamaFirewall,模拟了 97 个任务领域的提示注入攻击。

结果显示,promptGuard 2(86M)将攻击成功率(ASR)从 17.6% 降至 7.5%,任务实用性损失极小;AlignmentCheck 进一步将 ASR 降至 2.9%;整体系统将 ASR 降低 90% 至 1.75%,实用性略降至 42.7%。CodeShield 在不安全代码数据集上也表现出色,精准度达 96%,召回率(recall) 79%,响应时间适合生产环境实时使用。

【编辑:】
拨打服务热线后的评价
无尽的旅程2024-08-16

家里空调制冷效果不好了,在网上看到了这家家电维修,服务态度非常好,修好了测试空调可以正常工作了。收费透明不贵

孤独的心2024-03-05

师傅上门很及时,热水器不出热水弄得很完美,价格嘛是提前说的,很满意,合格,满分,修好了

孤独的心灵2024-06-02

师傅到家时间非常快,服务也非常好,技术到位,修的很满意,价格也很好,值得推荐给大家哦!

月色如水2023-10-23

空调开起来不是很冷,可能是没氟了,打了客服电话,询问具体地址后,半小时内就上门了,检测后是缺氟了,十来分钟就加好了,超赞

思念的星空2023-04-07

下单响应速度很快,服务态度好技术一流,非常正规,下次有需要再联系

孤独的星辰2024-09-21

质量:服务质量很好,维修服务师傅很快上门,找了别的师傅都没搞好,还是至胜家电师傅一上门就搞好了,收费合理还有保修期

孤独的星辰2023-10-30

热水器水烧不热,顺便也清洗了下,太脏了,师傅上门也很及时,很细心也很专业。

无尽的心灵2023-10-13

质量:一打电话就马上来了查看,并且价格比了几家还是这个老板最好说话,服务也很好,以后有需要可以直接找这家的老板了

茶色岛2023-07-25

维修师傅仔细排查,马上找到故障点维修,一看就是训练有素、技术娴熟精湛,爱岗敬业者。不怕苦累,放弃节日乐意浓浓与家人团聚的亲情氛围,坚守岗位、恪尽职守、尽职尽责甘愿辛苦自己换来亮起万家灯火,

夜色中的飞舞2023-03-11

热水器水烧不热,顺便也清洗了下,太脏了,师傅上门也很及时,很细心也很专业。

查看更多评价 ∨
拨打电话