360“智盾”：入选国家大模型安全标志性产品,内容,Safety,训练20250329-业界动态-pqbbw.com

360“智盾”：入选国家大模型安全标志性产品,内容,Safety,训练

2025-03-29 09:53:08

360“智盾”：入选国家大模型安全标志性产品,内容,Safety,训练

央广网北京3月28日消息日前，工业和信息化部正式发布(bu)2024年未(wei)来产业创新发展优秀典型案(an)例名单，三六零集团（以(yi)下简称(cheng)“360”）自主研发的大(da)模型安全护栏产品解(jie)决方案(an)（360“智盾”）成功入选(xuan)，成为人工智能安全领域(yu)标志性产品。本次优秀案(an)例征(zheng)集与评选(xuan)严格按照(zhao)工业和信息化部等七部门《关于推动未(wei)来产业创新发展的实施意(yi)见》的部署要求，聚焦(jiao)未(wei)来制造(zao)、未(wei)来信息、未(wei)来材(cai)料、未(wei)来能源、未(wei)来空间、未(wei)来健康(kang)等六大(da)方向，旨(zhi)在从国家层面遴选(xuan)出(chu)一批(pi)具有标杆和样本示范引领作用的典型优秀案(an)例。

在人工智能大(da)模型高速发展的背(bei)景下，模型在实际应用中暴露出(chu)诸多安全隐患，包括恶意(yi)操控、内容违规、隐私泄露、幻觉误导等问题，带来了前所未(wei)有的挑战。

例如，2024年11月，谷(gu)歌Gemini聊天机器人出(chu)现威胁用户行为；12月，Claude模型暗示未(wei)成年用户暴力行为；Deepseek R1在越狱(yu)攻击(ji)下大(da)量生成不良内容……这些事件充分暴露了大(da)模型在应用环节面临的严峻安全风险。

中国信息通信研究院发起的AI Safety Benchmark（大(da)模型安全基准测试）结果显示，当模型面临恶意(yi)攻击(ji)时，生成有害内容的成功率显著上升，凸显安全防护机制的迫切需求。

展开剩余(yu) 79 %

以(yi)模制模：用大(da)模型守护大(da)模型

面对大(da)模型落地应用中不断演化的内容安全挑战，360智脑团队深入探索、持续创新，率先提(ti)出(chu)“以(yi)模制模”理念——用大(da)模型能力保障大(da)模型自身的安全，并(bing)将相关能力产品化，打造(zao)出(chu)业界领先的大(da)模型内容安全解(jie)决方案(an)“360智盾”。

模型层：打造(zao)超级安全的“安全回复大(da)模型”

360团队通过持续预训练（Safety Continual Pretraining）、安全监督微调（Safety Supervised Fine-Tuning）、安全对齐（Safety Alignment）等方式，结合插值/外插训练技术和真实场景数据，不断提(ti)升模型本身的原生安全性能，最终构(gou)建出(chu)一个能够应对越狱(yu)攻击(ji)、处理高风险问题时依(yi)然保持“向善”响应的“安全回复大(da)模型”。

应用层：构(gou)建多层次内容护栏体系

在应用层，360“智盾”为业务(wu)大(da)模型外部加装“内容防护盔甲”：

输入端：用户输入内容首先经过风险识别分类器，根据风险等级进行分级处理：

红线(xian)类内容直接拒答；

敏(min)感(gan)但可答类交由“安全回复大(da)模型”处理；

安全内容正常进入业务(wu)模型；

输出(chu)端：模型生成内容再次经过检测，确保无违规风险。

语(yu)义理解(jie)驱动的风险识别模型

360自研的风险内容分类器基于语(yu)义大(da)模型构(gou)建，在识别精度和训练效率上全面优于传统关键词匹配和BERT类分类模型。

其训练数据严格对标《生成式人工智能服(fu)务(wu)安全基本要求（TC260-003）》中5大(da)类31小(xiao)类的违法不良信息类型，并(bing)结合实际业务(wu)场景细(xi)化出(chu)100余(yu)类风险标签。仅(jin)需少量示例样本，即可训练出(chu)行业领先水(shui)平的检测能力。

红蓝对抗攻防靶场：模拟实战，快速迭(die)代

线(xian)上大(da)模型服(fu)务(wu)所面临的风险复杂(za)多变，360创新构(gou)建基于大(da)模型的红蓝对抗靶场体系，实现自动化、系统化评估与迭(die)代：

红方（攻击(ji)方）：由“360红蓝对抗攻击(ji)大(da)模型”模拟真实攻击(ji)者，主动发起越狱(yu)、诱导等攻击(ji)；

蓝方（防御方）：包括“安全回复大(da)模型”在内的防护模型，接收攻击(ji)并(bing)构(gou)建防御机制；

裁判员：由“360安全评测大(da)模型”担任，对每轮输入输出(chu)进行定(ding)量分析，自动评估攻防成效。

通过标准化指标与自动化评估流程(cheng)，大(da)大(da)提(ti)高评测效率与覆盖率，实现产品能力的快速闭环迭(die)代。

赋能行业落地，服(fu)务(wu)全面升级

目前，360“智盾”已全面部署于360内部各大(da)模型业务(wu)中，为C端用户提(ti)供可靠的内容安全保障。同时也积极拓展外部服(fu)务(wu)，为政企(qi)客户提(ti)供大(da)模型生态链漏洞安全检测、内容安全防护与评估、备案(an)合规咨询、可信增强搜索等多项AI安全产品能力与服(fu)务(wu)，助力其在AI大(da)模型应用落地过程(cheng)中实现“安全可控”。截至目前，360“智盾”已在政务(wu)、金融、交通、能源等重(zhong)点行业完成落地，持续为行业客户打造(zao)更稳固的大(da)模型安全底座。

除“智盾”外，360推出(chu)的大(da)模型安全产品还包括“360智鉴”和“360智搜”。其中，“360智鉴”为大(da)模型系统安全检测平台(AISE)，该产品覆盖了从模型训练到推理的全链路安全检测，支撑对模型服(fu)务(wu)的相关组(zu)件识别、生态链漏洞扫描和多语(yu)言代码审计，确保大(da)模型系统安全；“360智搜”则(ze)是一款(kuan)大(da)模型可信增强(AISO)工具，融合多模态检索与语(yu)义理解(jie)技术，能够提(ti)供精准的搜索结果，并(bing)支撑基于企(qi)业私域(yu)数据的常识提(ti)炼(lian)与总(zong)结。其独特(te)之处在于整合多领域(yu)精品常识库，实现全网与私域(yu)常识的无缝对接，提(ti)升信息获取效率，并(bing)可帮助大(da)模型缓(huan)解(jie)幻觉问题，减少虚假或(huo)不准确信息，提(ti)升大(da)模型的可信度与可靠性，从而为企(qi)业提(ti)供更安全、更高效的业务(wu)支撑。

安全可控，向善可信

此次入选(xuan)工信部《2024年未(wei)来产业创新发展优秀典型案(an)例》，是唯一一个入选(xuan)的大(da)模型安全防护产品案(an)例。这不仅(jin)是对360在大(da)模型安全领域(yu)长期投入与领先能力的高度肯(ken)定(ding)，更充分体现出(chu)在AI应用加速落地的今(jin)天，安全可控的重(zhong)要性正日益(yi)凸显。

此前360智脑团队研发的“360智盾：大(da)模型内容安全护栏”在中国人工智能大(da)赛大(da)模型安全攻防赛题中获得(de)A级证书

未(wei)来，360 AI安全团队将继续在内容安全、漏洞安全、可信安全等方向深耕，为构(gou)建一个安全、向善、可信、可控的大(da)模型应用环境持续贡献(xian)力量。

必一运动·(B-sports)官方网站