央广网北京3月28日消息 日前,工业和信息化部正式发布(bu)2024年未(wei)来产业创新发展优秀典型案(an)例名单,三六零集团(以(yi)下简称(cheng)“360”)自主研发的大(da)模型安全护栏产品解(jie)决方案(an)(360“智盾”)成功入选(xuan),成为人工智能安全领域(yu)标志性产品。本次优秀案(an)例征(zheng)集与评选(xuan)严格按照(zhao)工业和信息化部等七部门《关于推动未(wei)来产业创新发展的实施意(yi)见》的部署要求,聚焦(jiao)未(wei)来制造(zao)、未(wei)来信息、未(wei)来材(cai)料、未(wei)来能源、未(wei)来空间、未(wei)来健康(kang)等六大(da)方向,旨(zhi)在从国家层面遴选(xuan)出(chu)一批(pi)具有标杆和样本示范引领作用的典型优秀案(an)例。
在人工智能大(da)模型高速发展的背(bei)景下,模型在实际应用中暴露出(chu)诸多安全隐患,包括恶意(yi)操控、内容违规、隐私泄露、幻觉误导等问题,带来了前所未(wei)有的挑战。
例如,2024年11月,谷(gu)歌Gemini聊天机器人出(chu)现威胁用户行为;12月,Claude模型暗示未(wei)成年用户暴力行为;Deepseek R1在越狱(yu)攻击(ji)下大(da)量生成不良内容……这些事件充分暴露了大(da)模型在应用环节面临的严峻安全风险。
中国信息通信研究院发起的AI Safety Benchmark(大(da)模型安全基准测试)结果显示,当模型面临恶意(yi)攻击(ji)时,生成有害内容的成功率显著上升,凸显安全防护机制的迫切需求。
以(yi)模制模:用大(da)模型守护大(da)模型
面对大(da)模型落地应用中不断演化的内容安全挑战,360智脑团队深入探索、持续创新,率先提(ti)出(chu)“以(yi)模制模”理念——用大(da)模型能力保障大(da)模型自身的安全,并(bing)将相关能力产品化,打造(zao)出(chu)业界领先的大(da)模型内容安全解(jie)决方案(an)“360智盾”。
模型层:打造(zao)超级安全的“安全回复大(da)模型”
360团队通过持续预训练(Safety Continual Pretraining)、安全监督微调(Safety Supervised Fine-Tuning)、安全对齐(Safety Alignment)等方式,结合插值/外插训练技术和真实场景数据,不断提(ti)升模型本身的原生安全性能,最终构(gou)建出(chu)一个能够应对越狱(yu)攻击(ji)、处理高风险问题时依(yi)然保持“向善”响应的“安全回复大(da)模型”。
应用层:构(gou)建多层次内容护栏体系
在应用层,360“智盾”为业务(wu)大(da)模型外部加装“内容防护盔甲”:
输入端:用户输入内容首先经过风险识别分类器,根据风险等级进行分级处理:
红线(xian)类内容直接拒答;
敏(min)感(gan)但可答类交由“安全回复大(da)模型”处理;
安全内容正常进入业务(wu)模型;
输出(chu)端:模型生成内容再次经过检测,确保无违规风险。
语(yu)义理解(jie)驱动的风险识别模型
360自研的风险内容分类器基于语(yu)义大(da)模型构(gou)建,在识别精度和训练效率上全面优于传统关键词匹配和BERT类分类模型。
其训练数据严格对标《生成式人工智能服(fu)务(wu)安全基本要求(TC260-003)》中5大(da)类31小(xiao)类的违法不良信息类型,并(bing)结合实际业务(wu)场景细(xi)化出(chu)100余(yu)类风险标签。仅(jin)需少量示例样本,即可训练出(chu)行业领先水(shui)平的检测能力。
红蓝对抗攻防靶场:模拟实战,快速迭(die)代
线(xian)上大(da)模型服(fu)务(wu)所面临的风险复杂(za)多变,360创新构(gou)建基于大(da)模型的红蓝对抗靶场体系,实现自动化、系统化评估与迭(die)代:
红方(攻击(ji)方):由“360红蓝对抗攻击(ji)大(da)模型”模拟真实攻击(ji)者,主动发起越狱(yu)、诱导等攻击(ji);
蓝方(防御方):包括“安全回复大(da)模型”在内的防护模型,接收攻击(ji)并(bing)构(gou)建防御机制;
裁判员:由“360安全评测大(da)模型”担任,对每轮输入输出(chu)进行定(ding)量分析,自动评估攻防成效。
通过标准化指标与自动化评估流程(cheng),大(da)大(da)提(ti)高评测效率与覆盖率,实现产品能力的快速闭环迭(die)代。
赋能行业落地,服(fu)务(wu)全面升级
目前,360“智盾”已全面部署于360内部各大(da)模型业务(wu)中,为C端用户提(ti)供可靠的内容安全保障。同时也积极拓展外部服(fu)务(wu),为政企(qi)客户提(ti)供大(da)模型生态链漏洞安全检测、内容安全防护与评估、备案(an)合规咨询、可信增强搜索等多项AI安全产品能力与服(fu)务(wu),助力其在AI大(da)模型应用落地过程(cheng)中实现“安全可控”。截至目前,360“智盾”已在政务(wu)、金融、交通、能源等重(zhong)点行业完成落地,持续为行业客户打造(zao)更稳固的大(da)模型安全底座。
除“智盾”外,360推出(chu)的大(da)模型安全产品还包括“360智鉴”和“360智搜”。其中,“360智鉴”为大(da)模型系统安全检测平台(AISE),该产品覆盖了从模型训练到推理的全链路安全检测,支撑对模型服(fu)务(wu)的相关组(zu)件识别、生态链漏洞扫描和多语(yu)言代码审计,确保大(da)模型系统安全;“360智搜”则(ze)是一款(kuan)大(da)模型可信增强(AISO)工具,融合多模态检索与语(yu)义理解(jie)技术,能够提(ti)供精准的搜索结果,并(bing)支撑基于企(qi)业私域(yu)数据的常识提(ti)炼(lian)与总(zong)结。其独特(te)之处在于整合多领域(yu)精品常识库,实现全网与私域(yu)常识的无缝对接,提(ti)升信息获取效率,并(bing)可帮助大(da)模型缓(huan)解(jie)幻觉问题,减少虚假或(huo)不准确信息,提(ti)升大(da)模型的可信度与可靠性,从而为企(qi)业提(ti)供更安全、更高效的业务(wu)支撑。
安全可控,向善可信
此次入选(xuan)工信部《2024年未(wei)来产业创新发展优秀典型案(an)例》,是唯一一个入选(xuan)的大(da)模型安全防护产品案(an)例。这不仅(jin)是对360在大(da)模型安全领域(yu)长期投入与领先能力的高度肯(ken)定(ding),更充分体现出(chu)在AI应用加速落地的今(jin)天,安全可控的重(zhong)要性正日益(yi)凸显。
此前360智脑团队研发的“360智盾:大(da)模型内容安全护栏”在中国人工智能大(da)赛大(da)模型安全攻防赛题中获得(de)A级证书
未(wei)来,360 AI安全团队将继续在内容安全、漏洞安全、可信安全等方向深耕,为构(gou)建一个安全、向善、可信、可控的大(da)模型应用环境持续贡献(xian)力量。