图片来源:界面(mian)图库
3月24日(ri),针对媒体对蚂蚁百灵大模型训练成本的报道(dao),蚂蚁集团方面(mian)回(hui)应界面(mian)资讯称,蚂蚁针对不同(tong)芯片持(chi)续调优,以降低AI应用成本,目前(qian)取得了一定的进展(zhan),也(ye)会逐步通过开源分享。
此前(qian)有报道(dao)称,蚂蚁集团正使用中国制造的半导(dao)体来开发AI模型训练技术,这(zhe)将使成本降低20%。知情(qing)人士称,蚂蚁集团使用了包括(kuo)来自alibaba和HUAWEI的芯片,采用混(hun)合专家(MoE)机器学(xue)习方式(shi)来训练模型。他们表示,蚂蚁集团获得了与采用英伟达H800等芯片训练相似的结果。
其中一位知情(qing)人士称,蚂蚁集团仍在(zai)使用英伟达的产品进行人工智能开发,但目前(qian)其最新模型主要(yao)依赖于包括(kuo)AMD产品和中国芯片在(zai)内的替代产品。
另据钛媒体报道(dao),近日(ri),蚂蚁集团CTO、平台技术事业群总裁(cai)何(he)征(zheng)宇带(dai)领Ling Team团队,利(li)用AI Infra技术,开发了两个百灵系列开源MoE模型Ling-Lite 和 Ling-Plus,前(qian)者参数规模168亿,Plus基座模型参数规模高达2900亿,相比之下,AI行业估计GPT-4.5参数量1.8万亿,DeepSeek-R1参数规模达6710亿。
该技术成果论文《每一个FLOP都至关重要(yao):无需高级GPU即(ji)可扩展(zhan)3000亿参数混(hun)合专家LING大模型》已在(zai)预印版Arxiv平台上发表。
除了自研性能领先的大模型以外,该技术论文最大的突破在(zai)于提出了一系列创新方法,以提升(sheng)资源受限环(huan)境(jing)下AI开发的效率与可及性。实验表明,其3000亿参数的MoE大模型可在(zai)使用国产GPU的低性能设备上完成高效训练,性能与完全使用英伟达芯片、同(tong)规模的稠密模型及MoE模型相当。
作为国内较早布局(ju)AI大模型的厂商,蚂蚁自研的百灵大模型2023年已通过备案,重点布局(ju)在(zai)生活服务、金融(rong)服务、医疗健康等场景的应用。