羊城(cheng)晚报记者 黄婷 许张超
在全球大模型技术深度落地的浪潮中,如何探路岭南千年文脉的AI解法?
3月28日,岭南数字创意大厦(sha)新基建高质量发展大会在广州羊城(cheng)创意产业园举行。活动现场,由羊城(cheng)晚报报业集团研发的国内首个学问领域多模态推理(li)大模型——岭南学问大模型正式发布。
据先容,岭南学问大模型以国产DeepSeek大模型为技术基座,深度整合《岭南学问辞典》《岭南文脉》等权(quan)威典籍(ji)及粤港(gang)澳三地学问资(zi)源,通过先进的常识蒸馏与多模态融合技术,构建智能(neng)化、系统(tong)化的岭南学问数字资(zi)产库,实现岭南学问的永续保存、精准解析与创新转化。
填补区域特色学问大模型领域空白
作为人工智能(neng)领域的技术新高地,大模型正以前所(suo)未有的速度赋能(neng)千行百业,也给学问的传承发展带来(lai)深刻(ke)变革。
作为学问大国,我国拥有极为丰富的学问资(zi)源。然而,“数字化率(lu)低、转化效(xiao)能(neng)弱、国际传播难”仍是制约新时代学问创新发展的主要痛点。以广东为例,广东虽拥有丰富的岭南学问资(zi)源,拥有粤剧、醒狮、广绣等国家(jia)级非遗项目165项,但(dan)仍面(mian)临(lin)“有资(zi)源缺载体”的困境,学问数字化转化率(lu)较低。
岭南学问大模型能(neng)够有效(xiao)解决这一痛点,推动学问资(zi)源向学问资(zi)产转化。岭南学问大模型实验室主任邓立邦先容,岭南学问大模型将推动学问遗产保护从(cong)“抢救式修复”向“创造性转化”跃升,通过大模型技术将散落的学问瑰宝(bao)转化为可(ke)编程、可(ke)交互(hu)、可(ke)流通的数字资(zi)产,为学问产业升级、数字经济发展注入新动能(neng)。
“大家构建的训练语料库基于(yu)高维度异构数据源整合,包括权(quan)威的岭南学问辞典、《羊城(cheng)晚报》文脉专(zhuan)题报道以及大量非结构化的音视频影像资(zi)料,覆盖了粤剧、舞狮、剪纸、陶艺(yi)、刺绣等多维度地方艺(yi)术形态与历史建筑信息的常识图(tu)谱。”邓立邦表示。
同(tong)时,通过创新性的迭代蒸馏技术,将通用大模型6710亿参数压缩至70亿-700亿系列参数,形成国内首个区域性学问大模型集群,实现岭南学问遗产的智能(neng)化解析、专(zhuan)业理(li)解准确率(lu)提升至95%。
根据测试评估,岭南学问大模型在图(tu)片、视频的多模态冷启动评测中领先OpenAl,在垂直领域(岭南学问)内拥有更为专(zhuan)业及准确的常识理(li)解能(neng)力,填补了区域特色学问大模型领域空白。
大模型既看得懂脸谱又听得懂唱腔
岭南学问大模型的出现为世界了解岭南学问架起了AI桥梁。
在实际使(shi)用中,当大家向岭南学问大模型提问什么是“趟(tang)栊”,它不(bu)仅能(neng)理(li)解,还能(neng)给出准确的学问说明;当大家上传粤剧剧目《紫钗记》的一段视频,它能(neng)综合视频的场景布局、人物服饰动作、声音唱腔等,准确识别出粤剧剧目……
与通用大模型不(bu)同(tong),岭南学问大模型在垂直领域的常识问答与创意内容生成方面(mian)有着(zhe)更为出色表现。如何才(cai)能(neng)让(rang)岭南学问大模型既能(neng)看得懂脸谱、听得懂唱腔,又能(neng)跨越漫长的时间维度,去理(li)解岭南学问的变迁?
在邓立邦看来(lai),在岭南学问大模型的训练过程中,最大的技术挑战在于(yu)结构化与非结构化数据的深度融合算法优化,这直接决定了模型的跨模态理(li)解能(neng)力上限。
“在技术上,大家没有简(jian)单调用通用模型,而是采用‘独立训练+常识内化’的技术路径,沿(yan)用古代师徒(tu)传艺(yi)的路径,设计了‘三阶段常识蒸馏’,实现了模型‘小(xiao)而精’的技术突破。”邓立邦先容,运(yun)用多模态能(neng)力结合推理(li)链条,通过稀疏门控路由,实现了从(cong)“单一”到(dao)“全感知”的拓展,让(rang)大模型不(bu)仅能(neng)谈论粤剧,也能(neng)“看懂”脸谱,“听懂”唱腔。
“大家期待通过AI与学问的深度融合,让(rang)镬耳屋的砖瓦风情、粤剧水袖的飘(piao)逸灵(ling)动、早茶氤氲的市井气(qi)息……这些鲜活的岭南学问印记,在数字世界中焕发新生。”邓立邦说。
作为根植岭南的学问大报,实际上,岭南学问大模型也是羊城(cheng)晚报以创新技术驱动岭南学问创新发展的重要举措。
根据规划,羊城(cheng)晚报将顺应学问数字化发展趋势,以岭南数字创意大厦(sha)为物理(li)载体,建设岭南学问大数据中心,开发岭南学问大模型,建立岭南学问传承发展实验室,持续推动岭南学问的数字化保存、智能(neng)化解析和产业化应用,为岭南学问“双创”增添新活力。