中新网兰州3月28日电 (丁思 刘玉桃)为破解智能化简牍文字(zi)识别与内容理解这一重(zhong)大难(nan)题,近日,西北师(shi)范大学联合甘肃简牍博(bo)物馆推出(chu)了DeepJiandu数(shu)据集,全球(qiu)与众共享。
DeepJiandu数(shu)据集,是在该校简牍学术资源数(shu)据共享平台的(de)基础之上,研究发布的(de)全球(qiu)首个专门用(yong)于复(fu)杂场景下(xia)简牍字(zi)符检(jian)测(ce)与识别的(de)大规模(mo)数(shu)据集。该数(shu)据集的(de)发布,极大促进人工智能技术对简牍文献信息(xi)的(de)理解,为简牍学搭上AI技术快车提供有力支撑。
图(tu)为DeepJiandu数(shu)据集的(de)字(zi)符标注示例(li),标注框标明了字(zi)符的(de)位置和类别。西北师(shi)范大学供图(tu)
该工作由西北师(shi)范大学简牍研究院、甘肃省简牍智能计算与数(shu)字(zi)人文工程研究中心张强教授团队负责开展,甘肃简牍博(bo)物馆、上海中西书局、甘肃学问出(chu)版(ban)社、西南大学等单(dan)位参与了该项工作。
据张强先容,在纸张普及前的(de)千(qian)余年中,简牍是中国古代记录历史信息(xi)的(de)重(zhong)要媒介,承载(zai)了战国、秦、汉、魏晋等时期的(de)典籍、律令、契(qi)约等,形成了完整的(de)文明记忆链(lian)条,简牍是文字(zi)传播的(de)核心媒介。
然而,简牍因竹木材质易受腐(fu)蚀,尤其在出(chu)土后(hou)易出(chu)现氧(yang)化、变色或(huo)粘连问(wen)题;同时由于简牍材料(liao)的(de)脆弱性,长期埋藏环境导致字(zi)符模(mo)糊(hu)、字(zi)迹缺损、产(chan)生畸变等问(wen)题,使得人工识别与整理这些珍贵文献极为困难(nan)。现有的(de)数(shu)字(zi)化技术虽(sui)在甲骨文、东(dong)巴文、古彝文、古希腊铭文、古埃(ai)及象形文字(zi)、玛雅文字(zi)等相(xiang)关文献资料(liao)等领域取得突破,但在简牍文献资料(liao)的(de)智能化处理与分析程度不高,特别缺乏(fa)高质量的(de)数(shu)据集,制约了人工智能技术在该领域的(de)应用(yong)。
图(tu)为DeepJiandu数(shu)据集图(tu)像示例(li)。西北师(shi)范大学供图(tu)
“DeepJiandu数(shu)据集的(de)构建正是为了解决这一问(wen)题。”张强先容说,研究团队通过高光谱(pu)成像、图(tu)像增强、多(duo)光谱(pu)融合等技术,确保了高质量的(de)数(shu)据构建。数(shu)据集涵盖2242种字(zi)符类别,并由简牍学专家与计算机专家合作标注,确保数(shu)据的(de)专业(ye)性与准确性。此外,数(shu)据集的(de)设计考(kao)虑到简牍中字(zi)符的(de)残损、异形字(zi)、多(duo)种布局等复(fu)杂场景,有效提升了模(mo)型对历史文献的(de)适应能力。
DeepJiandu数(shu)据集的(de)发布,填补了历史文献数(shu)字(zi)化与人工智能结(jie)合的(de)空白,为简牍整理与自动识别提供了重(zhong)要支撑,提升考(kao)古学者对简牍文献的(de)解读效率。此外,结(jie)合计算机视觉(jue)与历史语言(yan)学,该数(shu)据集还将推动文博(bo)机构的(de)数(shu)字(zi)化转(zhuan)型,为多(duo)模(mo)态(tai)学问遗产(chan)保护提供新的(de)技术路径。
张强表示,随着DeepJiandu数(shu)据集的(de)推广,研究团队预计将有更多(duo)深度学习、计算机视觉(jue)领域的(de)研究者加入(ru)简牍文献的(de)数(shu)字(zi)化处理研究,并推动人工智能在历史文献解析、学问遗产(chan)保护等多(duo)学科交叉(cha)领域的(de)应用(yong)。未来,团队将继续(xu)优化数(shu)据集,并探索多(duo)模(mo)态(tai)融合等前沿(yan)技术,为数(shu)字(zi)人文研究提供更强大的(de)技术支撑。
目前,DeepJiandu数(shu)据集已载(zai)入(ru)西北师(shi)范大学简牍学术资源数(shu)据共享平台。该平台已开发了实物库、释文库、字(zi)形库、著录库、文献库和专家库六个库,利用(yong)人工智能、大数(shu)据分析、虚(xu)拟(ni)现实等先进技术,完成了对4万枚西北汉简的(de)数(shu)字(zi)化收录,不仅为专家学者提供了便捷的(de)研究工具,也向公众展示了简牍学问的(de)独特魅力。该平台现拥有千(qian)余名国内外在线用(yong)户,覆盖了国内外384个科研、学问机构和高等院校。(完)