中新(xin)网上海(hai)3月22日电 (记者 许婧)上海(hai)交通(tong)大学特聘教授洪亮(liang)团队22日发布最新(xin)成果:团队将AI与蛋白质设计与改造相结合,建(jian)立了全(quan)球最大的蛋白质数据集,基于该数据集训练的模型,可以精准、高效地预测、设计蛋白质的功能,把蛋白质生(sheng)产由“缓慢的试错”变为“高效率的精准设计”。
蛋白质是由氨基酸序列构成的,氨基酸序列的长(chang)度从数百(bai)个到(dao)上千个不等。AI时代,数据是推(tui)动技术进步的核心资源,庞大的蛋白质序列数据集能帮助(zhu)模型更好地理解蛋白质的序列、结构和功能关系。洪亮(liang)团队建(jian)立的蛋白质序列数据集Venus-Pod(Venus-Protein Outsize Dataset)含有近(jin)90亿条蛋白质序列,包含数亿个功能标签,是全(quan)球数据规模最大、功能批注标签最多(duo)的数据集,也是另一行业知名模型——美国ESM-C模型训练用的21亿蛋白质序列的4倍体量。
3月22日,洪亮(liang)教授在上海(hai)交通(tong)大学蛋白质功能预测Venus系列模型发布暨产业合作峰会上发布该成果。 上海(hai)交通(tong)大学供图
洪亮(liang)表(biao)示,该数据集构成了巨(ju)大的“蛋白质矿藏”,使得(de)人类有可能挖掘新(xin)的蛋白或者生(sheng)物催(cui)化剂,助(zhu)力生(sheng)物医药和合成生(sheng)物学的快速发展;其次(ci),AI大模型有望通(tong)过海(hai)量数据的学习和掌握自然(ran)界蛋白质的进化模式,为AI设计优异的蛋白质产品提供宝(bao)贵的学习资料。
蛋白质是由20种氨基酸组成的一条高分子链,这个高分子链会扭曲并(bing)折叠成独特的三维结构,正是这种独特结构赋予了特定(ding)蛋白质的生(sheng)物功能。要设计出一款成功的蛋白质产品,不能只关注它的三维结构,而是要能成功预测和设计它的功能。洪亮(liang)团队直接瞄准“功能预测”这一终极目标,将复杂的蛋白质设计变成以需求为导向,配合少(shao)量实验输(shu)出结果的简单过程。
“大家训练了Venus(启明星)系列模型,与DeepMind团队的AlphaFold预测蛋白质结构不同,这个模型学习自然(ran)界蛋白质序列的组织(zhi)规则以及它与功能之(zhi)间(jian)的关系,其预测蛋白质突变功能的精度位居行业榜单之(zhi)首。”洪亮(liang)说,Venus系列模型具备两大核心功能:“AI定(ding)向进化”与“AI挖酶”。这些超常规功能的蛋白质在生(sheng)物技术、医药研发和工业生(sheng)产中具有巨(ju)大的应用潜力,能够为相关领域(yu)带来(lai)创(chuang)新(xin)和突破。
同时,配合Venus系列模型的全(quan)球首款低通(tong)量大体积蛋白质表(biao)达、纯化与功能检测自动化一体机,可在24小(xiao)时内(nei)不间(jian)断地完成100余个蛋白质的表(biao)达、纯化与检测任务,较人力效率提高近(jin)10倍,将大大减少(shao)研发过程中的人力、物力和时间(jian)成本投入(ru),显著(zhu)提高蛋白质工程与合成生(sheng)物学研究的效率。
据先容,一款功能过硬(ying)的蛋白质产品的诞(dan)生(sheng),通(tong)常需要丰富的专家经验配合数以万(wan)计的实验试错。长(chang)期以来(lai),蛋白质设计改造的时间(jian)长(chang)、成本高、试错密集问题,一直是业界难题。
洪亮(liang)先容,该成果配合行业领先的自动化设备,已经进行产业化落地,比如Venus系列模型对某体外诊断头部企业碱性磷酸酶(ALP)的改造项目。Venus系列模型成功优化 ALP,使其分子活性超国际头部企业产品3倍,为超敏检测诊断(如心肌(ji)梗塞、阿尔兹海(hai)默症)带来(lai)巨(ju)大价值。目前,改造后的 ALP已进入(ru)200L规模放大生(sheng)产阶段,标志着Venus系列模型成功实现产业转化。(完)