必一运动·(B-sports)官方网站

业界动态
上海交大发布蛋白质设计模型“Venus”,用AI训练“六边形战士”,功能,序列,数据
2025-03-28 04:24:46
上海交大发布蛋白质设计模型“Venus”,用AI训练“六边形战士”,功能,序列,数据

以去年诺贝尔化学奖授予AlphaFold开发(fa)者为标志,蛋白(bai)质设计,已成为当今AI for Science最热(re)门的(de)交叉研究领域。然而预测结构,只是一款功能过硬的(de)蛋白(bai)质产品诞生的(de)起点,其后(hou)通常还需要丰(feng)富的(de)专家经验配合数以万计的(de)实验试错,长期以来,蛋白(bai)质设计改造的(de)时间长、成本高、试错密集问题,一直是业界难题。

3月22日,上(shang)海交通大(da)学洪亮教授团队发(fa)布最新成果,使(shi)这些问题迎刃而解。团队将AI与蛋白(bai)质设计与改造相结合,建立了全(quan)球最大(da)的(de)蛋白(bai)质数据集,基于该数据集训练(lian)的(de)模型,可以精准、高效地(di)预测、设计蛋白(bai)质的(de)功能,把蛋白(bai)质生产由“缓慢的(de)试错”变为“高效率的(de)精准设计”。该成果配合行(xing)业领先的(de)自动化设备,已经进行(xing)产业化落地(di),把蛋白(bai)质设计从原先的(de)“复杂科学”变为如今的(de)“简单工程”。

建立全(quan)球最大(da)的(de)蛋白(bai)质序列数据集

蛋白(bai)质是由氨(an)基酸序列构成的(de),氨(an)基酸序列的(de)长度从数百个到上(shang)千个不等。AI时代,数据是推动技(ji)术进步的(de)核心资源(yuan),庞大(da)的(de)蛋白(bai)质序列数据集为AI模型提供了丰(feng)富的(de)“学习材料”,能帮助模型更好地(di)理解蛋白(bai)质的(de)序列、结构和功能关系。洪亮团队建立的(de)蛋白(bai)质序列数据集Venus-Pod(Venus-Protein Outsize Dataset)含有近90亿条蛋白(bai)质序列,包含数亿个功能标签(qian),是全(quan)球数据规(gui)模最大(da)、功能批(pi)注标签(qian)最多的(de)数据集,也是另一行(xing)业知名模型——美国ESM-C模型训练(lian)用的(de)21亿蛋白(bai)质序列的(de)4倍体量。

该数据集包含36.2亿条陆地(di)微生物蛋白(bai)质序列、26.4亿条海洋微生物蛋白(bai)质序列、24.3亿条抗体蛋白(bai)质序列、0.6亿条病毒蛋白(bai)质序列,覆盖(gai)从常规(gui)地(di)表(biao)生物到极端环境微生物的(de)蛋白(bai)质序列信(xin)息,尤其是配备的(de)数亿功能标签(qian)(蛋白(bai)质工作的(de)温度、酸碱度、压强(qiang)等)。

这些数据意(yi)味着什么?洪亮表(biao)示,首先该数据集构成了巨大(da)的(de)“蛋白(bai)质矿藏”,使(shi)得人类有可能挖掘新的(de)蛋白(bai)或者生物催化剂,助力大家生物医药(yao)和合成生物学的(de)快速发(fa)展;其次,AI大(da)模型有望通过海量数据的(de)学习和掌握自然界蛋白(bai)质的(de)进化模式,为AI设计优异(yi)的(de)蛋白(bai)质产品提供了宝贵的(de)学习资料。

瞄准蛋白(bai)质“功能预测”,用AI训练(lian)“六边形战士”

蛋白(bai)质是由20种氨(an)基酸组成的(de)一条高分子链,这个高分子链会扭(niu)曲并(bing)折叠成独特的(de)三维(wei)结构,正是这种独特结构赋予了特定蛋白(bai)质的(de)生物功能。2024年,诺贝尔化学奖颁发(fa)给GOOGLE(ge)DeepMind团队,该团队利(li)用AI技(ji)术精准解析了蛋白(bai)质序列到三维(wei)结构的(de)关系,解决了困扰生物学家长达50年的(de)基本难题。然而,一个现(xian)实的(de)问题是:如果大家稍微改动蛋白(bai)质的(de)氨(an)基酸序列,哪怕只是1%的(de)微小改变,蛋白(bai)质的(de)整体结构看似没有发(fa)生明(ming)显变化,但它的(de)功能大(da)概率会变差,甚至完全(quan)丧失。换言之,要设计出一款成功的(de)蛋白(bai)质产品,不能只关注它的(de)三维(wei)结构,而是要能成功预测和设计它的(de)功能。因此,洪亮教授团队“另辟(pi)蹊径”,不再固执于蛋白(bai)质的(de)结构,而是直接(jie)瞄准“功能预测”这一终极目标,将复杂的(de)蛋白(bai)质设计变成以需求为导(dao)向,配合少量实验输出结果的(de)简单过程。

“大家训练(lian)了Venus(启明(ming)星)系列模型,与DeepMind团队的(de)AlphaFold预测蛋白(bai)质结构不同,这个模型学习自然界蛋白(bai)质序列的(de)组织规(gui)则以及它与功能之间的(de)关系,其预测蛋白(bai)质突变功能的(de)精度位居(ju)行(xing)业榜单之首。”洪亮表(biao)示,Venus系列模型具备两(liang)大(da)核心功能:“AI定向进化”与“AI挖酶”。所(suo)谓“AI定向进化”是指 Venus系列模型可以对一个不尽如人意(yi)的(de)蛋白(bai)质产品的(de)多种性能进行(xing)优化,让它成为一个“六边形战士”满足应用需求。而“AI挖酶”则是指 Venus 系列模型基于其海量的(de)未(wei)知功能蛋白(bai)质数据集,可以“海选超能力战士”,去精准发(fa)掘满足苛刻(ke)应用需求的(de)具备超常规(gui)功能的(de)蛋白(bai)质,比如极度耐热(re)、极度耐酸、极度耐碱、极度耐胃肠消化等。这些超常规(gui)功能的(de)蛋白(bai)质在生物技(ji)术、医药(yao)研发(fa)和工业生产中具有巨大(da)的(de)应用潜力,能够(gou)为相关领域带来创新和突破。

与此同时,配合Venus系列模型的(de)全(quan)球首款低通量大(da)体积蛋白(bai)质表(biao)达、纯化与功能检测自动化一体机,可在24小时内(nei)不间断地(di)完成100余个蛋白(bai)质的(de)表(biao)达、纯化与检测任务,较人力效率提高近10倍,将大(da)大(da)减少研发(fa)过程中的(de)人力、物力和时间成本投入,显著提高蛋白(bai)质工程与合成生物学研究的(de)效率。其宗旨就是“设计AI化,实验自动化”,让科研人员从繁琐的(de)设计和实验中解放出来,他们只需要提出问题,AI和自动化来解决问题,最终将复杂的(de)蛋白(bai)质科学发(fa)现(xian)变成“傻瓜相机式”的(de)简单过程。

已有多款产品落地(di),助力阿尔兹海默等疾病的(de)诊(zhen)断

从基础科研到产业应用,在任何科学领域都是一项(xiang)从0到100的(de)挑战,AI蛋白(bai)质设计也不例外(wai):经AI设计出的(de)蛋白(bai)质在实验室环境中表(biao)现(xian)出色,并(bing)不能保证它在中试阶段或大(da)规(gui)模生产中同样能够(gou)维(wei)持优异(yi)的(de)性能,这是因为产业化生产涉及更大(da)规(gui)模的(de)原料处(chu)理、更复杂的(de)工艺控(kong)制以及更严格的(de)质量标准,这些因素都可能对蛋白(bai)质的(de)性能产生影响,而经过Venus系列模型设计的(de)多款蛋白(bai)质已经实现(xian)了落地(di)产业化。

以国内(nei)生长激素龙头金赛(sai)药(yao)业的(de)单域抗体耐碱性改造为例。提升蛋白(bai)质的(de)耐碱性历(li)来是一项(xiang)极具挑战性的(de)工作,洪亮团队借助该模型结合少量湿实验闭环迭代验证,不到 1 年将普通单域抗体耐碱性提升 4 倍,每年为金赛(sai)药(yao)业节约上(shang)千万元成本。该成果已实现(xian)多个批(pi)次 5000 升放大(da)生产,成为全(quan)球首款由大(da)模型设计并(bing)规(gui)模化生产的(de)蛋白(bai)质产品。

另一项(xiang)Venus系列模型的(de)创新应用则是对某体外(wai)诊(zhen)断头部企业碱性磷酸酶(ALP)的(de)改造项(xiang)目。ALP 因高稳定性和灵敏度被广(guang)泛(fan)用作标记酶,其活性越(yue)高,检测灵敏度越(yue)高,从而能够(gou)检测到极低的(de)生物标志物,但提升ALP的(de)活性一直是一个挑战。Venus 系列模型成功优化 ALP,使(shi)其分子活性超国际头部企业产品 3 倍,为超敏检测诊(zhen)断(如心肌梗塞、阿尔兹海默症)带来巨大(da)价值。目前,改造后(hou)的(de) ALP 已进入 200L 规(gui)模放大(da)生产阶段,标志着 Venus 系列模型成功实现(xian)产业转化。

最新资讯
  • 清城区源潭镇
  • 南漳县武安镇
  • 华宁县青龙镇
  • 琼山区红旗镇
  • 河津市
  • 兴化市合陈镇
  • 凌云县泗城镇
  • 保亭黎族苗族自治县响水镇
  • 隆尧县魏家庄镇
  • 龙南县黄沙管委会
  • 白云区龚家寨街
  • 海珠区江南中
  • 赤水市金华街
  • 椒江区前所街
  • 康乐县苏集镇
  • 洪洞县
  • 汨罗市天问街
  • 塘沽区北塘街
  • 振安区金矿街
  • 太和区王家街
  • 河南中青综合资讯
  • 游戏百科综合资讯
  • 快云游综合资讯
  • 快云综合资讯
  • 久诚汽车资讯
  • 癫痫百科
  • 体育百科资讯
  • App百科资讯
  • sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7
    XML 地图 | Sitemap 地图