世界上第一个可扩展到数百亿的基因组基本模型
栏目:行业新闻 发布时间:2025-10-24 12:49
北京科技报10月23日讯(记者张家兴)23日,华大生命科学研究所与江实验室联合发布全球首个可实现百亿参数的通用基础基因组模型Genos。该模型支持多达100万个碱基对的超长上下文分析,并提供单碱基分辨率的准确识别。人类基因组由 30 亿个碱基对组成。人类基因组计划已对其进行测序,但序列中碱基的具体功能需要识别和分析。现有模型大多基于一两个参考基因组进行训练,无法反映人类遗传资源的多样性。 Genos整合了人类泛基因组参考联盟(HPRC)、人类基因组结构变异计划(HGSVC)等多个权威公共资源,首次使用来自全球各地的636个高质量“端粒到端粒”人类基因组。他将世界作为训练数据。这些数据涵盖了世界各地的各种人群,有助于更全面地了解人类遗传多样性。在算法架构方面,Genos采用“混合专家”架构,精确编程强大的相关“专家”算法进行协同处理,通过添加数百亿个参数成功降低了推理成本和资源消耗,使模型强大且易于使用。测试结果表明,Genos 在直接解释临床应用致病变异的任务中准确率高达 92%。与基础科学模型相结合,准确率可达98.3%。多项综合评估结果也表明 Genos 优于现有最好的模型。据华大基因生命科学研究所相关负责人介绍,Genos模型完全开源,发布在HuggingFace、Moda等平台上,提供两个版本,容量分别为12亿和12亿。100亿参数,满足不同需求。
服务热线
400-123-4567