深度学习赋能质谱蛋白质组学:deepsearch实现高灵敏度肽段鉴定
准确鉴定肽段是基于质谱的蛋白质组学研究的关键,然而传统数据库搜索方法依赖启发式评分函数,鉴定率受限。加拿大滑铁卢大学和中原人工智能研究院的研究团队开发了DeepSearch,一种基于深度学习的端到端串联质谱数据库搜索方法,显著提升了肽段鉴定的准确性和效率。
DeepSearch采用改进的Transformer编码器-解码器架构,并利用对比学习框架,以数据驱动的方式对肽谱匹配进行评分,无需依赖离子间匹配。 这使得DeepSearch能够以零样本方式分析各种翻译后修饰(PTM)。
研究团队在多个数据集上验证了DeepSearch的性能,包括来自不同物种、富含PTM的数据集。结果表明,DeepSearch在1%的伪发现率下,鉴定出的肽段数量与现有最先进的数据库搜索引擎相当,且在跨物种分析中表现出稳健性。
DeepSearch的核心创新在于其评分机制:利用光谱和肽嵌入之间的余弦相似性,避免了传统方法中启发式评分函数带来的偏差,并提升了计算效率。 DeepSearch的批量对比学习框架和质量锚定采样方案,有效解决了训练数据中负样本选择和算法偏差的问题。
DeepSearch在不同物种数据集上的出色表现,证明了其跨物种的稳健性。 大多数DeepSearch鉴定的肽段都得到了其他搜索引擎的证实,进一步印证了其准确性。
与依赖统计估计的传统方法不同,DeepSearch即使没有统计模型也能保持稳定性能,这与其评分方案的低偏差密切相关。
DeepSearch是首个实现零样本可变PTM分析的深度学习方法,无需额外PTM信息,通过联合编码PTM移位理论谱和未修饰肽序列,克服了标记空间限制。
这项研究发表在《Nature Machine Intelligence》杂志上,为串联质谱数据库搜索方法带来了新的突破。 DeepSearch的出现,有望显著提升蛋白质组学研究的效率和准确性。
论文链接:https://www.php.cn/link/92bdee4b02b1dab018f526948437d3d6