
CropARNet:融合注意力与残差机制的作物基因组预测新框架
2025年9月12日,我院生态环境研究所姚张良高级农艺师与浙江大学赵汀特聘研究员合作发表论文《CropARNet: A Deep Learning Framework for Crop Genomic Prediction with Attention and Residual Modules》,刊登于《Crop Design》(姚张良为共同通讯作者)。该研究提出了一种融合注意力机制与残差连接的深度学习作物基因组预测框架,在表型预测的准确性和计算效率方面均实现显著提升,为加速分子育种进程、应对全球粮食安全挑战提供了高效的新工具。相关的CropARNet软件及使用示例已公开发布于GitHub。

全基因组选择(Genomic Selection, GS)是一种先进的育种技术,它通过利用全基因组信息构建预测模型,来选择具有优良目标性状的个体,从而显著加快育种进程,引领育种向精准化、高效化发展。然而,传统的机器学习方法在处理复杂的非线性遗传效应时能力有限,难以有效捕捉基因组数据中隐藏的关键信息。
为解决上述问题,我们设计了CropARNet模型,其核心架构包含两大关键组件。注意力机制 (Attention Mechanism):该机制使模型能够模拟生物学重要性,实现“聚焦重点”。它通过一个标记权重模块 (Marker Weight Module),自动学习并为每个SNP标记赋予不同的权重。因此,对目标性状(如产量、抗病性)贡献更显著的关键基因组区域将获得更高的关注度,其信号在模型中被有效放大。残差连接 (Residual Connection):该设计通过将加权后的特征与原始输入特征直接相加,确保在增强关键信号的同时,完整保留原始的基因组信息。这种结构还有效缓解了深度神经网络中常见的梯度消失问题,使模型更易于训练和优化。通过这种“增强关键、保留全局”的协同策略,CropARNet能够高效地从高维、嘈杂的基因组数据中提取决定性的非线性遗传特征,从而实现更精准的表型预测。
通过融合实验,我们验证了这种架构的合理性。我们在四大关键作物(水稻、玉米、棉花和小米)的共计53个重要农艺性状上,对CropARNet的性能进行了严格的测试。结果表明:与多种基准模型相比,CropARNet在绝大多数性状上表现出显著预测精度优势。例如,在预测棉花纤维长度时,其皮尔逊相关系数 (Pearson Correlation Coefficient, PCC) 高达0.79,相较于传统的GBLUP方法提升了12.6%;在预测玉米穗行数时,其预测精度(以PCC计)也超过了0.90。在实现高预测精度的同时,CropARNet的训练速度显著快于其他深度学习模型。这一优势在处理大规模数据集(例如一个包含5,820个个体的玉米群体)时尤为突出,证明了其在实际育种应用中的高效率和可行性。
综上所述,CropARNet是一种兼具高预测精度和计算效率的创新型基因组预测工具,为加速现代作物育种提供了强大的技术支持。
论文全文链接:https://www.sciencedirect.com/science/article/pii/S2772899425000242
