提速近10倍!基于深度学习的全基因组选择新方法来了******
近日,中国农业科学院作物科学研究所、三亚南繁研究院大数据智能设计育种创新团队联合多家单位提出利用植物海量多组学数据进行全基因组预测的深度学习方法, 可以实现育种大数据的高效整合与利用,将助力深度学习在全基因组选择中的应用,为智能设计育种及平台构建提供有效工具。相关研究成果发表在《分子植物(Molecular Plant)》上。
全基因组选择作为新一代育种技术,通过构建预测模型,根据基因组估计育种值进行早期个体的预测和选择,从而缩短育种世代间隔,加快育种进程,节约成本,推动现代育种向精准化和高效化方向发展。
统计模型作为全基因组选择的核心,极大地影响了全基因组预测的准确度和效率。传统预测方法基于线性回归模型,难以捕捉基因型和表型间的复杂关系。
相较于传统模型,非线性模型(如深度网络神经)具备分析复杂非加性效应的能力,人工智能和深度学习算法为解决大数据分析和高性能并行运算等难题提供了新的契机,深度学习算法的优化将会提高全基因组选择的预测能力。
该研究团队以玉米、小麦和番茄3种作物的4种不同维度的群体数据为测试材料,通过创新深度学习算法框架开发了全基因组选择新方法。
与其他五种主流预测方法相比,该方法有以下优点: 可以利用多组学数据开展全基因组预测;算法设计中包含批归一化层、回调函数和校正线性激活函数等结构,可以有效降低模型错误率,提高运行速度;预测精度稳健,在小型数据集上的表现与目前主流预测模型相当,在大规模数据集上预测优势更加明显;计算时间与传统方法相近,比已有深度学习方法提速近10倍;超参数调整对用户更加友好。
该研究得到了国家重点研发计划、国家自然科学基金、海南崖州湾种子实验室和中国农业科学院科技创新工程等项目的支持。
学术支持
中国农业科学院作物科学研究所
记者
宋雅娟
【动画】“东数西算”全网大火,一文告诉你“东数”如何“西算”******
最近,“东数西算”工程受到社会各界广泛关注。前段时间,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合印发通知,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群。至此,“东数西算”工程正式全面启动。
长期以来,我国东、中、西部算力资源布局在取得长足进步的同时,存在发展不平衡、不充分等问题,与5G时代全面建设“数字中国”的战略需求还有较大差距。
在业内专家看来,现阶段实施“东数西算”工程,不仅可以优化我国算力资源空间布局,也是推动新型基础设施高质量发展、构建全国一体化国家大数据中心体系的必然选择。
“东数西算”是什么?
“数”指数据,“算”是算力,即对数据的处理能力。“东数西算”是通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,优化数据中心建设布局,促进东西部协同联动。
“东数”为什么要“西算”?
目前,我国数据中心大多分布在东部地区,由于土地、能源等资源日趋紧张,在东部大规模发展数据中心难以为继。而我国西部地区资源充裕,特别是可再生资源丰富,具备发展数据中心,承接东部算力需求的潜力。
(图源网络)
东部哪些数据送往西部去算?
西部数据中心处理后台加工、离线分析、存储备份等对网络要求不高的业务。东部枢纽处理工业互联网、金融证券、灾害预警、远程医疗、视频通话、人工智能推理等对网络要求较高的业务。东数西算项目是促进算力、数据流通,激活数字经济活力的重要手段。
为什么布局这8个算力枢纽和10个集群?
依托这8个算力枢纽,有利于集中政策和资源,着力优化网络、能源等配套保障,更好引导数据中心集约化、规模化、绿色化发展,促进东西部数据流通、价值传递,带动数据中心相关产业由东向西有效转移。
在8个算力枢纽内,进一步规划设立10个国家数据中心集群。每个集群是一片物理连续的行政区域,具体承载算力枢纽内的大型、超大型数据中心建设。通过10个集群,将有效减少数据绕转时延,降低长途传输费用,保障数据中心能源供给,积极协调安排能耗指标。
(图源网络)
“东数西算”给企业带来哪些利好?
“东数西算”将带动土建工程、IT设备制造、信息通信、基础软件、绿色能源供给等相关产业链发展。对于提供算力的企业,有助于加快实现云网协同,提升算力服务的品质;降低网络、电力等成本;规划算力资源更有针对性,提升资源使用效率。对于使用算力的企业,有助于享受更为便捷、易用的算力服务;进一步降低上云用数成本,加快实现数字化转型。
监制:张宁 策划:李政葳 制作:姚坤森
(文图:赵筱尘 巫邓炎)