欢迎来到继续教育培训网院校库!
继续教育培训网首页近日,数据库领域顶级会议ACM SIGMOD 2022(Special Interest Group on Management Of Data)公布了录用论文,计算机科学与工程学院大数据团队关于图神经网络分布式训练框架的研究成果《NeutronStar:Distributed GNN Training with Hybrid Dependency Management》被录用为长文(Data Management Track)。该研究成果作者为王千阁(东北大学)、张岩峰(东北大学)、汪浩(美国俄亥俄州立大学)、陈朝亿(东北大学)、张晓东(美国俄亥俄州立大学)、于戈(东北大学)。
SIGMOD数据管理国际会议(Special Interest Group on Management Of Data.)是数据库系统领域具有最高学术地位的国际性会议之一,每年吸引全球各国顶级研究单位投稿,论文审稿非常严格,对研究成果的创新性、系统设计的完备性和实验设计的完整性都有着极高的要求。
该论文设计了一种适合超大规模图数据的图神经网络分布式训练框架NeutronStar,它结合了DGL、Aligraph主流图学习系统基于缓存的依赖管理方式和传统图计算系统的基于通信的依赖管理方式,提出了一种混合依赖管理策略,保证总是用最优的方式获取邻居顶点的embedding和梯度,并可以利用PyTorch和Tensorflow等自动微分库支持跨计算节点自动微分(自动反向传播),支持分布式GPU训练,同时也加入了诸如CPU-GPU异构计算优化、环形通信、流水线、计算通信重叠等许多传统分布式图计算系统的优化技术。
该工作自从2018年底开始,耗时3年多完成整个系统,期间正值图神经网络迅速发展阶段,几度对系统架构进行重构改良优化。当前,支撑超大规模图数据的图神经网络分布式训练系统也是各大企业的重要需求,大数据团队已经将系统代码开源,目前正在与华为中央研究院图计算团队合作,部署集成到华为公司的图计算系统中。