用于平衡超级计算机中数据处理负载的新型软件

现代时代的格言“工作更聪明，而不是更努力”强调了不仅要努力生产，还要有效利用资源的重要性。

并不是超级计算机目前一直表现良好，特别是在管理大量数据时。

但弗吉尼亚理工大学工程学院计算机科学系的一组研究人员正在帮助超级计算机以一种新颖的方式更有效地工作，利用机器学习在数千台服务器中正确分配或负载平衡数据处理任务。一台超级计算机。

通过结合机器学习不仅预测任务而且预测任务类型，研究人员发现各种服务器上的负载可以在整个系统中保持平衡。该团队将于2019年5月22日在第33届国际并行和分布式处理研讨会上展示其在巴西里约热内卢的研究成果。

超级计算中的当前数据管理系统依赖于以循环方式将任务分配给服务器的方法，而不考虑它将给服务器带来的任务类型或数据量。当服务器上的负载不平衡时，系统会被落后者陷入困境，性能会严重下降。

“超级计算系统是美国在高性能计算领域具有竞争力的先驱，”计算机科学教授Ali R. Butt说。“它们不仅对于实现科学突破，而且保持系统的功效至关重要，这些系统使我们能够开展日常生活，从使用流媒体服务到观看电影，再到处理在线金融交易，再到使用天气模型预测天气系统。”

为了实现一个使用机器学习的系统，该团队构建了一个新颖的端到端控制平面，将客户端方法的以应用为中心的优势与服务器端方法的以系统为中心的优势相结合。

“这项研究是管理超级计算系统的一次巨大飞跃。我们所做的工作为超级计算带来了性能提升，并证明这些系统可以通过机器学习以经济高效的方式进行智能管理，”Bharti Wadhwa说道，论文和博士计算机科学系的候选人。“我们为用户提供了设计系统的能力，而不会产生很多成本。”

这种新颖的技术使团队能够有“眼睛”来监控系统，并允许数据存储系统学习和预测何时较大的负载可能会从长矛上下来，或者当负载对于一台服务器来说太大时。该系统还以与应用程序无关的方式提供实时信息，创建系统中发生的事件的全局视图。以前服务器无法学习，软件应用程序不够灵活，无需重大设计即可进行定制。

“该算法通过时间序列模型预测了未来的应用程序请求，”Arnab K. Paul，第二作者和博士说。候选人也在计算机科学系。“这种从数据中学习的能力为我们提供了一个独特的机会，可以看到我们如何以负载均衡的方式提出未来的请求。”

端到端系统还为用户提供了前所未有的能力，可以在不更改源代码的情况下从负载平衡设置中受益。在当前的传统超级计算机系统中，这是一个昂贵的过程，因为它需要改变应用程序代码的基础

海德堡大学计算机工程研究所的博士后研究员Sarah Neuwirth说：“能够与这个团队一起为超级计算领域做出贡献是一种荣幸。” “为了超级计算发展和迎接21世纪社会的挑战，我们需要引领这样的国际努力。我自己对常用超级计算系统的工作从这个项目中获益匪浅。”

端到端控制平面由存储服务器将其使用信息发布到元数据服务器组成。使用自回归集成移动平均时间序列模型以约99%的准确度预测未来请求，并将其发送到元数据服务器，以便使用最小成本最大流图算法映射到存储服务器。

该研究由美国国家科学基金会资助，并与橡树岭国家实验室的国家领导计算机构合作完成。