日本機械学会サイト

目次に戻る

2025/10 Vol.128

バックナンバー

特集 次世代デジタルインフラの構築

次世代コンピューティング制御技術の取組み

日本電気(株)

はじめに

日本電気(株)は、負荷変動に応じてハードウェアの構成を動的に再編成し、ワークロードに最適化された計算資源の割り当てを実現するディスアグリゲーテッドコンピューティング制御ソフトウェアの研究開発を進めている。データセンター内のラックに、サーバが入るのではなく、CPUやメモリといったリソースが収容されて、デバイスのプールを形成し、そこからCPUなどのさまざまな計算リソースを動的に組み合わせて、論理サーバを生成するようなディスアグリゲーテッドコンピューティングを想像している。現状でも電気配線を使って一部小さな規模の製品化はあるが、本プロジェクトでは光を使ったスコープの拡大を狙っている。本技術は個々の計算資源が疎結合されており、柔軟かつ動的に構成変更が可能な装置の特性を活用することで、必要に応じた計算資源を効率的に割り当て、未使用の計算資源を停止することを目的としている。これにより、処理効率の向上と低消費電力化を同時に達成することを目指している。本稿では、制御技術の概要および今後の展望について述べたい。

 

制御技術の研究開発

制御技術の概要

図1に示すように、ディスアグリゲーテッドコンピューティング制御技術は、各リソースが疎結合されたハードウェア環境に対して、リアルタイムに変動するリソース情報や制約条件を継続的にモニタリングする。収集した稼働情報(リソース配置、使用率、負荷、電力状況など)と制約情報を蓄積し、それらの情報と実行中のワークロードや要求仕様を基に最適なハードウェア構成案を自動的に導出する。その後、この構成案を実際のハードウェアに反映し、疎結合されたリソースを組み合わせて利用者に提供する仕組みである。ワークロードに応じたリソースを割り当てし、不要なデバイスは電源を切断することにより、将来的なデータセンターにおける省電力技術の実現を促進する。

図1 ディスアグリゲーション技術の概要

装置情報取得・制御機能部

本制御ソフトウェアは汎用的な利用を念頭に置いており、OCP(Open Compute Project)やIOWN(Innovative Optical and Wireless Network)などの標準化団体と協調しながら、将来の標準化動向を踏まえたインタフェース選定を行っている。制御対象の装置との通信には、ノードやLinux標準のインタフェースを通じてリソース使用状況の取得や構成変更制御を行い、CXL Switchが提供するFabric Managerによる接続制御、さらにRedfishなどのインタフェースを用いた電力・電源制御を使用している(図2)

図2 ディスアグリゲーション技術が利用するインタフェース概要

対象ハードウェアは、OSと連動した静的構成発見・初期化メカニズムおよびHot AddやHot Removeによる動的構成変更メカニズムを備え、CXL Switchによるファブリック接続制御や電源制御機能を有することが前提である。装置情報取得・制御機能部は外部からの制御要求を受け付け、HW非依存部が共通処理を担い、HW依存部が装置固有の制御方法(Fabric Manager APIやRedfishなど)に従って具体的な操作を実施する。将来的には新たな標準仕様やベンダの独自仕様にも対応できるよう、モジュール化された構成を採用している(図3)

図3 装置情報取得・制御機能部の概要構成

自動設計機能

自動設計機能では、ラックスケール規模の疎結合ファブリック構成を持つ装置を対象とし、負荷やワークロードの変動に応じて柔軟かつ効率的にリソース構成を変更可能とする。従来のマシン単位のリソース制御に比べ、不足や余剰リソースの調整自由度が大幅に向上する。一方で、構成自由度の高さはリソース割り当て設計案策定の計算量増加を招き、異種プロセッサ混在のヘテロジニアス環境下ではワークロード特性を踏まえた高度な最適化が不可欠である。

そこで、自動設計AI(設計空間探索、マシンラーニング技術)を研究開発し、要件を反映した最適構成をリアルタイムかつ自律的に生成・反映することで、多数かつ多様なリソースの効率的割り当てを実現し、管理コストの軽減も図る。具体的には自動設計AIは探索による自動設計と、数理最適化の組み合わせにより要件を満たす消費電力が最適となる構成を導出する(図4)

図4 自動設計AI/ML技術

また、ワークロード分析によりワークロードに適切なリソース量を見積もる。過去の実行履歴や事前実行結果を基に、負荷情報把握部が負荷の相関関係などからインテンシブ特性を把握し、予測部が負荷の変動傾向を踏まえてワークロードに必要なリソース量を予測し、意思決定部が割り当てるべきリソース量を導出する(図5)

図5 ワークロード分析

成果・今後の展望

デジタル技術の進展により多くの社会課題の低減や解決が達成される一方で、そのための処理を担うデータセンターでのデータ量・処理量は増大し、データセンター自身の省電力化が今後いっそう必要とされる。さらに高度な処理や複雑な処理が要求されることより、処理特性に適したハードウェアを組み合わせて活用することが求められる。日本電気はこのようなデータセンターの課題であるさらなる省電力化や複雑な計算資源割り当ての自動化をディスアグリゲーテッドコンピューティング制御ソフトウェアにより解決していく。本事業で得られた成果の社会実装に取り組んでいて、2025年3月には成果の一部をオープンソースソフトウェア(1)として公開し、その普及につとめている。また、多数のGPUを活用する顧客との共同検証を計画している。今後、ICT産業界全体で広く連携した社会実装に向けた取組みを進めてSociety 5.0の実現に貢献していく。

なお、この成果は、NEDO〔(国研)新エネルギー・産業技術総合開発機構〕の助成事業(JPNP21029)の結果得られたものです。


参考文献

(1) https://github.com/project-cdim/cdim


日本電気(株)

コンピュート統括部

 

キーワード: