本文へ移動

チューリングのGPUインフラのこれまでとこれから

この記事に登場する人
シニアインフラエンジニア
渡辺 晃平 Kohei Watanabe
高等専門学校で電子工学(半導体やレーザー)を学んだ後、新卒で大手通信会社に入社。新設されたクラウドサービス部で当時国内でも新しいクラウドサービスの開発に携わった後、サービス企画部門に異動し、クラウドサービス企画を担当しながら、複数のGPUクラスター案件を担当。その後、外資系ストレージベンダに転職し、ストレージ技術を学んだ後、チューリングに入社。

今回のテーマは「次世代の自動運転モデル学習基盤構築」というテーマについて、チューリングのインフラの設計・開発に携わってきた渡辺さんに話を聞きました。2024年9月のGPUクラスター稼働以来、オンプレミス・クラウドハイブリッドな大規模インフラを構築・運用してきたこの1年間を振り返り、その変化と今後の壮大な展望について深掘りします。

この1年間でインフラに求められてきたこととその変化

インタビュアー:チューリングは2024年9月にGPUクラスターを稼働させて以来、オンプレミスとクラウドを組み合わせた大規模なインフラを構築し、MLエンジニアの要望に応えてきました。この丸1年で、インフラに求められる要望はどのように変化してきたのでしょうか。その変遷についてざっくりと教えていただけますか?

渡辺さん:私が2024年3月に入社し、同年9月に稼働したGPUクラスター(チームではGaggle Clusterと呼んでいます)の立ち上げに関わっていましたが、その規模は当時、世の中のトップランナーと比較するとまだ小さいレベルでした。しかし、この1年間で、求められるインフラの規模は爆発的にスケールしました。

当然、それだけでは足りないため、クラウドでの拡張をこの1年間ひたすらやってきました。幸いなことに、我々はGENIACプロジェクト(※)として、複数のクラウドプロバイダーと協業し、クラスターを構築してきました。この過程で、「たくさんクラスターを作っては壊し、作っては壊し」を繰り返し、我々のMLエンジニアがどう使うか、どこがペインポイントなのかを徹底的に洗い出してきました。

特に初期のGaggle Clusterにおいては、我々が目指す「大量のGPUを用意して強力なAIモデルを作る」という未来に向けた足がかりとして、自前のクラスターを持つことが大きなモチベーションでした。単なるロマンだけでなく、このオンプレのクラスターをNVIDIAリファレンスアーキテクチャ通りに構築したことが重要でした。これにより、新しい論文や技術情報に基づく実装を、すぐに動かせるオンプレの環境を持つことができ、さらにクラウド環境との差分を見て改善していくという、貴重なフィードバックサイクルを回すことが可能になりました。この「デファクトスタンダード」と同じ構成を自前で持てたことが、オンプレミスを持つことの最大の意義だったと、今振り返ると感じています。

※GENIAC(Generative AI Accelerator Challenge)は、国内の生成AIの開発力強化を目的とし、経済産業省及びNEDOが協力して実施する事業です。主に生成AIのコア技術である基盤モデルの開発に対する計算資源の提供や、データやAIの利活用に向けた実証調査の支援等を行っています。

URL:https://www.meti.go.jp/policy/mono_info_service/geniac/index.html

インタビュアー:オンプレミスのGaggle Clusterを最初に持てたことで、MLエンジニアや経営陣からは、どのようなフィードバックが得られましたか?

渡辺さん:まず、スタートアップとして多額の資金を投じてオンプレミスを持つという会社の覚悟が、入社してくれたMLエンジニアに伝わったのは大きいです。計算資源へのプライオリティの覚悟を示すことができ、それが優秀なMLエンジニアを惹きつける大きな要因の一つになったとよく言われます。

また、我々は特定のクラウド環境に依存せず、さまざまなクラウド環境を活用してきた経験を公開しているため、「どんなクラウド環境でも使えるクラスターを運用・構築できる」という証明ができました。これが、今後のビジネスチャンスにも繋がっています。

Gaggle Clusterを「基準」として、パブリッククラウド環境を改善していった具体的な動きとしては、MLエンジニアの使いやすさへのこだわりがありました。

例えば、MLエンジニアは数百万ファイルといった大量のファイルを頻繁に利用しますが、これはインフラ側、特にストレージにとっては非常に厳しい要求です。しかし、彼らにとってそれが最もやりやすい方法である以上、インフラ側が「その数百万ファイルに耐えられるようにする」ことが、我々の責務です。Gaggle Clusterという自分で全てを把握できる環境があったからこそ、この独自要件に対応するためのコンフィグレーションやカスタマイズを迅速に行い、その知見をクラウド環境との差分吸収に活かすことができました。「自社クラスターが重要な指標になってくれたおかげで、他の環境構築がやりやすくなった」と言えますね。

パブリッククラウド増加により、H100 500基相当へ

インタビュアー:オンプレミスに加えて、GENIACを通じて複数のパブリッククラウドクラスターを構築されてきましたが、その変遷と、ML学習のスケールアップをどのように実現してきたか教えていただけますか?

渡辺さん:GENIACは3期に分けて実施しました。第1期はGCP(Google Cloud)さんで、当時はH100を搭載したインスタンスを使用しました。ここで一番苦労したのは、分散学習のためのネットワーキング周りのチューニングや運用、そして超高速なストレージサービスが当時はまだマネージドで十分になく、自分で大量のインスタンスを調達して分散ストレージを構築する必要があったことです。トラブル対応も含め、MLエンジニアと膝詰めで対応したことは、非常に大きな経験となりました。

第2期はAWSさんを採用しました。AWSさんも優れたサービスがありますが、やはり似たような問題は引きずりつつ、このフェーズではユースケースの多様化とMLエンジニアの増加に伴い「全体のルックアンドフィール」、つまり「どういうツールがあると便利か」「どういうコンフィグレーションがあると便利か」といった、開発体験の向上のための取り組みを始めました。

そして第3期では、日本のクラウド事業者であるGMOさんのクラウドサービスを採用しています。AWSやGCPがさまざまなユーザーに対応するプラットフォームであるのに対し、より落ち着いて、我々の特定のニーズに合わせたインフラ検討を行うためです。

現状、チューリングではオンプレミスのGaggle Cluster、AWSのL4クラスター(G6系インスタンス)、そしてGMOさんのクラウドサービスという3つの環境をワークロードに応じて使い分けています。例えば、モデルサイズが大きく、大量のGPUを使う最高性能を発揮するチームはGaggle ClusterかGMOを使用。一方、学習のスケール方法を検証するチームは、MLOpsプラットフォームの近傍に作られたAWSのL4クラスターを使用し、GPU枚数やデータ量を切り替えながら検証しています。リサーチチームは、リファレンスアーキテクチャ通りのGaggle Clusterで、論文の実装をそのまま動かせる環境を活用しています。これにより、我々の学習規模は、H100換算で500基相当へとスケールアップしています。

インタビュアー:これだけGPUの獲得競争が激しい中で、計算機環境をスケールさせる上で、最も大変だったことは何でしょうか?

渡辺さん:これはもう「お金」に尽きます。スタートアップであろうが大企業であろうが、これだけ高額な計算資源をどう確保し、どこに投下するかの労力は計り知れません。幸いにも当社のCEOとCTOは「計算資源はいくらあっても困ることはない」というスタンスで、財務上問題ない範囲で、会社の資本割合に対してかなりの割合を計算資源に投下しています。

経営陣が強力にサポートに入ってくれているため、社内での予算調整コストは比較的低い形でここまで来られたのは、非常に幸運でした。また、インフラへの要求の変遷を整理すると、最も大きいのはモデルおよびモデルに使うデータセットが淡々とスケールしてきていることです。

これこそが全てであり、MLOpsチームの功績もあって、MLエンジニア側がストレスなく無限にデータセットを作れて、無限に学習が回せる状況ができたからこそ、このスケールが実現しています。

これはある意味「嬉しい悲鳴」で、今ボトルネックは「計算資源が足りない」という点に集まってきていますが、これが解消されると、また次のボトルネックが現れます。このボトルネックを次々と解消し、ステップを登っていく良いサイクルが生まれていると感じています。

資金調達と次世代インフラの展望について

インタビュアー:これからチューリングは事業として大きくドライブをかけていきますが、インフラとしてはどんな形でスケールアップしていこうと考えていますか?

渡辺さん:ここから先は、どれだけの資本を投下して大きくしていけるかが全てです。その中でインフラとして最適な解を探す必要があります。パブリッククラウドサービスは、パイが大きい(ユーザー数や需要数が多い)領域のために作られていますが、我々のユースケースは徐々にそこから外れてきており、我々が10倍にスケールした時に、現在の構成では対応が困難になるでしょう。

この課題に対してとして、オンプレミスの再強化や、AI計算基盤に特化したクラウドサービスプロバイダーの活用を検討しています。次のマイルストーンとしては、現在のインフラ規模の「10倍」を目指したいです。世の中的には「まだ小さい」と言われるかもしれませんが、我々はこの基盤を作り上げてきたからこそ、この次のステップを踏み出すことができます。愚直に、着実にステップを刻んで登っていくしかありません。

インタビュアー:次のインフラは、どのような構成や規格で作っていこうと考えていますか?

渡辺さん:最も重要なのは、MLOpsのプラットフォーム全体、つまり学習のサイクル全体をどれだけ高速に回せる基盤を作れるかです。その答えは、すべてクラウドではないという現実が見えてきています。鍵となるのは、データの配置とストレージです。データをどこか一箇所に置くと、その近くにワークロードを置きたくなるため、データと計算資源、そして各プロセス処理を一箇所に集められるかがポイントになってきます。

自動運転の学習データは、今後は「100万シーン、200万シーン」といった、ペタバイト級のデータセットクラスになっていくことが予想されます。これは、世の中でもトップクラスのAI企業が行っている世界観であり、我々もそこに追いつくためには、次のステップを慎重に組んでいかないと、その世界が見えてこないです。

次世代のNVIDIAハードウェア(例えばBlackwellのB200など)も視野に入れつつ、次のステップでは4桁ノード(1000ノード)クラスに至る前に、まずはその数分の1の規模を次のステップとして検討しています。これは、スタートアップにとっては非常にチャレンジングな規模の投資となり、財務も含めた経営判断が重要になってくる領域です。

資金調達による大規模インフラの検討とMLエンジニアの開発体験向上のためのプラットフォーム開発

インタビュアー:まさにインフラの構成や調達が経営イシューになっていますね。ノード数が増えることに伴い、MLOpsの環境をどう作っていくかという観点ではいかがでしょうか?

渡辺さん:現状のインフラは、MLエンジニアが自由に触れるよう、あえてシンプルな構成にしていますが、新しく入ってきたエンジニアがすぐに使えるような開発体験を向上させる環境を、MLOpsチームと一緒に作っていくフェーズに入っています。

これは、学習だけでなく、自動運転のデータパイプライン開発を鑑みたプラットフォーム開発です。MLOpsチームが作るユーザーインターフェースが要求する機能すべてを網羅し、データを1箇所に集め、その周りに計算リソースや処理を集めるという世界観を実現するプラットフォームをどう作るかがポイントです。今後はメンバーを増員し、本当に必要な機能に絞り込みつつも、我々が抑えるべき機能を厳選したプラットフォームを作っていきます。これが、次に打とうとしている大規模クラスターへの非常に強い足場となります。

インタビュアー:まさに、世の中で言われる「ビッグサイエンス」「ビッグエンジニアリング」に到達する前の一段階ですね。

渡辺さん:その通りです。この次のプロジェクトには、是非、多くの人に関わってほしいと思っています。この面白い流れの中で、この面白い経験をしたインフラエンジニアが増えてほしい。この経験は、プラットフォームエンジニアにとっても、MLOpsチームにとっても、次のステップや次のことを考えるために非常に重要になるはずです。

インタビュアー:チューリングのインフラエンジニアチームは、今後どのくらいの規模を目指したいですか?

渡辺さん:プラットフォーム開発も本格化させるとなると、10人以上は集めたいですね。プラットフォームの構築には、要素技術を決め、コミュニティやサプライヤーの協力を得ながら、我々として絶対に必要だから積み重ねていくべき領域を自分たちで作っていく戦略が必要です。

このフェーズの会社で、目の前でユーザー(MLエンジニア)が学習を回している状況を肌で感じながら、数年先、自分がどうしたいかを考えられる人と一緒に働きたい。明確な意思を持って、チーム一丸となって進んでいければ、非常に良い方向に転がっていくチームができると信じています。

インタビュアー:渡辺さんはこの1年半、非常に濃密な時間を過ごされたと思いますが、一番やりがいを感じたことは何でしょうか?

渡辺さん:インフラエンジニアは、通常、ユーザーから遠くなりがちですが、この会社ではユーザーであるMLエンジニアが横の席にいる。その一挙手一投足が見えている環境の中で、これだけの予算規模とワークロードを、少人数で作り上げていけるのは、私の人生で最初で最後だろうと思っています。それくらいレアな経験です。

得られたものを2つ挙げるとすれば、一つは、「我々(インフラエンジニア)とMLエンジニアは、同じ人間だが同じ生き物ではない」ということを肌で感じられたこと。彼らが何に注目し、何を優先し、我々が「これでいいじゃん」と思っていることが彼らにとってはストレスになっているという事実を、現実として感じられること。

そして、この経験は、このドメインでこれをやり切ったと言える第一人者になりたいという、私の目標の実現に向けて着実に進んでいることを感じさせてくれます。私の最も大きな目標は、単一の「自動運転を作る」という目標だけで、インフラ規模としては日本最大規模まで持っていくことです。単一目的に向かって持っているインフラとして、世界最大規模で取り上げられるレベルまで持っていけたら、それはビジネスとしても、我々インフラエンジニアとしても、これ以上ない成功だと思っています。