本文へ移動

新AI時代において、大規模GPUクラスター構築は経営イシューになっている

この記事に登場する人
生成AIチーム
渡辺 晃平 Kohei Watanabe
高等専門学校で半導体を学んだ後、新卒でNTTコミュニケーションズに入社。新設されたクラウドサービス部で、NTTのクラウドサービス第一号を開発した後、サービス企画部門に異動し、大規模GPUクラスターを担当する。その後、NetAppに転職し、ストレージ技術を学んだ後、チューリングに入社。

グローバルだけでなく、国内でも進む生成AI開発や大規模GPUクラスターの内製化は進んでいます。そんな環境の中で計算資源を独自に構築できる企業の優位性は増し、それが競争優位の源泉になると渡辺さんは語ります。NTT時代からインフラ構築の第一線で経験を積んできた渡辺さんにインフラ構築の時代の変遷や、インフラエンジニアとして求められる動きやスタンスについてインタビューしました。

半導体に求められるレベルは上がり、インフラ構成の難易度が高まっている

ーー第三次AIブームの中でインフラ業界は、どのような変化をしてきていますか?

ここ5年くらい世界的にソフトウェアエンジニアに注目が集まっている中で、相対的にインフラ系の分野に興味を持つ人はガクッと減っています。その一方で、半導体業界はこれまでマーケットに向けてコストやスペックを最適化したものから、NVIDIAしかり最先端で高性能の半導体が売れる時代に移り変わりました。半導体周辺のデバイスの性能やインフラに求める要求が非常に上がり、大手のクラウドサービスはその変化に応えるのが難しい状況です。

そうなると、高性能の半導体はパフォーマンスを十分に発揮できないため、自前でインフラを持ちたいと考える企業が増えていきました。しかし、そういったインフラを構築できるような人材は足りていない状況です。

ーーなぜ自前で大規模GPUクラスターをもつ必要性があるのでしょうか?

ChatGPT4などのAIはスケール則があり、パラメータを増やすとどんどん性能がよくなります。そのため、大規模な計算資源が必要になります。なぜ自前でGPUクラスターを持つかといえば、現状これほどの大規模な計算資源をオンデマンドでいつでも利用できるクラウドサービスはほとんどないからです。(正しくは、一部あるもののコストは決して安くはありません)

そのため、大規模GPUクラスター自体は非常に高価ですが、かけた投資を回収できる将来性のあるビジネスを展開する企業は自前でもったほうが経済合理性があります。そして、ワークロードや計算内容はある程度固定化するため、その計算資源のためだけのインフラ構成を組めば最大限効率のいい状態にできるのです。もっとも効果が出るのがAIの機械学習基盤なので、世界中の企業がこぞって自前でインフラ基盤を持とうとしています。学習する基盤をもつことが、企業の競争力の源泉になっていると言えます。

エンジニアが開発に最大限集中できる環境づくりにコミットする

ーー渡辺さんはチューリングでどのような仕事をしていますか?

私の役割は、経済性をもった正しいインフラを構成することです。そのためにはインフラを販売する側といい関係性をつくることも重要です。大規模GPUクラスターは日々AI開発向けに変わっています。そのため、ただ導入して終わりではなく日々構成を変えていく必要があるのです。

例えば、AIに関する新しい論文が発表されたときにそれが動かない環境では意味がありません。自前のインフラを常に最新のAI開発に対応した構成にしていく必要があるんです。

今は入社後にみんなが実際に何をやっているかを見ながら必要なものを調べ、必要な基盤を考えています。例えば、NVIDIAのH100の周囲にコンポーネントを増やしたり、細かくネットワーク構成を変えたりしています。データの前処理などのタスクをするのにH100を使うのはもったいないので、代わりに少し安いCPUだけが載っているノードで行うようにする、などです。

H100を使用するのはなるべく学習の長時間タスクだけにして、稼働率を上げています。他には、計算タスクがうまく回っていないと思ったときに調べられるよう、GPUやメモリ、CPUがどのくらい回っているかが一通り見られるようなツールを作ったりもしています。

こうした作業はMLエンジニアの方がやろうと思えばできることですが、そこに時間を割くかどうかという問題があります。MLエンジニアの時間が10あるとして、4をその作業に充てていたら、開発リソースが4失われます。だから、私の10の時間を使って、彼らが4使っている作業をすべて私が担当する。それによって開発効率が上がるのです。

つまり、私の今の役割は、MLエンジニアが計算タスクを回すときにインフラ関連のことを意識して悩む状況を片っ端からなくしていくことです。「計算タスクに少し時間がかかったんですけど何でですか?」と聞かれたら、その原因を調べて改善していきます。

1つ重要なこととして、インフラ側に問題があると明らかになって諦めてもらった方がいいこともあります。MLエンジニアからすると、計算に時間がかかったのが自分のコードが悪いからなのか、インフラの限界なのかわかることは価値があります。自分のコードに問題がないという判断をするまでの時間を早めて、次のことに頭を切り替えられる環境をつくるのが、今の自分の仕事だと感じています。

ーーそれを達成した後に取り組みたいことはありますか?

会社のビジネスのロードマップと完全にリンクしますが、自前で大規模GPUクラスターを保有して、自分たちが好きに使える状態にした今の状態が第一段階です。来年我々がTokyo30というプロジェクトで自動運転への道筋を証明した先には、最適化した車を作るフェーズになるため、次のフェーズのインフラを考える必要があります。

車を動かせばその車の運転データのフィードバックが返ってきます。それを基に学習モデルの改修をしていくタスクが生まれ、その仕組みをどこで動かすのかという議論が出てくるはずです。おそらくそこでまた計算資源を持つことになるので、これまで生成AIチームのリーダーの山口さんが当初考えていたように、自分たちの工場やラボの施設の横に計算基盤を作ること検討するかもしれません。用地を選ぶときには冷却設備を含めてどうインフラ構築を進めるかを考える必要があります。こうした話をビジネスの数年後を見据えて、山口さんと常にすり合わせています。

また、事業計画にも大きく影響する話だからこそ、財務責任者の大杉さんにもロードマップを話しています。投資には先立つものが必要なので、その時点でのバランスを考えた結果、自前ではなくサービスを買う選択をすることもあるかもしれません。そういったことも想定しておくようにしています。

ーー渡辺さんは現在、インフラの内部構成を作るだけでなく、経営陣との交渉、財務的な議論も進めています。なぜここまで広く業務範囲を広げているのでしょうか?

色々やってはいますが、それこそが私のミッションだと思うんです。インフラにはヒト・モノ・カネが必要です。物理的な工事もしなくてはいけないし、できあがるのには時間もかかる。データセンターを作ろうと思ったら構想から5年はかかります。

だから、ある程度将来を想像してお金の話も気にしておく必要があるんです。いままでも私の周囲にはインフラエンジニアがたくさんいますが、そこを意識できずプロジェクトが閉鎖になった例をたくさん見てきました。だからこそ、インフラの技術だけではダメだと自分に言い聞かせています。今回もかなりの費用をインフラ構築に投じる計画なので、それに対する効果やリターンは期待されて当然です。結果を出していかなければと思っています。

インフラ環境は、ビジネスのフェーズと連動して難易度が上がっていく

ーー今後、チューリングの開発環境はどうなっていきますか?

今行っているのは生成AIやLLMを使った開発タスクだけですが、自動車のシステムとして開発していくとさまざまな計算タスクが増えていきます。そこをどう自分たちのインフラで実行していくかを考え作って行くことが次の山場です。

今までは大規模学習に向けたインフラ設計をしていましたが、、新しい計算(開発)タスクがきたときにどういったインフラ構成がベストかを考えていく必要があります。センサーデータから直接運転指示を実行するE2E自動運転AI開発も同時に進行しているので、もうその片鱗は見え始めているかなという感じです。

ーーもう少し具体的に教えてください。

E2E自動運転AI開発で利用するデータ量は多いですし、チームで使っているOSSコミュニティのソフトなどはバージョンが全然違います。この背景は、世の中で培われたレベル4自動運転で用いているソフトウェアや技術資産がたくさんあり、それらを活用してチューリングが開発を進めているからです。そういったものは最新バージョンでない場合があり、さまざまなバージョンの環境で動いています。こういった計算タスクと常に最新を追いかけるリサーチチームの研究タスクを同じ基盤で動かすためには、かなり頭を使う必要がありそうです。

ーー大規模GPUクラスターのチームを今後作っていくとしたら、どんなチームを作りたいですか?

必要となるチームは3つあります。1つめは先ほど話したようなさまざまなソフトウェア環境を理解しつつインフラを考えられるチーム、2つめは最新の論文の動向を調べ、一番性能のいい自動運転の頭脳になりえるインフラを作るチーム、3つめは長期的な視点で、将来的に自前でもつデータセンターなどのインフラを考えるチームです。

それぞれを1名ずつが担当した上で、お互いの情報を最大限吸い上げて、それぞれの答えを持ち寄った上で調整して落としどころを見つけるという流れにしていけたらと思っています。

直近では、LLM開発していてインフラに興味ある人、もしくはインフラ開発していてLLMにかなり興味がある人が一人、自動運転系の開発をしているインフラを担当していたような人が一人いてくれたらうれしいですね。

ーー最後に渡辺さんのキャリアの大きな目標があればお聞きしたいです。

私の目標は、そのドメインで先進的なことをする0→1で新しいことをする際に頼りにされるトップランナーになることです。そのために必要なのは、名刺代わりになる仕事を形にすることだと思っています。AI・ソフトウェアの世界においてPh.Dホルダーやトップエンジニアと対等な関係で仕事をしていくには、私自身に大きな実績が必要です。今30代ですが、仮に40代になった時に自分の世界を変えていくためにはチューリングの仕事を通して、完全自動運転のための計算環境やマルチモーダル生成AI開発におけるインフラ構築の第一人者となれればと考えています。

チューリングは大きな挑戦をしている会社です。だからこそそういった思いも実現できると信じています。

HR立石の編集後記vol.18

※SUPを楽しむ渡辺さん

渡辺さんの入社前後でインフラ周りの議論がかなりスマートに進み、生成AI開発のスピードが増したと実感しています。今回のインタビューを通してその背景をよく理解できました。

手足を動かし事業戦略・財務戦略・開発戦略の全てとインフラ構築を連動させる渡辺さんがいるからこそ、エンジニアたちが開発に全力投球できるのだと感じたインタビューでした。

ライター:久保

Turingの中をのぞいてみたい方は、ぜひイベントに参加ください!こちらをクリック