本文へ移動

インフラチーム対談 〜チューリングで目指す次の計算環境構築〜

この記事に登場する人
インフラチームリーダー
渡辺 晃平 Kohei Watanabe
高等専門学校で電子工学(半導体やレーザー)を学んだ後、新卒で大手通信会社に入社。新設されたクラウドサービス部で当時国内でも新しいクラウドサービスの開発に携わった後、サービス企画部門に異動し、クラウドサービス企画を担当しながら、複数のGPUクラスター案件を担当。その後、外資系ストレージベンダに転職し、ストレージ技術を学んだ後、チューリングに入社。
インフラチーム シニアエンジニア
深澤 開 Kai Fukazawa
2013年にヤフー(現:LINEヤフー)へ新卒入社し、大規模Hadoop基盤(最大70PB)の設計・構築・運用に従事。 データセンターネットワークやGPUクラスタ向けネットワークの設計・構築や米国子会社へ出向し、 米国データセンターの立ち上げや大規模分散処理基盤向けのインフラ設計・構築・運用も担当。 そのほか、バックボーンネットワーク統合プロジェクトのマネジメントなどを経験し、グローバルかつ横断的なインフラ運用を推進。チューリングでは大規模計算基盤を担当し、世界で戦える高効率な計算インフラの実現を目指す。

はじめに

2024年に自動運転と大規模AI学習に特化した自社専用計算基盤「Gaggle Cluster」を構築するなど、これまで大規模な計算インフラを構築・運用してきたチューリング。2025年12月に開催されたTuring AI DAY 2025では、山口祐CTOから今後の計算基盤の方向性について、その規模やロードマップの発表が行われました。

今回は新たに組成したインフラチームの2人による対談を実施。チーム組成の背景から、次期GPU基盤構築というチャレンジの詳細、新たにチームに求める人物像などを語ります。

インフラチームが組成された背景

渡辺 昨年(2025年)まではCTO室、CTO直下という形でインフラ全般を見ていました。具体的には、会社全体の計算資源をどう調達し、それを各研究テーマや開発用途にどう割り当て、どう使いやすい形にするか、そのための基盤づくりが主な役割でした。クラウドサービスを活用することもあれば、オンプレミスの「Gaggle Cluster」を構築・運用することもありました。

昨年末のTuring AI DAYで発表が行われた内容の通り、ここから先は計算資源律速で、自分たちが開発しているモデルが進化していくことはほぼ見えてきているので、それに向けて心機一転で新しいチーム及びインフラを作っていくという意味で、CTO室から分離し、インフラそのものに専念するインフラチームを組成するという判断に至りました。

これまでのCTO室ではインフラ担当はほぼ私1人でやってきました。今回のチーム組成にあたって、ジョインしてもらったのが深澤さんです。簡単に自己紹介をお願いします。

深澤:2025年12月からチューリングに参加した深澤です。前職ではインターネット広告事業の会社に所属し、主にデータセンター内のネットワーク、バックボーンと言われている拠点間をつなぐネットワーク、そしてインターネットとの境界部分、ピアリングルーターの管理などを担当していました。

また、前職ではアメリカにデータセンターを持っていたため、現地に約5年滞在し、データセンターの運用や物理構築にも携わっていました。

渡辺:ちょうど入社して1〜2ヶ月ほど経ったと思いますが、前職と比べて、チューリングに来て感じた一番の違いやギャップは何でしょうか。

深澤:一番大きいのは、エンドユーザーが非常に近いことですね。前職では、広告主やレポートを見る人たちがエンドユーザーでした。一方で、チューリングではMLエンジニアが社内にいて、日々直接フィードバックをもらえる。実際に仕事をしていると、「ここが調子悪い」「こういうことがしたい」と。自動運転に向けていいものを作っていくところに、こうした形で協力できるのは魅力的だと思います。

渡辺:ユーザーが近いのは幸せな反面、ユースケースが多い場合は基本的にパンクするじゃないですか。ただ、チューリングの場合は、やることがほぼ全員同じで、「完全自動運転AIを開発する」、あるいはそれに関連する基礎研究を行う、という方向性が揃っている。そのため、ワークロードも共通しやすく、起きる問題も似通っている。この共通課題を前提に、新しいインフラを打つ必要が出てきた、というのがチーム組成の背景です。

チューリングが目指すこれからの計算環境

渡辺:AI DAYで発表があったとおり、結構チャレンジングな計算規模をこれから打ちますと宣言していまして、それに向かって現在様々な準備を進めています。これからの計算環境について、技術的に超えなければいけない壁は大きく2つあります。1つは当然、GPUの計算リソース量。もう1つは、それに付随するネットワークとストレージといった周辺コンポーネントです。

GPUだけを増やしても、ネットワークやストレージが追いつかなければ意味がありません。この点については、去年からCTOと私で管理し、議論を重ねてきました。その中で、今回新しいオンプレミス基盤を作るという構想が立ち上がり、現在動いている最中です。

そこでネットワークに詳しく、かつGPUクラスタの構築経験がある深澤さんに参加してもらったので、これからサーバー、ストレージ、ネットワークと、考えるべき要素は山ほどあるのでこれから広げていこうというところです。

深澤さんはAI DAYで発表された計算環境のコンセプトについて、率直にどう感じていますか。

深澤:純粋に面白いですね。自分がインフラを始めた頃は、サーバー1台10Gbpsでも「速い」と言われていましたが、それが今では平然と「800Gbpsです」と言ってて。そこにチャレンジすること自体が面白いですし、それを実現するために、どの規格を選び、どの技術を採用するかを考えるのも楽しい。メーカーや他社のGPUクラスタ運用者と話をする中で、最先端の情報に触れられるのも魅力です。

渡辺:最近のITインフラは昔と比べて、特定のメーカーを揃えれば完成する時代ではなくなっています。パーツの1個1個レベルでメーカーが違い、そういうのを集めていく感じが合う人も多いです。

それからテクノロジーもディープになってきていて、これを一人で見るというのは結構限界になっていて、でも聞いている1個1個の内容は先端技術であり、とても面白いですね。

深澤:面白いですよね。それを組み合わせなきゃいけないという難しさもある。自分の中ではインフラは、全体最適をしなきゃいけないと思っています。各レイヤーである意味最適化し過ぎると、どこかで不整合が起きると思うんですよね。それがGPUだと最終的に凄いクリティカルになる。

今はチームが2人だからこそ、自分たちて各所を見ながら「ここはこの選択をする」と決められる。インフラチームとしては、MLエンジニアに使ってもらうにはどうすればいいかを目標にしていて、その過程で色々なところから刺激をもらったり、考え方がシンプルに広がるというのは、そこも面白い部分だと思いますね。

渡辺:以前構築したGaggle Clusterでは、NVIDIAのリファレンスアーキテクチャに沿って作るというコンセプトで構築しました。今回チャレンジングな要素として一つあるのが、前回GPU間通信にInfiniBandを使っていた部分を、今回はEthernetにし、さらにRoCE v2を採用して800GbpsをEnd-to-EndでGPUを繋ぐことです。

この辺りはアメリカが先行してる分野だとは思いますが、日本で1社単独で取り組むには、かなり…。

深澤:チャレンジングですよね。

渡辺:かなりコストもかかりますよね。私と深澤さんが20代の頃に触っていたネットワークスイッチは1台100万円、高くても数百万円でしたが、今回我々が入れようとしている機械は本体だけで1000万円を超えていて、光通信モジュールも1個10万円を平気で超えている。これを何十何百とGPUに繋ぐチャレンジができる会社って減ってくるという感じはしませんか?

深澤:そうですね。今ネットワークもそうですし、サーバー自体も昔のサーバーに比べると凄い価格も上がってるというのもあって、そんな中この規模で投資するという判断するというのは、技術だけでなく、投資判断も含めて難易度が高いと思います。ここができるっていうのはチューリングの魅力の一つだと思いますね。

渡辺:深澤さんは今のところ、この1ヶ月半ほどやっている内容は満足してます?

深澤:だいぶ満足といいますか、やっぱり楽しいですよね。ここでこの規模のインフラを打たないと、「We Overtake Tesla」という目標に対して近付ける意義、より近付けるかどうかの瀬戸際だと思っていまして、このチャレンジに対して道、というよりやることは決まっていますので、あとはそれに対して全力でやるというところですね。あと、作って終わりじゃないですので。

渡辺:そうなんですよね、そこからなんですよねこの会社は。

深澤:作って、MLエンジニアの人たちが使って、自動運転を開発する。これをどんどん事業化するのが結局インフラの手段ですので。インフラチームとして、作ったものを使ってもらえるか、という部分ではこの先もいい意味で楽しみですね。

渡辺:私も2024年3月に入社して、そこから計算リソースクラウドで用意したり、Gaggle Clusterを作るなどした結果、Tokyo30ができた。1〜2年周期で大きなアウトプットが出てくる、しかも自分たちの作った計算インフラによってある意味成果として出てくる、そういったサイクルがあるというのは結構幸せなことなんですよね。

現時点で我々が2024年からやってきた計算資源の戦略は、一旦間違ってなかったという状態になるぐらいに成果を出してくれたのは、もう社内のMLエンジニアの方々に非常に感謝しています。そして今回さらに大きな規模で動き出してるってのは私の中で嬉しくて、我々が今作ろうとしてるインフラを使って今度は何をどこまで作ってくれるかは本当に楽しみですね。

自動運転開発とインフラのビジネスモデル

渡辺:私が入社してから言い続けていることですが、このインフラの規模を投資して、それをどのように回収するかというのは結構ポイントがあると思っています。インターネットの広告事業のように、ITシステムは5年ほど動かしたシステムの中で、何%利用料みたいな感じで社内的な取引をして、実際に広告事業やコンテンツ事業を行なっているプロダクトとして、費用を負担してもらって…という流れですが、今回の規模ってその延長線上でできるって感じはあまりしないですよね。

深澤:そうですね。この規模ですぐ成果というのは難しいと思う部分もあると思いますね。

渡辺:一方で、サブスクリプションのようなビジネスモデルって、安定して収益を得られる。当時も多分新しい基盤とか増設する時に、今のビジネスでこのぐらいのIT投資ができるから、実行後10年に向けてもっと大きな投資しましょう、みたいなことをやってたじゃないですか。

結局今の自動運転開発も未来はそうなっていまして、アメリカのTeslaでは完全自動運転用のライセンスサービスが月額サブスクになりましたよね。この流れはおそらく他の自動車会社も追従してくると思っています。そうなりますと我々が自動運転を提供する時には、みなさんが乗っている車に展開されて走っているわけでして、売ったら終わりではなく、アップデートも必要になります。より良い運転システムとかを提供し続けるという意味では、同じようなビジネスモデルは取るようになると思っています。

自動車が毎年世界的に数千万台買い替えられていく中で仮に今Teslaだと99ドル、日本円で言うと1万6000円月額で払っているので、それが数十万台、数百万台って積まれたら大きなマーケットになる。このぐらい大きなビジネスモデルがないと、耐えきれるインフラ規模じゃないんですよね。

深澤:最近車買おうかなと思って会社の皆さんと相談もしていたのですが、とあるメーカーさんの車を買うと、今は色々とサブスクが豊富なんですよね。Teslaが今行なっている自動運転のサブスクも、そのうち他の会社さんも入れて、この自動運転のまずパッケージでいくらですとか、さらにこれを連携しますとか、様々な話になってくると、マネタイズっていいなと思いますし、サブスク入ったりとか自動運転機能があると、保険が安くなるとかいっぱいあるじゃないですか。

そういった世界がどんどん来るので、チューリングが作った自動運転の技術を、様々な会社さんがサブスクとして取り扱って、それを運転する人が入れることによってメリットが絶対出てくるので、その辺りのビジネスモデルとかっていうのは凄い良いな、筋いいなと思いましたね。

渡辺ある程度用途も決まってて、使い道も決まってるというのは、我々インフラエンジニア側からするとかなり楽なんですよね。「こういうところの可用性を諦める」、「ここのパフォーマンスを諦める」とか、「こういう機能を諦める」みたいなことをバンバン決められて、結構スリムになった要件の中で作るってことになっていますが、やることは最先端のことができる、これが結構大きいですよね。

こなれた技術を使うことも大事ですが、取れるところのリスクは最大限取る、これがかなり面白いなと思っていまして。いわゆるインフラをデザインする上で、ネットワークって一番基礎の部分で、サーバー系とかストレージの話など、詰めていきたい部分がありまして、そういった分野も今後、一緒にやっていける仲間やパートナーを増やして、そういった経験をした人を日本で増やしていけたらなと今でも思っています。

深澤:みんなが使う前提のチューニングって、割と中立的になるんですよね。だからプラットフォームとかも、このチューニングをしたらこっちが立たないから、このプロダクト入れられません、みたいな箇所もあったりするので、大きくみんなで使うってのは、コスト的なところで大事な部分ではあるんですけど、それを経験したが故に、今どんどん早くしようみたいなところは、凄いみんな考えてますよね。

渡辺:若干テクニカルですけど、中立的なことを行うための技術が確立する前に、インフラ全体のテクノロジーが次のステップに上がっていっちゃうんですよね。例えば今回で言うと、200Gbpsのインターフェースが出たと思ったら、400Gbpのインターフェースが出て、800Gbpsが出て、次1.6Tbpsが出て…、さらに3.2Tbpsのロードマップもあったりと。結構このようなことが各分野で起きていて、ユースケースをどんどん絞っていかないと最新技術にはついていけないだろうなって感じはしてますね。

深澤:そこを突き詰めてやれる経験って、凄い大事かなとは思いますね。

※動画では番外編として、データセンターと水冷についてもトークしております。詳しくは動画をご覧ください。