Turing Tech Talk 特別版基盤AI・エンボディドAIが導く“完全自動運転”の未来

2025/7/11

この記事に登場する人

CTO / Director of AI

山口祐 Yu Yamaguchi

産業技術総合研究所・米国立標準技術研究所で研究する傍ら、独自に深層学習ゲームAIの開発を始め、日本の囲碁AIプロジェクトで開発代表を務める。最大1,100GPUの分散強化学習を実現し、囲碁AIで世界大会準優勝の他、将棋AIでも世界大会優勝などの実績。HEROZ株式会社執行役員を経て、2022年チューリングに創業メンバーとして参画。自動運転AIの研究開発の他、LLMを含む生成AI開発全般のマネジメントを担当。東京大学大学院理学系研究科卒。

CEO

山本一成 issei yamamoto

「We Overtake Tesla」をミッションに掲げるチューリングのCEO。10年間コンピュータ将棋プログラムPonanzaを開発、名人を倒す。東京大学大学院卒業後、HEROZ株式会社に入社、その後リードエンジニアとして上場まで助力した。海外を含む多数の講演を実施。情熱大陸出演。現在、愛知学院大学特任教授も兼任。

巨大市場×未踏課題――“人類のグランドチャレンジ”と呼ばれる完全自動運転。その実現には、常識をも理解する基盤AIと、過酷な車載環境で動き続けるエンボディドAIの融合が不可欠です。普段のTech Talkではチューリングのエンジニアが最新の研究開発内容を直接解説していますが、今回は特別編として、CTO 山口祐とCEO 山本一成がそれぞれの視点から、「自動運転 × 基盤AI」というテーマでその可能性と課題を皆様にお伝えします。

完全自動運転を支える「基盤AI」の可能性

山口： 皆さん、こんばんは。チューリングCTOの山口です。そして、今日は特別編ということで、CEOの山本一成さんに来ていただいています。一成さん、本日はよろしくお願いします。

一成： はい、よろしくお願いします。

山口： 今回は、普段のTech Talkとは異なり、チューリングが目指す「完全自動運転」という目標を深掘りしていきたいと考えています。その中でキーワードとなるのが「基盤AI」、そして「エンボディドAI」です。

一成： はい。

山口： やはり「完全自動運転をどう実現するのか？」という点が、多くの方にとって疑問だと思います。今ご覧いただいている図は、私（山口）がChatGPTに頑張って出力させた可愛いアイコンですが、左側がLLM（大規模言語モデル）のような汎用的なモデル、そしてそれに運転に必要な交通ドメインや空間認識、車両操作といった知識を統合していくイメージを表しています。

左のアイコンは、私たちが開発している視覚言語モデル「Heron（ヘロン）」をイメージしています。ヘロンは、国内ではかなり早い段階で本格的なVLM（Vision-Language Model：視覚言語モデル）として開発を進めてきました。

一成： 発表後も、ヘロンのレベルは格段に上がっていますよね。初期のモデルとはもう全く違うレベル感という理解で合っていますか？

山口： はい、その通りです。初期モデルと比較して、言語モデルや視覚認識の性能は飛躍的に向上しています。さらに、モデルをよりコンパクトにする開発も進めており、最近リリースした「Heron App」では、iPhoneのGPUでもヘロン言語モデルがリアルタイムにカメラ映像を説明できるレベルになっています。iPhoneのGPUはそれほど強力ではありませんが、それでも素早く回答できるまでに至っています。

一成： iPhone 15、16以上で使えるんですよね。私のiPhone 14だと使えないのが悲しい（笑）。

山口： はい（笑）。Appleの審査の関係で、当初は13でも動くはずだったのですが、最終的に最新のiPhoneカテゴリーになったようです。このように、チューリングは「生成AIを活用し、より高度な自動運転を実現する」という方向性で開発を進めています。

チューリングの概要と挑戦

山口： ここで、チューリングの会社概要についても触れておきたいと思います。おかげさまで、来月で創業から4年を迎えます。この4年間は、本当に様々な積み重ねがあったと感じています。

一成： 4年か、早いですね。

山口： はい。スタートアップとしては順調に成長しており、累計の資金調達額は70億円に達し、従業員数も最近100名を超えました。人がどんどん増えている、成長著しいスタートアップです。事業内容は、先ほどお話しした通り「完全自動運転車の開発」です。そして、そのキーポイントとなるのが、やはり「基盤AI」だと考えています。

一成： はい。

自動運転に必要な知能とは何か？

山口： 最初のテーマとして、「自動運転に必要な知能とは何か？」という疑問を投げかけたいと思います。人間が運転する行為は、もっとアルゴリズムベースで実現できるのではないか、と考える方も多いでしょう。自動運転に必要な知能とは何か、一成さんはどう考えていますか？

一成： この会社を立ち上げた4年ほど前、世界の自動運転システムは「ルールベース」が主流でした。ルールベースとは、センサー情報やHDマップ（高精度地図）といった情報をもとに、「こういう状態だから、このような軌跡を描いて進む」というロジックを人間が記述する方式です。私はよく電車に例えるのですが、線路があればそれに沿って走り、障害物があれば止まる、といった世界観ですね。膨大なソースコードと制御ロジックが書かれましたが、現実的には「どうもそれでは難しそうだ」というのが、私が会社を始めた当時の認識でした。

このパターン、実は私は見たことがあるんです。私が10年、いや15年ほど前に将棋AIの開発を始めた時も、当時はルールベースの将棋AIがほとんどでした。プログラマーが「王様の横に守りの駒がいたらプラス5点」といった知識を一生懸命書き込んでいたんです。当時は強かったのですが、プロ棋士のレベルにはなかなか到達できませんでした。

私の作った将棋AIは、機械学習、特に強化学習を用いることで、プログラマーが知識を直接入力するのではなく、AI自身が自動的に強くなっていくという世界観を目指しました。そして実際に将棋AIは、最終的にルールベースのAIを打ち破り、機械学習ベースのAIが勝利しました。山口さんがAI開発に携わってきた画像認識や、皆さんもご存知のChatGPT以前の自然言語処理の世界でも、同様のことが起きていました。

一成： ChatGPT以前の自然言語処理では、日本語の「分かち書き」や「形態素解析」といった、文法構造を人間がルールベースで調整しながら理解させる手法が主流でした。しかし、今のChatGPTは文法を何も教えていない状況で、驚くほど自然な文章を生成しますよね。

この「ルールベースからAIセントリックな方法へ」という流れは、自動運転に限らず、あらゆる領域で起きています。もし人間がルールベースで問題を解決できるのであれば、とっくに解決しているはずです。現代のコンピューターサイエンスの最前線は、「計算不可能に見える問題を、どう計算可能な問題に落とし込んでいくか」という点にあります。将棋AIがなぜ計算可能になったのか、LLMが何を計算可能にしているのか、コンピューターサイエンスのバックグラウンドがない人にとっては想像がつかないかもしれません。そうした、本来計算可能とは思えない問題を計算可能にするのが、今世紀のコンピューターサイエンスの最前線なんです。

自動運転もこの将棋AIと同じパターンを辿るだろうと私は考えていました。そして、少しずつ簡単な問題が解かれるようになってきたのです。将棋は非常に奥深い問題ですが、運転空間という現実世界に比べれば小さな問題です。運転空間も現実世界全体に比べれば小さいですが、それでも非常に巨大な問題です。しかし、今のAIのレベルをもってすれば、運転空間を「倒せる」レベル感になってきた。だから、「よし、ちょうどいい。いざAI勝負だ」というタイミングだと感じています。

山口： なるほど。つまり、一成さん自身が将棋AIで経験された「機械学習による自己改善」という思想を、自動運転にも適用できると確信し、それを会社の基本的な考え方として取り入れている、ということですね。

アルゴリズムベースがうまくいかなかった理由：道路環境の複雑性

山口： これまで自動運転でアルゴリズムベースのアプローチがうまくいかなかったのは、なぜなのでしょうか？

一成： それはもう、道路の上ではありとあらゆる例外的事象が「普通に」起こるからです。

山口： たとえば、鉄道であれば線路上に障害物は基本的にありません。逆方向から電車が来ることもないし、踏切では人や車が来ないようになっています。もし障害物があれば、電車は回避できず、運転士が気づいて止まる以外の選択肢はほとんどありません。

一成： その通りです。一方、車が走る道路は、状況の複雑さが格段に違います。様々な交差点があり、「他の車」「歩行者」「自転車」など、多様なエージェント（プレイヤー）がそれぞれのルールでプレイしています。これは非常に難しい問題です。

山口： つまり、車の交通環境は、レールの上を走る鉄道のような他の交通機関に比べて、格段に難しい。従来のアルゴリズムベースや、ただセンサーを増やすというアプローチでは、対応が非常に困難であるということが、この5年から10年で徐々に明らかになってきた、ということですね。

一成： 補足すると、センサーが豊富であること自体は理論的には悪くありません。しかし、実際の製品としてまとめ上げようとすると、故障率の上昇、テストの状態が増える難しさ、そしてキャリブレーションの難易度も上がります。例えば、回転式LiDAR（ライダー）の故障率は懸念事項です。

私たちは最終的に量産車への搭載を目指しているので、当然ながら価格競争力も非常に重要になります。そこで、チューリングは基本的にカメラだけで自動運転を実現したいと考えています。

なぜ「カメラ」で完全自動運転を目指すのか

一成： カメラは非常に優れたセンサーです。その理由はいくつかありますが、まず第一に可視光が見えること。可視光は地球上で人間が生きるのに最適な波長帯であり、人間の目も可視光を使います。だからこそ、カメラも人間の目と同じように、周囲の状況を「理解」するための豊富な情報源となります。

一成： そして、カメラは画素数が非常に高い。これほど画素数の良いセンサーは他になく、取得できる情報量が圧倒的に多いんです。ビットストリームという表現を使うほど、膨大な量のビット情報が得られます。しかも、安価で大量生産に向いている。現在のスマートフォンに複数のカメラが搭載されているのが当たり前になっていることからも、そのコストパフォーマンスと普及度は明らかです。

山口： スマートフォンのカメラは、夜間の撮影能力やズーム性能など、基本的な目の性能を凌駕している部分もありますよね。iPhoneなどで夜景を撮影すると、驚くほど明るく映ります。

一成： そうなんです。カメラメーカーの方々と話していても、「カメラはついに人の目を抜いた」と言っても過言ではない、という話になります。

山口： だからこそ、その優れたカメラを自動運転に使うのは自然な流れですし、価格面でも有利です。

一成： そしてもう一つ重要なのが、AIとの相性の良さです。現在のAI、特に画像認識技術は飛躍的に発展しており、一般的な写真や動画を使って学習するのが基本です。自動運転でよく使われるLiDARデータはインターネット上で探すのが難しいですが、画像データはいくらでも手に入ります。

山口： しかも、画像は「プレトレーニング」されたモデルが数えきれないほどHugging Faceなどのプラットフォームに公開されていますよね。

一成： まさにその通りです。そして、カメラは「小さい」という利点もあります。センサーは大きくなりがちですが、車にゴテゴテと大きなセンサーが付いていたら、デザイン性も損なわれてしまいます。

山口： 車のデザインは非常に重要です。カメラであれば、その制約を大幅に減らせます。

一成： 細かい話ですが、車には衝突時歩行者保護の視点があり、基本的に突起物をつけてはいけません。高速で走ることを考えると、車体はできるだけ滑らかであるべきです。カメラは車体設計の段階で突起なく埋め込むことができるので、そういった意味でも優れたセンサーだと言えます。

自動運転AIに必要な知能：パーセプションを超えた「身体性」と「文脈理解」

山口： では、カメラを使うとして、カメラの情報を認識するAIには、具体的にどのような能力が必要だと考えますか？

一成： まず、画像認識の話からしましょう。ディープラーニングにおける革命は、当初、写真に何が映っているかを当てることから始まりました。その後、「この辺りに映っています」という物体の位置特定、さらには「インスタンスセグメンテーション」のように、車Aと車Bがそれぞれ異なる物体だと区別できるようになりました。しかし、それで運転ができるかというと、それは難しいと考えています。

山口： なるほど。単に画像から「ここに車がいる」と認識するだけでは、車の運転には繋がらない、ということですね？

一成： そうです。見たからといって、自分がどう動けば良いかは、桁違いに難しい問題なんです。最近はDepthと呼ばれる深度推定や、3Dバウンディングボックスで物体の大きさや位置を正確に認識できるようになりましたが、それが正確にできたとしても、「だから自分がどう行けばいいか」は、なかなか難しい。

山口： 自動運転では、「パーセプション（認識）」したものを「プレディクション（予測）」し、その上で「プランニング（計画）」し、最終的に車を「コントロール（制御）」するという4要素が、従来の自動運転システムで構成されてきました。やはり、ただ認識するだけでは車の運転には繋がりません。

一成： というか、身体性（エンボディメント）というのは非常に難しい。私たちは動物ですよね。物を掴むという行為は、私たちが動物だからうまくできるんです。現在のAIをもってしても容易ではない。つまり、見えて認識したからといって、自分の体がどう動くか、その相互作用がどうなるかを予測するには、かなり複雑な知能が必要なんです。そして、私たち動物はその予測がめちゃくちゃ得意です。

山口： なるほど。私たちは普段の生活で様々な物体とインタラクションし、自分自身も移動したり、立ったり座ったりと、身体の動作を確実に行っています。ある意味、自分の体と、私たちを取り巻くこの世界をちゃんと認識し、「どうすればどうなるか」を理解している、ということですね。

一成： そうです。今、ペットボトルを掴みましたが、これ、実はすごく難しいんですよ。ロボットアームや人型ロボットでこれをやるのは極めて困難です。これは透明なペットボトルなので、さらに難しい。

一成： さらなる知能の話を続けたいのですが、パーセプションができて、物体の動きも予測でき、それを回避する運転コードも取れる。しかし、この程度でもまだダメなんです。真の完全自動運転を目指すとなると、もう少し深い理解が必要です。

私たちが考える完全自動運転には2つのパターンがあると思っています。一つはタクシーやバスのように、整備された場所を走り、常識的なパターンしか起こらない環境。これはまだ簡単です。本当に難しいのは「プライベートカー」の自動運転です。

山口： プライベートカーですか。

一成： はい。例えば、人が「どうやってここに入れたの？」と思うような狭い駐車場。私（一成）は結構山に行くのですが、どうやって行くの？と思うような道があるんですよ。地元の軽トラが通るような道です。果たしてそこまでできなければならないのかは分かりませんが、今の自動車の使われ方を見ると、整備された道以上の世界も運転できなければならない。

人間が動けるような場所であれば、当然AIもできるだろう、と私たちは考えています。

山口： なるほど。未舗装路もそうですし、都市部では看板が非常に多いですよね。例えば首都高だと、油断しているととんでもない方向に行ってしまう。カーナビだけでなく、「こっち行ったら銀座方面」といった看板の文字を読んで車線変更を判断します。やはり、そうした「文字を読む」能力は重要になってくるのでしょうか？

一成： そうですね。本当の自動運転を実現しようと思ったら、ローカルの言語（日本語）の理解、そして交通ルールと文化の関係性の理解が必要です。例えば、ピッツバーグターン（日本でいう右折車が先に曲がる）のように、地域によって異なる走り方もあります。

一成： さらに、人間の「意図」を理解することも重要です。例えば、スマホを見ている歩行者と見ていない歩行者では、その意味合いが全く違いますよね。これは単なるパーセプションの問題では解決しません。人間が「ここに人間がいる」と認識するだけでなく、もっと深い理解をドライバーは普段からやっているんです。

なぜ人間がそんなことができるかというと、私たちは運転免許を取る以前に、そもそも人間として20年近くこの世界にいて、人間や文化、そしてこの世界そのものについて深く理解しているからです。だからこそ、運転というものが、教習所のファインチューニング程度でできるようになるのです。

何が言いたいかというと、LLM（大規模言語モデル）や生成基盤AIを使う目的は、そこにベースがあるということです。この世界に対する汎用的な知識を持ったAIを、最後にファインチューニングして自動運転用に合わせ、身体性を獲得させて運転させよう、というのがチューリングの基本的な考えです。

山口： なるほど。身体性、つまり様々な物体とのインタラクションが自動運転に重要だという話がありましたが、それ以外にも、レールの上を走るだけではない複雑な交通環境を「文脈」として言語的に理解する。つまり、体と頭の両方がないと自動運転はできない、ということですね。

一成： その通りです。例えば、道路にペットボトルが落ちていても、まあ踏んでもいいですよね。音はするかもしれませんが。しかし、もし山口さんの水筒（硬そうな素材）が落ちていたら、踏むのは相当勇気がいりますよね。

山口： 確かに、踏みたくないですね。

一成： これは、私たちが普段の運転外で獲得している知識なんです。「これが硬い」「これは柔らかい」という知識は、通常の走行で獲得できる機会はほとんどありません。しかし、そうしたベースとなる知識があれば、「踏んでいいか」を判断できる。高速道路に落ちている段ボールは踏んでしまうけれど、金属の棒だったら回避する、というのは、この世界に対する汎用的な知識の応用なんです。

山口： なるほど。つまり、これまで2000年代から続いてきた自動運転技術は、交通環境での判断や検知が中心でしたが、真の完全自動運転を実現するには、交通環境以外の場所で獲得した、より汎用的な知識が必要になる、ということですね。

一成： そうです。これは誰しもが共有できる回答だと思いますが、自動運転は本当に難しい課題です。生半可なAIができる、という性質の課題ではありません。だからこそ、本気で取り組む意味がある課題なんです。しかも、市場も非常に巨大です。

山口： 自動車市場は、日本ではもちろん、世界的にも非常に大きな産業ですし、自動車関連の仕事に従事している方もかなりの割合でいますよね。

一成： 地球上に車は10億台ほどあります。人間が80億人いるので、だいたい8人に1人車を持っている計算になります。そして、世界中の人がさらに車を持とうとする流れになっています。毎年約1億台の車が生産されなければ、古い車がどんどん入れ替わっていきません。

一成： 車1台あたりの経済波及効果は、数百万円規模です。仮に1台200万円とすると、1億台で200兆円。とてつもなく巨大な市場です。私はこの会社を創業する際に、課題の大きさだけでなく、この巨大な市場に魅力を感じました。大きな市場に大きな課題をぶつけていくのが良いと考え、チューリングを始めました。

山口： ありがとうございます。自動運転の難しさは、私たちも日々感じています。

一成： いや、むずい！めちゃめちゃむずい！こんなに難しいのか、と。

山口： はい、本当に難しいです。チューリングには非常に優秀なエンジニアがたくさんいますが、彼らが毎日毎日頭を絞って考えても、「ようやく少し進んだかな」という繰り返しの状況です。これは、私がこれまでに見てきた課題の中でも、トップクラスに難しい。

一成： 将棋AIよりもタイプは違えど、難易度は上ですね。

重すぎる頭脳をどうやって車に載せるか

山口： では、次のテーマです。非常に賢い、それこそLLMに類するような、私たちの「常識」を身につけたAIが必要だという話がありましたが、そうしたAIはパラメータサイズが大きく、いわゆる「重たいAI」が多いですよね。それを実際に車に搭載するにはどうすれば良いのでしょうか？これは私たち自身もよく質問される課題です。一成さん、どうお考えですか？

一成： まず前提として、「クラウドを利用する」という選択肢は、基本的にダメだと考えています。

山口： それは、通信を介してクラウド上の計算機で計算し、その結果を車が受け取る、というイメージですよね。

一成： はい。いくつかの理由があります。まず、遅延が発生することです。どんなにインターネットが速くても、車に求められる反応速度は、少なくとも社会に受け入れられるレベルでは1秒以下、おそらくもっと早い応答が求められます。通信では基本的に難しい。次に、必ずしも通信できる環境であるとは限らないことです。トンネルの中など、インターネットが繋がらない場所は普通に存在します。常にインターネットが繋がるというのは、少し楽観的すぎる予想です。

ではどうするか？となると、車載コンピューターに任せるしかない、という結論になります。

一成： ただ、この車載コンピューターというのが厄介なんです。皆さんがご存知のサーバー向けのGPU（例えばNVIDIA H100）は、そのまま車には使えません。

山口： H100は、最近NVIDIAの時価総額が4兆ドルを超えた一因ともいえる、サーバー向けの高性能GPUですよね。それをそのまま載せれば良さそうに思いますが。

一成： それを載せると、まず電気容量的に厳しいです。H100一つでドライヤー1個分くらいの消費電力（1200W）を使います。車はざっくり言って、走行中に5000Wくらい消費しています。H100を複数載せたら、走行距離が例えば1000km走れる車が800kmになったり、400kmが300kmになったりするレベルで電気を食ってしまいます。

次に排熱の問題です。1200Wの熱を効率的に冷やすのは非常に大変です。データセンターは冷房のワット数は別に計算されていますが、車載ではその熱をどう処理するかが課題となります。

一成： 基本的にサーバー向けのハードウェアは、大容量の電気、排熱の問題、そして過酷な車の環境に耐えられないという課題があります。私たちソフトウェアの人間は普段あまり意識しませんが、山口さん（CTO）のようにハードウェアも分かる人間は理解している通り、熱、電源、振動といった要素は、ハードウェア開発において非常に重要です。車は、放置されると極端に暑くなったり寒くなったりする環境に置かれ、走行中は常に振動に晒されます。そんな中で10年間も動き続けることが求められます。そのため、いわゆる「車載グレード」と呼ばれるコンピューターでなければ、車の環境では動きません。

山口： そうですね。H100のようなデータセンター向けGPUは、特にHBM（High Bandwidth Memory）と呼ばれる高速メモリが使われていますが、これが振動や電磁波に弱く、すぐに壊れてしまいます。車に乗せてしばらくしたら動かなくなってしまう、といったことが起こり得ます。

一成： ひょっとして、過酷な環境に耐えられる車載グレードのコンピューターは、計算能力が強くないんじゃないでしょうか？

山口： かなり低いですね。H100に比べれば、「貧弱な環境」と言ってもいいでしょう。

一成： そうですよね。

山口： 私たちが現在、開発車両に搭載しているAIの計算機は、だいたいNintendo Switch 2と同じくらいの性能です。

一成： え、そうなんだ。Switchより結構上がったね、Switch 2は。

山口： そうですね。Nintendo Switch 2はNVIDIAのOrinというチップをカスタマイズして作られている話なので、グラフィックス性能はほぼ一緒かもしれません。

一成： Nintendo Switch 2で頑張ってるんですね（笑）。

山口： はい。Switch 2は初代に比べて性能が上がっているとはいえ、やはり先ほど話した「常識を理解するAI」を動かすには、まだ足りない、という状況です。

一成： しかし、それをやらなければいけないんですよね？

山口： そうです。それが、今このTech Talkのテーマに戻ってきますが、どうすれば実現できるのでしょうか？

一成： とはいえ、今使えるコンピューターリソースの最大を使い、境界線を探っていくしかないです。いくつか制約条件があります。まず、車のシステムが全体で何Hzで動かなければならないか、という要件です。

一成： 車はたとえシステムが1ミリ秒で反応したとしても、すでに動いているので1ミリ秒後に止まることはできません。ブレーキを踏んで油圧をかけ、ブレーキパッドを締めるというプロセスがあるからです。人間の反射神経も100ミリ秒を切ることは通常ありえません。極めて高い集中力を持つ特殊な人でもなければ、そのレベルの反応はできません。

私たちは、100ミリ秒でブレーキを踏めるシステムを健全な目標の一つとしています。これは例えば10Hz、あるいはもう少し低くても5Hzといった、人間より高い反射神経を持つシステムを目指す上での周波数です。この縛りがある中で、どうやって最大限の性能を引き出すか。

一成： そこでできることの一つが、LLMや巨大ニューラルネットワークモデルの「量子化（Quantization）」です。

山口： 量子化、ですか。FP32（32ビット浮動小数点数）ではなく、16ビットや8ビット、さらには4ビットといった低い精度で計算する、ということですね。

一成： はい。若干の精度低下はあり得るかもしれませんが、現在の技術ではFP16はほぼ安定的に作れますし、FP8もチャレンジできるレベルです。ちなみにiPhoneで動いているヘロンは、かなり量子化されていますよね。

山口： そうですね。先ほど話したヘロンアプリは、4ビットの整数で動作するように作られています。

一成： そうですね。LLMの量子化技術は急速に進歩していて、元々32ビットだったものが、1/6程度のサイズにまで圧縮できるようになっています。モデルのアーキテクチャにもよりますが、速度も最大で4倍近くまで向上させることが可能です。これはメモリー転送量や回路面積など、専門家と深く議論したいポイントですが、理論的には4倍近くまで持っていけると考えています。

山口： 精度と速度のトレードオフはありますが、NVIDIAのGPUも世代を重ねるごとに、低精度の命令セットが強化されています。最近のBlackwellアーキテクチャでは、FP8のような8ビット浮動小数点数のミックスドプレシジョン（混合精度）も可能になり、精度を保ったまま推論や学習ができるようになっていると聞いています。やはり、こういった技術を車載計算機で使っていく必要があります。

一成： その意味で、現在NVIDIAのOrinを主力で使っていますが、次世代以降の頑張りに期待したいですね。

山口： 次はThorですね。ハードウェアの進化はもちろんありますが、一方でソフトウェアも進化しています。LLMや私たちの自動運転AIもどんどん賢くなっていますよね。同じパラメータサイズ、同じAIの重さであっても、性能が向上しています。

一成： そうですね、かなり伸びました。元々「スケーリング則」という、パラメータを大きくすれば賢くなるという話がありましたが、最近はそれ以外の方向性でも性能が向上しています。例えば、モデル自体が賢くなったり、あるいは「リーズニング（思考）」のように、AI自身が思考を重ねてより良い答えを見つける能力が上がってきました。そういった推論時の時間方向での性能向上も、私たちは活用していきたいです。

一成： 完全自動運転を目指すのであれば、恐らく画像をトークン化して入力し、LLMが推論して運転のアクションもトークンで出力する、という形になるのではないでしょうか。CTO（山口）がどう考えているかは分かりませんが（笑）。

山口： いや、私もそうなると思います。今、最も技術の進歩が早いのは、やはりLLMとそれを取り巻くエコシステムです。

一成： 強すぎますよね、その構図。

山口： はい。トークン、つまり運転のアクションを生成する。インプットは車載カメラからの画像がトークン化されて入り、あるいはこれまでの自分の推論結果やIMU（慣性計測装置）からの速度データなどもトークンとして結合し、次のアクションを判断する。今のLLMのエコシステムに乗っかっていきたいですね。

一成： それはめちゃくちゃ幸せです。

山口： 私たちが開発している視覚言語モデルも、まさにこの方向性です。この技術を自分たちで習得していかないと、これからの自動運転で乗り遅れてしまうでしょう。必要不可欠な技術だと考えています。

一成： ライブラリが超嬉しいですよね。Transformerなど、よく分からないながらも使えるものが増えましたし。

山口： そうですね。マルチクラスター、マルチノードの学習も強力なミドルウェアシステムでサポートされています。

一成： だから、独自の小さなニューラルネットワークを作るよりも、LLMという枠組みに乗っかってしまう方がメリットが大きいんです。

山口： そうですね。ソフトウェア技術、AIだけでなくソフトウェア全般の文脈ですが、やはりハイリターンな分野、最も人気があり伸びている技術にうまく乗っかれると、ビジネス面でも非常に有利です。自動運転でもそういったところを目指していきたいです。

チューリングの開発方針と組織哲学

一成： チューリングのチャレンジ方針についてですが、私たちは「普通の技術を使う」ことを重視しています。

山口： 「普通」ですか？

一成： はい。「普通」というのは、多くの人のリソースが割かれ、よく練られたシステムのことです。LLMシステムもそうですし、例えばUI（ユーザーインターフェース）もWeb技術（Chromium、HTML、Next.jsのような高速で優れたライブラリ）を使っています。自動運転という特殊なドメインでありながら、それに対して「普通の技術」を持っていくのが、ある意味私たちの本質的な仕事だと考えています。

山口： 自動運転を実現するためのAIや思想は新しく作る必要がありますが、それを構成する要素技術は、最も使われていて、最もメンテナンスされ、最もアップデートが多い「王道の技術」を選定し、その上で新しいAIを作っていく。それが非常に重要だと。

一成： 基本的にGitがあって、C++があって、Pythonがあって、といった、ごく普通の開発スタイルです。ある意味、東京のスタートアップが使う標準的な技術セットを使っていると言えます。もし弊社に興味がある方がいれば、ある意味「普通のソフトウェアの会社」だとお伝えしたいです。

山口： そうですね。チューリングのエンジニアは、車や自動運転とは直接関係のない経歴の人が多いです。

一成： もちろん、自動車業界から来た方もいますが、本当に様々な分野から来ています。自動運転AIを作るというのは、ある意味まだ人類未踏の領域なので、多様な領域の才能を集めていきたいと思っています。特にソフトウェアに関しては、「普通」の技術、つまり今流行っていて、多くの人に良いと思われている、ある意味スタンダードであり最先端の技術に乗っかっていくことを非常に意識しています。

山口： 王道の技術をきちんと進めていくことが、結局は近道だと。

一成： いや、でもこれを車に持っていくのは結構大変ですよ。こんな簡単に言ってますけど。

山口： そうですね。このようなアプローチで自動運転システムを作ろうとしている会社は、日本だけでなく世界を見ても、なかなか少ないです。非常に大変な取り組みだと思います。Pythonで普通に書けて、C++で普通に書ける。最近はRustも使っています。

一成： え、どこでですか？（笑）

山口： いや、まだ言えません（笑）。

一成： 知らなかったです（笑）。

山口：そういった、世の中でよく使われている技術スタックを採用しています。

人類のグランドチャレンジを目指すための組織とは

山口： では、次のテーマです。チューリングが目指す「人類のグランドチャレンジ」である完全自動運転。ここまでテクノロジーの話をしてきましたが、それをどのような人が、どのような開発組織で実現していくのでしょうか。

一成： 日本の会社やスタートアップには、2つの軸が足りないと感じていました。一つは「技術と経営がくっついている会社が少ない」という点です。

山口： 技術と経営が分離している、ということですね。

一成： はい。「こういう技術があるから、こういう経営判断をしよう」という連携が取れていない会社が多い気がします。自動運転のような非常に難しいものを作るには、CEOとして技術を深く理解し、だからこそ経営ができるべきだと考えています。シリコンバレーではこれが徹底されていますが、日本では分かれていることが多い。

山口： 経営層にはビジネス経験者が就きやすく、その下にエンジニアがいる、という形態ですね。

一成： そうした体制は、この時代には良くないと思います。なぜなら、求められる技術レベルが難しくなり、より「非直感的」になったからです。昔は国を豊かにするのも簡単でした。「ここに道を作ればいい」「ここに鉄道を通せばいい」「ダムを作ればいい」といった、インフラ整備が国家の繁栄に直結し、しかも誰もが見て分かるものでした。

山口： インフラ整備が、国家の繁栄に直結していた、と。

一成： はい。車も似ています。車の機構は難しいものが多いですが、実際に見たり触ったりすれば、リンク機構やサスペンションがどう動くか、ある程度理解できます。しかし、AIは見ることができないし、触れることもできない。概念的で、手触り感がないんです。にもかかわらず、世界中のスタートアップや企業は、ソフトウェアやAIをより重視するようになっています。つまり、経営が難しくなっているのに、経営レイヤーが技術レイヤーに追いついていない。これは非常に良くない状況だと感じています。

山口： 特に最近のAIの進歩は著しく、AIに依存するスタートアップも増えています。そうしたスタートアップこそ、経営陣が技術を深く理解する必要がある、ということですね。

一成： 私自身はかなり分かっているつもりです。今日ここまで散々語っていますから（笑）。これは本当に大事な課題で、経営が技術を理解しなければいけない、と思っています。

そして、もう一つが「利益インセンティブを揃える」ことです。

山口： 利益インセンティブ、ですか。

一成： はい。会社には様々な人がいて、それぞれに異なる思いがあります。もちろん、私たちの会社は「Teslaを超える」という大きな目標を目指していますが、個人個人の人生のライフステージもあれば、それぞれの思いもあります。お金についても、どういう形で欲しいのか。会社ではストックオプションも提供していますが、そういったものを「揃える」行為が、日本では苦手な人が多いのではないかと感じています。私自身も得意とは言いませんが、メンバーが何を願っているかには非常に興味があります。

一成： 「揃う」というのは難しいことですが、まずは知りたい。そして、どうすれば揃えていけるか、という問いがあります。インセンティブを揃える、利益のアラインメントをする、というのは非常に重要なことです。スタートアップだからといって、この部分をふわっと流したくありません。この2つは、この会社にとって非常に大事なことだと考えています。

山口： その利益センティブとは、金銭的なものに限定されず、その人が働く上でのモチベーションや、何を求めているか、というところを大事にされている、ということですね。ありがとうございます。経営者目線、スタートアップ特有の話をお聞かせいただきましたが、テクノロジーに寄せて、開発組織としてはどうでしょうか？

一成： これは難しいですね。私たちチューリングは、「機械学習オペレーション（MLOps）」を実践する会社です。MLOpsというと、通常はデータを集めてクレンジングし、モデルを作り、デプロイするというイメージですが、私たちの場合は「リアル」も絡むんです。

山口： 「リアル」ですか。

一成： はい。リアルとは、車を買って車庫証明を取り、車の改造をする。計算機やカメラを車に載せる。実際に車の外壁を一部切ってカメラを埋め込んだり、接着剤でつけたりする作業もあります。こういった加工を含め、データのクレンジングやバリデーションも、純粋なソフトウェアだけの問題ではありません。ハードウェア的なキャリブレーションなども含まれるので、そういったレイヤーもあります。こういったことをやるには、非常に多様な才能を集めなければならない難しさがあります。

山口： そうですね。チューリングには、エンジニアだけでも非常に幅広い人材がいます。ハードウェア寄りの人から、AIのトップランナーまで、本当に多くの人がいます。そのような中で、どうすれば最も効率よく開発できる組織を作れるのか、私（山口）もCTOとしてチーム構成や開発組織のあり方を常に考えています。やはり、開発のステージや自動運転AIの技術レベルによって、組織も柔軟に変えていかなければならないと考えています。

一成： まさにその通りです。ステージによって柔軟に組織を変えられることは、私たちが頑張っていきたい点です。なぜなら、以前は非常に重要だった組織や役割が、ステージが進むとそこまで重要ではなくなることもあるからです。例えば、創業当初は車のカメラを取り付けるのが非常に難しかった。しかし今は、ある程度ルーチン化されたので、そこまで大きな課題ではなくなってきています。もちろん重要ではありますが、ある種ルーティンワークになってくる。このように、「何が重要な課題なのか」が常に少しずつずれていくんです。その中で、「今ここが課題なんだ」「ここは知らなかった」「ここは定型作業になったね」という繰り返しの連続です。だから、メンバーも力点も、どこに力を入れるかを変えていける組織でありたいです。

山口： そうですね。スタートアップならではの柔軟な組織変更は、非常に重要です。

一成： あとは、泥臭く何でもできる人材が、スタートアップの初期段階では求められます。そして今は、幅広く様々なことができる人が求められています。あるいは、そもそも自動運転という課題が本質的にどういう課題なのか、まだ解ききっていない段階です。そういった意味で、ステージによって自由に戦場を変えられ、新しい技術をキャッチアップできる気概がある人は、この会社で非常に強く活躍できる人です。

山口： そうですね。会社にとって、あるいは自動運転AIの技術にとってクリティカルなポイントは常に変わっていくので、それに常に追いつき、あるいは追い越していかなければなりません。

一成： 私は、「一番良いエンジニアに、一番良い課題をぶつけたい」という願望があります。やはり良い課題にぶつかると、良いんですよね。私自身、将棋AIにぶつからなかったらどうなっていたか分からない。大学を留年していた時に将棋AIをやろうと思ったのですが、あれに出会わなかったら割とニートになっていた可能性もあったな、と（笑）。

山口： ニート適性があった、と（笑）。

一成： そうそうそう。良い課題にぶつかるというのは本当に良いことなんです。自動運転は、人間が持っているポテンシャルを100%でも届かないくらい引き出してくれる、超良い課題です。飽きさせない。

山口： そうですね。これは生半可な挑戦では倒せない。

一成： はい。難しい課題に挑み続けることが、私たちチューリングの常にテーマです。

※以降では、参加者との質疑応答が展開されました。本イベントの全内容は、ぜひ記事末尾のリンクからご覧ください。

エンディング

山口： 今日は本当にたくさんの話をさせていただきました。最後に、私たちの方からお知らせをさせていただきます。先ほどお話しした通り、私たちは「完全自動運転」という技術を共に創る仲間を非常にたくさん募集しています。

機械学習エンジニア、リサーチャー、ソフトウェアエンジニア、HPCインフラエンジニアなど、本当に様々な職種を募集しています。

一成： やる気がある方なら、多分何かしら仕事があります（笑）。

山口： 今回のTech Talkは、1時間の予定が1時間20分と、大幅にオーバーしてしまいましたが、一成さん、今日話してみてどうでしたか？

一成： いや、全然話し足りなくて。

山口： そうですよね。

一成： 俺が次回、代わりにTech Talkやってもいいくらい（笑）。

山口： Tech Talkの代打を一成さんが（笑）。ちょっと交代してみますか？

一成： （笑）。

山口： はい。一成さんもやはり技術的な知識が深く、会社のエンジニアがどんなことをしているか、今後も分かりやすく伝えていきたいと思っていますので、次回以降のTech Talkもぜひ皆様ご視聴いただければと思います。

山口： はい、皆さんありがとうございました！

一成： 楽しかった！バイバイ！

私たちと共に、世界を変える挑戦へ

チューリングは、人類のグランドチャレンジ「完全自動運転」の実現に挑戦しています。

私たちは、この前例のない挑戦に、最新の大規模AI技術と、「技術と経営が一体となった」独自の開発文化で挑んでいます。HPCインフラへの積極的な投資、車載環境でのAIの最適化、そして「泥臭く」未知の課題に立ち向かうエンジニアリングへの情熱。これら全てが、私たちが世界をリードする原動力です。

完全自動運転という壮大な夢を、あなたの手で現実にする。この興奮するような挑戦に、本気で取り組みたいエンジニアの皆様、ぜひチューリングの門を叩いてみませんか。

詳細は、弊社採用ページからご確認ください。皆様のエントリーをお待ちしております。

【イベント概要】
Turing Tech Talk 特別版基盤AI・エンボディドAIが導く“完全自動運転”の未来
https://turing.connpass.com/event/361254/