完全自動運転を生成AIが解決!? チューリングが導き出した技術的勝ち筋を徹底解説
チューリング創業者の青木です。チューリング社では5年後に完全自動運転を実現するために生成AI・エンボディドAIの開発に力を入れています。この解説記事では、チューリングの開発チーム「生成AIチーム」が取り組んでいるAI技術と中間成果について紹介し、なぜ生成AI・エンボディドAIが完全自動運転に必要不可欠であるかの解説をします。
前回の「Tokyo30解説記事」と併せて読んで下さい。
自動車の運転は難しい:「高難度・低頻度」の運転シーン
自動車の運転はそもそも非常に難しい作業で、賢い動物と言われるサルやゴリラには到底できません。人間でも、5歳児の子どもには難しい作業です。なぜでしょうか?
これは運転に、①複雑な状況を整理する能力、②常識・文化に沿った行動決定する能力、という2つの能力が必要になるためです。
私たち人間も、運転免許を取得する前に、18年間の生活の中で状況を整理する能力を獲得し、常識・文化をある程度理解します。
下の写真には工事現場と交通誘導員・タクシーを待っている人が写っています。私たちは左側写真の状況を見た時に、「交差点に信号機があるが、交通誘導員の指示を優先的に従う必要がある」と判断することができます。
一方で右側写真の状況からは「交差点周辺の工事とタクシーを待っている人はほとんど関係ない」と簡単に判断することができます。

このように、自動車の運転中には様々なエッジケースに遭遇します。人間は賢い頭を使って情報を整理し、自動車の車外で獲得した常識を活用しながら運転をしているのです。
チューリングでは2025年年末には東京都内の市街地を自動運転車で走り回るという「Tokyo30プロジェクト」に取り組んでいますが、真の完全自動運転を達成するためには様々な運転ケースに対応する必要があります。
この運転ケースの難しさ・発生頻度をイメージで表したものが下の図になります。図の左側に行くほど簡単な運転状況で、発生頻度が高くなります。例えば自動車専用道路で白線・車線に沿って走るだけで良いケースが該当します。
図の右側には運転として難しく、発生頻度が低いケースが存在します。上記の工事現場が該当します。自動車の運転シーンではこのような頻度が低く、運転状況としては難しいケースが多岐にわたり、このため横軸が永遠に伸びる「ロングテール事象」として知られています。

Tokyo30プロジェクトでは上記図のちょうど真ん中の「中難度・中頻度」をターゲットとして開発を行っています。一方でさらに難しいケース、例えば工事現場や立体駐車場・動物が道路上に飛び出してきたケースに対応するソフトウェア・生成AIを「生成AIチーム」が開発しています。
チューリングの生成AIチームは大きく2つの技術にチャレンジしています。
まず1つめは、LLM(大規模言語モデル)の拡張版であるマルチモーダルモデル・視覚-言語モデルです。自動車の運転は「文脈/コンテキスト」を理解する必要があるため、マルチモーダルモデル・視覚-言語モデルの開発は非常に重要です。
2つめは、未来の世界を内部的にシミュレートし、予測する世界モデルです。世界モデルではAIが創り出した世界で様々な未来を予測・試行することが可能です。
ここからはマルチモーダルモデル・視覚-言語モデルと世界モデルについて紹介します。
チューリング独自の視覚-言語モデル「Heron」
みなさんも生成AI・LLMといったものを使ったことがあると思います。
生成AI・LLMは複雑な情報を整理する能力や常識的な情報を獲得している点で優れており、これは本稿序盤で書いた「運転に必要な2つの能力」と非常に近い能力です。
チューリングでは視覚-言語モデル「Heron」の開発を続けています。
Heronでは例えば下図のような猫の画像に対して、適切に対応した言語情報を学習データとして活用します。

白い洗面台の中に、オレンジ色の毛並みをした猫が横たわっています。猫は洗面台の縁に寄りかかっていて、頭だけ外に突き出し、こちらをぼんやりと見つめています。

チューリングの生成AIチームではこのHeronをベースに、人間のような状況判断能力を備えた自動運転モデルの開発を行っています。
例として、道路工事のシーンの画像を入力し、言語情報として「あなたは車を運転しています。この場面ではどのような点に気をつけるべきですか?」と尋ねてみます。


言語情報としてHeronが出力していますが、工事作業員が交通整理をしていること・交差点周辺であること・歩行者などがいることなど、まさに生成AIであるHeronが複雑な状況を整理してくれていることが分かります。
日本初の自動運転向け生成世界モデル「Terra」
チューリングでは生成AI・マルチモーダルモデルだけでなく世界モデル「Terra」の開発にも力を入れています。
下の動画は一目見ると、車載カメラの画像のように見えますが、実際はチューリングが開発したTerraが生成した動画です。AIが生成した動画なので、現実世界に存在しない道路・運転ケースを再現することも可能です。

生成世界モデル「Terra」では、現実世界の物理法則や物体間の相互作用などといった複雑な状況を理解することができ、リアルな運転シーンを動画として出力することができます。
このTerraを開発するために、チューリングで取得した走行データ・一般公開されている走行映像1,500時間分のデータを学習に利用しています。
また、学習データにはアクセル・ブレーキ・ステアリングの入力値も含まれているため、細かな運転操作を高精度で再現することもできます。つまり、AIが生成した世界で、シミュレーションをすることも可能となります。

下図のケースを例に挙げて考えます。
自車両は交差点の直前で、「直進をする(緑の線)」「右折をする(赤の線)」という二つの異なる行動を取ることができます。

直進する時と右折をする時の生成動画を下のgif動画に示します。
直進をするという行動を取った時には安全に交差点を走行できる一方、右折をしてしまうと衝突事故が発生してしまいます。
このように、同じ環境・状況下において、異なる行動を試行・シミュレーションすることができるのも生成世界モデルTerraの特長です。

世界モデル・Terraの開発によって、様々なエッジケースを生成し、試行することが出来るようになりました。繰り返しになりますが、自動車の運転は「ロングテール事象」で、完全自動運転実現のためには高難度・低頻度の運転シーンを安全に走行する必要があります。Terraを用いることで、AIが様々なエッジケースを生成し、シミュレーションし、安全性を爆発的に向上させることが期待されます。
自動運転と世界モデルについては動画サイト PIVOTチャンネルでも解説しています。
国内トップの生成AI開発を支えるGPU計算資源
本記事ではマルチモーダル生成AI「Heron」と生成世界モデル「Terra」の紹介をしました。
どちらも国内トップレベルの生成AIの開発成果ですが、これを可能にしているのが潤沢なGPU計算資源です。
まずは自社GPUクラスタとして「Gaggle Cluster」を構築し、2024年9月から稼働を開始しています。Gaggle ClusterはNVIDIA製の最新GPU「H100」を96基搭載しており、チューリングのエンジニアはかなり自由にGPU資源にアクセスして開発・研究を行うことができています。
また経済産業省が主導する国産生成AI開発プロジェクト「GENIAC事業」にも採択され、GPUクラウド開発資金の大型補助を受けています。
2024年の年初から始まったGENIAC第1期に引き続き、2024年10月にはGENIAC第2期にも採択されました。日本国内で生成AIを開発する能力を有することは国際的競争力の観点からも、「国策」として非常に重要です。
チューリングもGENIAC採択企業として、より一層生成AIの開発を進めていきます。

さらなるGPU資源の確保のために、GPUクラウド事業者であるマイクロソフト社やアマゾン社とも会合を重ねています。
AI開発競争が進む中で、社内の開発体制・事業体制も徐々にグローバルなものへと移行しています。


以上、本記事ではチューリングが取り組む生成AI・エンボディドAIの紹介と、それを支える開発体制・開発環境について記させていただきました。
チューリングは引き続き、「完全自動運転の実現」を一緒に目指してくれる仲間をお待ちしています!
HR立石の編集後記vol.34
チューリングでは5年後に完全自動運転を実現するために生成AI・エンボディドAIの開発に力を入れています。このドメインはアカデミック領域でも大きな注目を集めており、今後も変化のスピードは増していくでしょう。チューリングでは積極的に生成AI領域の発信もしていきます。ぜひ今後も開発動向をウォッチしてください。
ライター:堀尾
Turingの中をのぞいてみたい方は、ぜひイベントに参加ください!選考意思問わずカジュアルな参加をお待ちしています。こちらをクリック