3DGSの技術で切り開く自動運転シミュレータ開発

2025/11/20

この記事に登場する人

RLチームシニアエンジニア

荒居秀尚 Hidehisa Arai

大学院卒業後、新卒でリクルートに入社。金融系や旅行系、飲食系のプロジェクトや、推薦システム、基盤モデルの開発に携わる。Kaggle Competition Grandmaster、Kaggle Notebook Grandmasterのタイトルを獲得している。2024年4月にチューリングに入社し、世界モデルの開発を行う。現在は強化学習やモデル評価に用いるシミュレータ開発を推進する。

自動運転開発において、AIモデル開発だけでなくキャリブレーション、シミュレータ開発、ツール開発、モデル量子化・最適化、学習高速化など多くの技術イシューが存在します。今回は「自動運転のHidden Technical Issues」第三弾としてチューリングに入社後に世界モデルを開発し、現在は強化学習やモデル評価に用いるシミュレータ開発を行う荒居さんに話を聞きました。

チューリングでシミュレータに取り組む理由と強化学習への期待の高まり

インタビュアー：荒居さんご自身がシミュレータ開発に取り組み始めたのはいつ頃からになりますか？

荒居さん：シミュレータ開発のベースとなる技術、特に3D Gaussian Splatting (3DGS)といったフォトリアリスティックな映像を作成するための要素技術に着目し、開発を始めたのは今年の頭、だいたい1月頃になりますね。もちろん、それ以前から自動運転開発チームでは、よく使われるCARLAシミュレータや、もっと簡易的なシミュレータなども検証されていました。

私自身が入社する前の体験入社（※）のドキュメントにも、シミュレータ開発は「絶対やった方がいい」と明記していましたし、入社以来ずっと必要性を感じていたテーマに、ようやく本格的に着手できたという感覚です。特に、自動運転システムの開発がある程度進み、現場のニーズが高まってきたことが、取り組みを加速させた大きな理由だと感じています。

この3DGSという技術は、非常に新しいものですが、私たちが目指す「綺麗な映像が作れるフォトリアリスティックなシミュレータ」を実現するための核として注目し、開発を始めました。

※体験入社とは：選考プロセスにおいて、1日一緒に働く採用プロセスです。1日体験入社ではチームの現状の開発課題を聞いたうえで入社後にどんな形で貢献するかを発表する形になっています（2025年11月現在）

インタビュアー：開発が進むにつれて、シミュレータの必要性が社内で一気に高まったのですね。具体的な課題としては、どのようなものがあったのでしょうか？

荒居さん：自動運転システムの開発が進むと、そのシステムがちゃんと動くかどうかの評価のために、公道での実車実験が必要になります。ただ、この実車実験には多くの課題が伴います。

まず、事故などの危険な状況が想定されます。加えて、実験のためには人（エンジニア）と車のリソースが割かれるため、スケールに限界があります。車と人の数で開発スケールがキャップされてしまうわけです。

また、再現性の問題もあります。ある時うまく動いていたアルゴリズムが、後日試すと挙動が異なり、問題の切り分けができないといったことが起こります。こういった公道での再現性や安全性、コストの問題を解決するために、シミュレータが不可欠だと現場側から課題として出てきていました。

シミュレータの活用目的は大きく分けて「評価」と「学習」の二つがあります。当初、私はまず「評価」に使えれば十分だと考えていましたが、CEOの山本からは「学習にも使えた方がいい」という話がありました。個人的には学習への活用はもう少し先のことだろうと捉えていましたが、結果的には山本さんが言うように需要が出てきました。今年の7月に妹尾さんがジョインしたことで状況が一変しました。妹尾さんは強化学習のスペシャリストであり、彼の存在によって、シミュレータを強化学習の環境として利用するという話が一気に現実味を帯び、今では既に学習にも使われるようなものが作られ始めています。

強化学習においては、大量かつ多様な試行錯誤を安全に、繰り返し行うことができるシミュレータが極めて重要であり、その期待感は社内で非常に高まっています。

シミュレータの構成や技術バックボーン

インタビュアー：その自動運転シミュレータがどのような構成・種類に分かれるか、それぞれの特徴について詳しく教えていただけますでしょうか。

荒居さん：自動運転システムのためのシミュレータは、大きく分けて3つの主要なコンポーネントで構成されると言われています。これらはすべて自動運転車が活動する「世界」を適切に再現するために必要な要素です。

まず一つ目が、センサーシミュレーションです。これは自動運転システムが現実世界で動いた際に、どのようなセンサー情報（データ）が得られるかをシミュレーションするものです。僕たちの場合はカメラオンリーのアプローチなので、フォトリアリスティックなカメラ映像を生成することが核となります。二つ目が、ダイナミクスシミュレーションです。これは、自分の車両の運動が外界とインタラクションしてどう変化するかをシミュレートするものです。例えば、ハンドル操作やアクセル・ブレーキに対して、路面の状態（濡れ、傾斜など）を考慮し、車両の摩擦や姿勢変化を物理法則に基づいて正確に扱う必要があります。ちゃんと物理シミュレーションをやることで、実車に近い繊細な挙動を再現することが可能になります。

センサーからの入力と、自分の車の物理的な動き、この二つが車の「内側」と「外側」の基本的な要素です。

三つ目が、他のエージェント（アクター）のシミュレーションです。これは、自動運転車が活動する世界に存在する他の車両や歩行者、自転車といった動的要素の動きを適切に作り出すコンポーネントです。単に静止しているのではなく、彼らが周囲の状況に応じて合理的に動く、リアクティブな動きを再現する必要があります。ただ、本格的なリアクティブなシミュレーションを作るのは、車一台ごとに自動運転モデルが必要になるなど非常に大変なので、現状は走行データをそのままリプレイするシンプルな方法からスタートしています。

この3つの要素、すなわちセンサー、ダイナミクス、アクターが組み合わさって、初めて自動運転システムのテストに耐えうる包括的なシミュレータとなります。

インタビュアー：荒居さんたちは自動運転シミュレータ開発において、どのような技術や言語で実装していますか？

荒居さん：まず、センサーシミュレーションの中核であるフォトリアリスティックな映像生成には、3DGSを採用しました。この技術は、データから学習して空間を再構成し、シミュレーション時には微分可能レンダラーというものを使って推論（レンダリング）を行います。この微分可能レンダラーには、性能と速度を追求するためCUDA言語で書かれたオープンソースのライブラリを使用していますが、その学習や推論を実行するパイプラインの開発自体は、主にPythonで行っています。

次に、ダイナミクスシミュレーションについては、車両の物理的な挙動を扱うため、3D物理エンジンを使うことになります。反復計算を行う接触ソルバーを使うために、裏側ではC++で書かれたライブラリが使われていますが、結局これもPythonでラッパーを使っているので、開発言語はPythonになっています。現段階ではシンプルなものを使っていますが、今後はより本格的な物理エンジンを導入し、車両の挙動を精密に再現できるようにしていく予定です。

インタビュアー：世界モデルは、映像生成という点では類似しているように見えます。何が違う点で、自動運転のシミュレータとしては3DGSが優位なのはなぜでしょうか？

荒居さん：世界モデルは、綺麗な映像を作るという点で似ていますが、現状、現実のプロダクトに今すぐ使えるレベルの技術ではないというのが私たちの見解です。数年後には変わるかもしれませんが、できることが違います。世界モデルで生成される映像は、3DGSほど3Dの一貫性が出せるものではありません。

自動運転のシミュレータにおいては、「3次元空間上における物体の位置と運動を正確に操作する」ことが極めて重要です。特定のオブジェクトを特定の速度で、正確な位置に動かすといった制御です。今巷でよく扱われている世界モデルの枠組の中で、この正確な3D制御を実現するのは非常に難しいです。自動運転に特化したモデルが必要になりますが、そういったモデルはあまり公開されておらず、自分たちでゼロから作るには大きなリソースがかかります。3DGSは、私たちが撮影したデータにフィットさせるだけで、フォトリアリスティックな空間を高速かつ高精度に再構成でき、実用性と将来性の高い技術だと判断しています。

3DGSをシミュレータ開発の軸にすえる理由

インタビュアー：3DGSを核としたシミュレータ開発を、具体的にどのように進めているか、開発手法についてお聞かせください。また、3DGS自体が新しい技術だと思うのですが、自動運転シミュレータに活用するというのは、アカデミアや業界では一般的な流れなのでしょうか？

荒居さん：開発の進め方は、まずMVP（Minimum Viable Product、最小限で動くもの）を素早く作って現場に使ってもらい、そのフィードバックに基づいて優先度をつけて改善していくという、実践的なアプローチです。シミュレータ開発は非常に多岐にわたるため、すべてのコンポーネントを同時に高い精度で作り込むのは非効率です。

例えば、今は走行データをそのままリプレイするシンプルなポリシーシミュレーション（他の車の動き）を使っていますが、これはすぐに現場で使えるMVPを提供し、強化学習といった次のステップに進むための判断です。

次に、3DGSの一般性についてですが、3DGS自体は2023年に発表されたばかりの非常に新しい技術です。しかし、そのポテンシャルは計り知れず、アカデミアはもちろん、自動運転やロボティクスを開発している様々な企業で既に使われ始めていると認識しています。僕たちも決して世界で誰もやっていないことをやっているわけではなく、世界で今後標準になっていくだろう技術を、いち早く実用化する取り組みだと思っています。従来のシミュレータ開発では、人手で3Dアセットを配置してテクスチャーを貼るという膨大なコストと手間がかかっていましたが、3DGSを用いることで、これをデータと学習によって自動化できるというゲームチェンジングなメリットを享受できます。

インタビュアー：3DGSがゲームチェンジャーであるという点がよく理解できました。この手法は、特に自動運転という文脈において、なぜこれほど強力なのでしょうか。また、もし仮にお金やリソースが無限に使えるとしたら、荒居さんはシミュレータ開発にどのようなアプローチを取るか、という点についても興味があります。

荒居さん：今の3DGSベースの手法が有用である理由は、大きく三つあります。一つは、レンダリング映像の品質が極めて高いことです。適切にチューニングすれば、実写と呼んで良いレベルのフォトリアリスティックな映像を生成できます。これは、カメラに依存する自動運転モデルの学習や評価において、現実との乖離を最小限に抑える上で決定的に重要です。

二つ目は、そのレンダリングが非常に高速であること。リアルタイム以上の速度で映像を作り出せるため、強化学習のように大量の試行回数を必要とするプロセスを効率的に回すことができます。

そして三つ目は、先ほども触れましたが、データの取り込みが容易である点です。特別なセンサーや環境を用意するのではなく、自分たちで撮った走行データにフィットさせるだけで、自動的に周囲の空間を再構成でき、従来の3Dアセット作成にかかっていた人的コストを劇的に削減できます。

また、もしお金がたくさん使えるとしたら、私は走行データの収集に無限に投資します。そして、それを活用して真の「世界モデル」を作り上げたいです。現在の3DGSは背景のフォトリアリズムに優れますが、真にインタラクティブな世界、例えば「雨が降る」「車が衝突する」といった複雑な物理現象や、アクターの高度にリアクティブな挙動までを、教師なしで学習し生成できるモデルがあれば、それは究極のシミュレータになります。

ただ、それはまだ数年先の話であり、今の3DGSアプローチは、私たちが限られたリソースの中で、自動運転という明確なプロダクト要件を満たすために選んだ、最も合理的かつ効果的な技術選択だと考えています。従来の膨大なコストをかけて3Dアセットを作る手法とは比べ物にならないほど、今の手法が有用です。

インタビュアー：実際に走行データから3DGSベースのシミュレータ環境を作り出す、その具体的なパイプラインと流れについて、教えてください。

荒居さん：走行データ収集後からシミュレータ環境が整うまでの流れは、大きく分けていくつかのステップがあります。まず、走行データには主に画像・映像、LiDARの点群、自車の移動軌跡、カメラのキャリブレーション情報などが含まれますが、シミュレータに必要な3D物体検出の結果（バウンディングボックス）は自動で付与する必要があります。そのため、社内で持っている物体検出モデルを用いて、データに3Dのラベルを自動的に付与するステップが入ります。必要なデータが揃った後、以下の工程が並行して進みます。

一つ目は、3DGS表現の学習です。集めたデータを使って学習を行うと、3D Gaussian表現という、点群のようなものが手に入ります。これが空間を再構成したもので、これによって後から任意のカメラ位置からの映像を生成できるようになります。

二つ目は、メッシュの作成です。点群データなどから、シーンの静的なメッシュを作成します。これは、後のダイナミックシミュレーション（車両の物理計算）で衝突判定や路面の傾斜などを扱うために必要です。

三つ目は、ポリシーシミュレーションのためのデータ作成です。3D物体検出とトラッキングの結果から、他の車両や歩行者がある時刻にどの位置でどういう速度で運動していたかという情報を抽出し、それをリプレイするためのデータを作成します。

最終的に、この3DGSによる空間表現、シーンのメッシュ、そして他のアクターの運動リプレイデータを組み合わせることで、シミュレータとして機能するようになります。シミュレーションの実行時には、3DGSによって画像が合成され、それが自動運転モデルに渡され、アクションを予測します。その予測結果をもとにダイナミックシミュレーションの中で車両を少し動かし、次の時刻の車両位置で見えるはずの映像が作られる、というループを回します。

これからのシミュレータ開発に制御の知見が求められる理由と展望

インタビュアー：これまでシミュレータを構築する上で、最も大変だった点や、逆に最も面白かった点、達成感があったことはどのようなことでしょうか？

荒居さん：このプロジェクトは、私自身はかなり難しいと思っていましたし、個人的には周囲の物体と背景を分離して、背景だけ綺麗に作ることを考えていた時期もありました。動的な物体を3DGSで扱うのは非常に難易度が高いと考えられていたからです。そういった点で、技術的な障壁にどう対処していくかという点が大変でした。

最も面白かった点、そして達成感があったのは、妹尾さんがその難題を解決してくれたことですね。彼は、動的な物体の再構成も含めて一気にやれるようにしようというアプローチで、複雑なプロセスを「ワンコマンドで実行できる」パイプラインとして、AWS上で動くものをソフトウェアエンジニアと協力して作ってくれました。

今では、走行データを投入すれば、自動的に数百シーンの3DGSシーンを作成できるようになっています。これは、私が当初想定していたよりも遥かにスケーラブルで、現場が使いやすいシステムであり、技術の力で、非効率な手作業を自動化できたという事実に、大きな達成感を感じました。また、従来の3Dアセット作成にかかっていた膨大なコストと手間を削減し、最新のAI技術で置き換えるという、まさにゲームチェンジングな体験ができたことが、非常に面白かったです。

インタビュアー：今後の開発方針として、特に重要だと考えていることは何でしょうか。

荒居さん：今後の開発で最も重要だと考えているのは、「現場で使ってもらうこと」と「フィードバックに基づいた優先度の決定」です。

具体的に改善していくべき要素としては、ダイナミックシミュレーションの精度向上、そしてポリシーシミュレーションの高度化があります。現状はリプレイベース（過去の動きの再現）ですが、今後は周囲の状況にリアクティブ（反応的）に動くアクターを生成できるようにしたいと考えています。

ただ、この二つのうち、どちらを優先すべきかという判断も重要です。強化学習の現場で中心的に使っている妹尾さんの観点からすると、「ダイナミックシミュレーションを改善する方が、学習の安定性や効率向上に繋がるため喜ばれるだろう」という予測が立ちます。このように、現場のニーズと技術的な課題を照らし合わせ、「プロダクトとして最も価値が出る部分から手を入れる」という意識を持って開発を進めることが、シミュレータ開発において最も大事なことだと考えています。

インタビュアー：どのような知見があると今後開発は加速しますか？

荒居さん：シミュレータの開発はさまざまな技術が絡む総合格闘技だと感じています。AIの知見はもちろん必要ですが、制御や物理シミュレーションといった古典的な工学の知見も極めて重要です。特にダイナミックシミュレーションの精度を高めるためには、制御系の知見、すなわち車の内部構造や仕組みに詳しくなる必要があります。

例えば、自動運転システムが出す指令は「将来数秒間、こういう軌跡に沿って走ってほしい」というものです。これを実車がどのようにハンドル舵角や加速度の制御コマンドに変換し、実行しているかというロジックが存在します。シミュレータ側でこのロジックを正確に再現できなければ、自動運転モデルが予測した行動と、シミュレータ上で実際に車が取る行動に大きな乖離が生じてしまいます。この乖離が大きいと、シミュレータで学習したモデルを実車に載せ替えた際に、全く使い物にならないという事態になりかねません。これは、シミュレーションと現実の差（Sim-to-Real Gap）を埋める上で非常にクリティカルな問題です。

したがって、車両運動学、制御工学といった知見は不可欠です。具体的には、実車が軌跡追従を行う際の制御などのロジック、タイヤと路面の摩擦モデル、車両の質量、慣性モーメントといったパラメータが車両の動きにどう影響するか、といった深い理解があると、より現実に近いダイナミクスシミュレーションが実現し、シミュレータ開発は格段に進展します。現実の物理法則を正確に取り込むことが、フォトリアリズムと同様に重要であり、自動運転の「現実」を創造する上で欠かせない要素なのです。

インタビュアー：最後に今後の展望について、教えてください。

荒居さん：最終目標は「これ以上ないほど現実に近いシミュレータ」を作り上げることです。そのシミュレータを作れたなら、自動運転の業界全体で覇権を取ったと言えるかもしれないと感じているからです。

自動運転の開発において、極めて稀な状況（レアケース）や、危険なシーンを意図的に作り出せるシミュレータは、開発上だけでなく、自動運転が社会に受け入れられ、認証を取っていくというプロセスにおいても、絶対に欠かせないものになると思っています。

例えば「目の前で人が飛び出してきた時の挙動」を、公道で何千回も実車試験することはできません。だからこそ、ソフトウェアによるロジックの検査が重要になります。私たちが開発するシミュレータが「現実の忠実なコピー」であれば、それを使って安全性を証明することが可能になり、認証を取る上で圧倒的に有利になります。さらに言えば、そのシミュレータが業界標準となれば、「この認証の仕組み自体に、私たちのシミュレータを使ってください」という戦略も取れるようになります。

そして、それが自動運転車を売るのと同じくらい、あるいはそれ以上の巨大なビジネスになるかもしれないと思っています。