完全自動運転のために「世界モデル」の開発、そのやりがいとは?
世界最高峰のデータエンジニア・サイエンティストの称号として知られる「Kaggle Grandmaster」の荒居さん。チューリングに入社後は生成AI開発に取り組み、世界モデル構築にチャレンジしています。全世界で研究・開発が急ピッチに進む生成AI領域、そこで働く醍醐味ややりがいについて荒居さんに話を聞きました。
チューリングが世界モデルに取り組む理由と技術スタック

ーー荒居さんは前職で基盤モデルの開発に携わった経験があると聞いています。基盤モデルの開発と世界モデルの開発にはどんな違いがありますか?
基本のコンセプトは同じですが、細かい部分で違いがあります。例えば、言語を生成するモデルのコア技術はトランスフォーマーと呼ばれるモデルです。仕組みとしては、そこに何かしらのトークンが入ってきて、これまで入ってきたものを参照しながら、次にどのようなトークンを吐き出すかを決めるというものです。
私が現在取り組んでいる世界モデル(外界から得られる観測情報に基づき外界の構造を学習によって獲得するモデルのこと)は、画像を何らかの形でトークンの列のように変える仕組みをもとに次のトークン列を予測します。この画像のトークン列を予測していくことで動画を生成できるはず、という考えで成り立っている仕組みです。どんな形式でトークンを入れるのか、エンコーダー・デコーダーをどう設定するかがすごく大事になってきます。
ーーなぜチューリングは世界モデルを開発しようとしているのでしょうか?
ゲーム内や現実世界の環境とやりとりしながら自律的に活動するエージェントを効率よく学習するための枠組みとして、数年前に世界モデルが出てきました。そして今、他の領域から生まれた技術と融合してどんどんモデル自体が強化されていっているんです。
世界モデルは現在の状態とアクションから、アクションの後にどう状態が変化するかを予測できます。つまり、世界モデルは世界の中で能動的に動いていくエージェントのための仕組みに近いと言えます。そのエージェントには自動運転車も含まれます。
チューリングの自動運転開発において具体的な使い方としては、こういったことを考えています。例えば、学習させるにあたって車を実際に運転すると危ないシーンがある場合、運転が上達するまで、バーチャルな世界で練習させる。そういった形で世界モデルを活用できたらと考えています。
世界モデルはこれから発展していかなければ実際には活用できない技術です。ちゃんと使えるようになったら、チューリングの開発のメインストリームに化けていく。それくらい未来と可能性がある技術だと考えています。
ーー従来の自動運転と、世界モデルを活用した自動運転は何が違いますか?
伝統的な自動運転システムは「Perception」「Prediction」「Planning」「Control」という4つのコンポーネントから成り立っています。
・Perception
車がいる、人がいる、信号機があるといった周囲の環境を「認識」する
・Prediction
車や人などの、移動する物体がこの後どう動くかを「予測」する
・Planning
周辺環境や周辺物体の軌道予測の結果をもとに自車がどう動くべきかを「計画・決定」する
・Control
Planningの結果として出てきた「自車がこの先数秒間でどのような軌道で走るかを示した軌道線」をもとに、自車にどんな制御信号を与えるかを決める
自動運転は本質的に将来に起こりうることを予測しなければ実現できません。伝統的な手法では、人が事前に定義したクラスに基づいて、歩行者や車を見つけたら予測するということをしてきました。逆に言えば、人が事前に定義していないクラスの物体が現れると、仮にその物体が運転の支障になる可能性がある物体であったとしても認識されない可能性があるということです。
また、Planningの結果、予測したパスに反応して周囲の環境が変化することがあります。例えば、混み合った道から右折しようとしたら、それを見た歩行者が止まることがあります。しかし、従来の自動運転では、周囲の環境の変化をフィードバックする仕組みがないので、そのインタラクションを考えられないことが構造的な問題になっています。
一方、世界モデルは「こうやって動こうとしたら周囲はこうなるはずだ」という条件付けをして将来予測ができるので、従来はできなかったインタラクションを考えられるのではないかと言われています。
ーー世界モデルが大事な理由がよくわかりました。初歩的な質問ですが、世界モデルはどのような技術で取り組んでいますか?
自動運転においては車道にある信号機などをきちんと認識しなければならないため、高精度な画像入力が必要です。さらに車は高速で移動するため物体の運動量が激しく、そこに対応するためには高フレームレートの動画を生成する必要があります。それらを踏まえた上で、自動運転を実現する方向性は2つあると考えています。
一つが自己回帰トランスフォーマーを基本としたもの、もう一つは拡散モデルを使ったものです。どちらも技術的には大きな可能性のあるものです。
ただ、これらの技術だけでは足りない部分もあるので、最新の論文などを読んで公開された実装を見ながら、自分たちが使えそうな部分のエッセンスを抽出し、取り込んでいます。
世界モデルの開発は主に私が進めており、会社の規模・人数的にもまだまだチームで取り組めていない点は課題です。やることは沢山あるので良いエンジニア・リサーチャーの方に来て欲しいと思っています。
トップが信念を掲げて技術方針を決めているから、信じてついていける

ーー前職のリクルートとチューリングでは、仕事や開発の進め方に違いを感じますか?
あくまで私の在籍期間・在籍期間においての経験ですが、前職では保守性が高いものを開発することが多く、高度な技術的要素を駆使した開発をすることは少なかったです。技術選定の幅を広くしすぎると採用や育成、配置転換といった点での難易度があがってしまうことから、一定は技術選定範囲を決めていました。開発の試行錯誤の回数も大事ですが、それ以上に期限までの進捗やスピードが重要な要素でした。チューリングでもスピードは大事ですが、すでに事業戦略や方向性がソリッドに決まっていたリクルートは開発デッドラインを強く意識する開発環境だったと思っています。
一方、チューリングの場合は世の中にまだないものを作り出す開発なので、最新の論文を読んで実装するなど、試行錯誤を繰り返す必要があります。そういった点において、開発の進め方にはかなり違いがあると感じます。
また、開発でつまずくポイントも違います。リクルートの場合は精度が高くても動作が遅い、高速で動いていても性能が低いといった場合、どちらもサービスとしては不合格です。サービスの性能と動作性のバランスをとることも大事で、開発は減点法で評価されます。
チューリングの場合はいったん実現できていない部分に目をつぶってでも、まずはできることを確認するという感じです。例えば、今は世界モデルは現状リアルタイムで動かないことを棚上げしています。もちろん、いずれは取り組まなければなりませんが、まずは重厚なモデルを作り、将来予測ができるかを検証しています。
ーー荒居さんが感じる仕事の面白さとは何でしょうか。
リクルートでは、制約を満たす範囲内で良いものを作っていくことが、チャレンジングで面白かったです。10年後も問題なく稼働しているサービスを目指す必要があり、自分ではない人が保守する可能性も考えると、習熟難易度が高すぎる技術は使えません。ウェブ企業においてはソフトウェアで売上を上げることが大事なので、それが最適解です。
そういったところに面白さは感じつつも、私は日々技術的な探索を続けているチューリングの仕事が今は刺激的で楽しいです。まだできていないものを夢想しているので、解決策はすぐには見つかりません。「これをやったらいけるかもしれないから、やってみよう」と試して、ダメだったら「この方法はどうだろう」とまた試してみる。探検している感じがすごく楽しいんです。

ーーチューリングという会社の特徴についても教えてください。働く上で“チューリングらしさ”をどういった部分に感じますか?
前提として、チューリングはとても仕事がしやすい環境です。あえて言うなら、今は私一人しか世界モデルの開発に携わっていないので、仲間を増やせたらいいなと思います。試行錯誤しているときに、「こうやるといいんじゃない」「それは違うんじゃない」と議論してくれる人がいてくれたら、とても嬉しいですね。
“チューリングらしさ”で言うとトップの一成さんが生成AIチームの取り組みを「いいんじゃない」と見守ってくれるのがとても心強いです。私は世界モデルが自動運転の役に立つと信じていますが、物事を突き詰めて試行錯誤を続けるうちに、「本当に役に立つんだっけ?」と疑念をもつ瞬間はエンジニアなら誰しもあります。
そんなときも、トップである一成さんが「世界モデルは役に立つんだ」と強く信じるリーダーシップを発揮しているからこそ、私も信じて探索を続けることができます。
一成さんは意識的に偏りを作る人です。例えば、技術選定に関して、古典的な自動運転のアルゴリズムを使う、生成AIを使うという2つの選択肢があった場合、両方に可能性を残しておくこともできます。しかし、一成さんは中途半端なことをせず、「過渡期に古典的なアルゴリズムをやるのはいいかもしれないけど最終的に勝つことはない。だからチューリングは絶対生成AIなんだ」と方針を掲げています。
ーートップが方針を明確に掲げているからこそ、荒居さんも仕事がしやすいということですね?
私は一成さんが自信をもって方針を掲げる理由は2つあると思っています。1つは技術に精通したCEOであること、もう1つは信念の強さです。一成さんは「生成AIによる完全自動運転が唯一の解決法だ」と断言していますが、あれは宣言でもあると思うんです。トップが「俺はこうする」という強い信念をもっているから、エンジニアはそれを信じて進んでいくことができます。
例えば、Googleの使命は「世界中の情報を整理し、世界中の人がアクセスできて使えるようにする」ことです。情報をつなぐだけなら売上は発生しないので、Googleを支援する人がいなければ、世の中から消え去っていたサービスだったかもしれません。
しかし、Googleは信念を突き通した結果として優れた技術が生まれ、今では世界中がGoogleなしでは成り立たないようになり、大きなビジネスになっているわけです。OpenAIも同じで「すごいAIを作ろう」というところが出発点だったと思います。
こんな風に、海外でイノベーションを起こした企業は「すごいものをつくろう」という思いが出発点でした。すごい技術を作った結果、人とお金がついてきて発展していった。しかし、残念ながら日本にはこうしたマインドで臨んでいる企業があまり多くありません。
だからこそ、チューリングの考え方・開発の進め方は珍しく、とても良いと思っています。チューリングは自動運転に関するすごい技術を作ることに集中させてくれる環境が用意されています。世界モデルの開発の道のりは決してラクではありませんが、絶対に実現したいと思っています。
HR立石の編集後記vol.13
生成AIの開発を行うチームは正社員5名という構成です。少数精鋭の体制ですが、荒居さんの開発スピードにはいつも驚かされます。エンジニア同士の立ち話や飲み会でのちょっとした会話から、荒居さんが新しい発見や難易度の高い挑戦を心から楽しんでいるのを感じます。
今後採用が進むことで世界モデルの開発だけでなく、生成チーム全般の開発が前に進んでいくことでしょう。生成AIチームも来年には20~30名の組織にしていきたいので、一緒に高い目標に挑戦してくれる方を求めています。
ライター:久保
Turingの中をのぞいてみたい方は、ぜひイベントに参加ください!こちらをクリック