E2E自動運転の“正解”をつくる。Evaluationチームが挑む、未踏の評価基盤開発
自動運転の開発は、モデルを強くするだけでは前に進みません。改善の方向性を決める「共通の尺度」が必要で、最終的には“プロダクトとしての信頼”を外に説明できる形にしていく必要があります。
チューリングではいま、End-to-End(E2E)自動運転の開発が加速する中で、その性能をどう正しく・客観的に評価するかに真正面から取り組む専門組織「エバリュエーション(評価)チーム」が立ち上がりました。
成熟した大企業のエンジニアリング組織から、正解がまだない領域へ飛び込んだ2人が語るのは、E2Eならではの評価の難しさ、評価基盤が開発サイクルをどう変えるか、そして“世界に通用する物差し”を自分たちで作る面白さでした。
はじめに:自動運転モデルを“強くする”だけじゃ足りない
聞き手: 今日は、チューリングで新しく「評価チーム」が発足したということで、塚本さんと渡邉さんに色々聞いていきます。よろしくお願いします。
塚本・渡邉: お願いします。
聞き手: 自動運転は「走れた/走れない」だけでなく、その間に無数のグラデーションがありますよね。安全性はもちろん、快適さ、一貫性、そして乗っている人が“納得できるか”まで含めた「質」をどう定義して、どう測るかがプロダクトとしての成否を左右する。今日はそこを、できるだけ具体的に掘り下げたいと思います。
1. キャリアと入社の経緯:大企業から“正解がない場”へ
聞き手:お二人とも、前職は国内有数のエンジニアリング組織でしたよね。あえてチューリングのような、まだ「正解が確立されていない」環境に来た理由を聞きたいです。
塚本: 私は前職がリクルートですが、その前はナビタイムジャパンにいました。カーナビアプリや乗換探索って、ユーザーの行動ログがものすごくあるんですよね。そこから「人の流れ」を読み解く、といった分析のチームにいました。
交通とか移動って国全体に効く課題なのでそこに向き合うのが楽しくて。その後リクルートに移ったんですが、やっぱり交通のドメインにもう一回チャレンジしたい気持ちが残っていてチューリングに来た、という流れです。

渡邉: 私はキャリアのスタートがKDDI研究所で、ウェアラブルコンピューティングの研究をしていました。スマホのセンサーから「この人がどこにいるか」「何をしているか」を推定するような研究ですね。
研究は刺激的だったんですが、だんだん「実世界にダイレクトに影響するものを作りたい」という気持ちが強くなって事業会社に移りました。
そこでMLの経験も積んでいったんですけど、やっぱり「不確実性が高い、どう解けばいいか分からない問題」を解くほうが楽しいなっていうのがあって。チューリングには“まだ誰も解いてない問い”がある。そこが決め手でした。

聞き手: 入口は違っても、最終的に「正解がまだない領域で戦う」面白さに収束してるのが、チューリングらしいですね。
2. ドメイン知識ゼロから飛び込んだ感想:手探りが面白い
聞き手: 自動車や自動運転のドメイン知識は、入社前からあったんですか?
塚本: ほとんどないです。地図や位置情報は触っていましたが、車がどう動くか、自動運転がどう成立しているかは知らない状態でした。車も持っていなかったですし。
渡邉: 私も同じで、車の世界は全然。入社するまでペーパードライバーでした(笑)。位置情報とかセンサーは扱っていましたが、車体そのものへの興味は薄かったです。
聞き手: そこから入ってみて、面白さや難しさは?
渡邉: 難しさは、進む方向が最初から見えているわけじゃないこと。でも逆に、いろんな人と議論しながら「じゃあどう前に進める?」を決めていくのが楽しい。手探り感があるほど燃えるタイプには向いてます。
塚本: あと、技術の幅がとにかく広いです。エッジコンピューティング、ML、Webなどいろんな技術を扱っています。しかも「プロダクトとして世に出ている正解例」が少ないので、思考錯誤が前提になる。その手触りが面白いですね。
3. E2E自動運転における「評価」の難しさ:既存フレームワークがそのまま使えない
聞き手: ここから本題です。評価って既存のツールや基準を持ってきて当てはめればいい…という話ではなさそうですが、E2Eならではの難しさはどこにありますか?
塚本: 既存の評価フレームワークの多くは、認識・予測・計画・制御みたいに分けて、それぞれが正しいかを見る「モジュールベース」なんですよね。
でも私たちのE2Eは、入力(カメラ等)から出力(運転操作)までを単一モデルでつないでいる。だから、ADAS用の評価基準をそのまま当てても「本当に安全で快適」とは言い切れない。

渡邉: もう1つは環境の非再現性です。同じ道でも、周りの車、歩行者、信号のタイミング、天候、日照…全部変わる。「全く同じシチュエーション」が存在しない世界で、モデルAとモデルBの差をフェアに比較するのが難しい。
だから評価は「安全性」だけじゃなく、「運転の質」「快適性」「一貫性」「納得可能性」まで、複数軸で扱う必要が出てきます。
4. 「運転の質」をどう数値化する?——再現性の壁と、センサーで攻める
聞き手: 乗っていると「いい感じ」「スムーズ」は分かりますよね。そういう“人間の感覚”を、どう評価に落とすんですか?
塚本: 正直、まだ「これが決定版」という形はなく、試行錯誤しています。ただ、一つ使えると思っているのはセンサーデータ。
速度・加速度の推移で減速が滑らかかを見るとか、走行軌跡で車線の中心をトレースできているかを見るとか。「快適さ」を丸ごと数値化するのは難しいけど、構成要素に分解して、取れるデータから攻めていく感じです。
聞き手: 「先生データ」みたいに、人間の上手い運転に近いほど良い、という考え方もありますよね。
塚本: それもありつつ、問題は“先生が走った時と全く同じ状況”を再現できないことです。周りの車も人も同じにならない。
なので「先生に近い」を目指すだけじゃなく、ある程度の「許容範囲(枠)」を定義して、その枠内に収まっているかを判定する考え方も現実的だと思っています。
聞き手: 感覚の世界を、データで分解していく。
渡邉: はい。評価チームの究極の目的は「車に乗らなくて済むようにする」ことなんで(笑)。そのために、初期はむしろたくさん乗らないといけないフェーズも出てくるかもしれません。

塚本: これまではMLエンジニアが実際に乗って「雑味がある」「やってる感がある」みたいに感覚で判断してきた。そこを分解して、数値に落とし込むのが我々の仕事です。
人間にしかできない“真の快適さ”の評価は残ると思うんですが、そこに至るまでの工程をいかに機械化して、人間を楽にするか。それが直近のチャレンジですね。
5. 評価チームがもたらすインパクト:開発速度と“外への信頼”
聞き手: LLMにはベンチマークがたくさんありますが、E2E自動運転には「決定版」がまだない?
塚本: ないですね。研究レベルの提案は多いけど、「これを満たしていればプロダクトとして安全」と言える標準は存在しない。だからこそ、必要な基準を作って進化させ続ける力が重要だと思っています。将来的には業界標準づくりにも関わる可能性がある。
渡邉: どこかのタイミングで業界標準はできると思います。でも、その前段階で「いま必要な基準」を自分たちで作って、開発を前に進める。そこが面白いです。

聞き手: 評価が整うと、開発の現場にはどんな変化が起きますか?
塚本: まず社内は開発の高速化です。共通の評価軸でモデルを比較できるようになると、改善が速くなるし、評価の堅牢さも担保できる。
外部に対しては信頼性の証明。将来のパートナー企業、投資家、最終的なユーザーに「これだけ安全で、これだけ快適」とデータで説明する必要が出てきます。
聞き手: つまり評価基盤って、社内の効率だけじゃなく外への信頼づくりそのもの。
渡邉: そうですね。さらにチューリング独自のシステムの利点をアピールする武器にもなる。絶対に守るべき安全基準をクリアしていることを“証明できる”のも重要です。
6. 目指す評価基盤:変更に強く、セルフサービスで、堅牢に
聞き手: 評価基盤って、ダッシュボードやAPIだけじゃなく、データ基盤、権限、監査、可観測性…要素が多いですよね。アーキテクチャとして意識していることは?
塚本: チューリングはアジリティ重視です。正解がないからこそ、早く試す。そのために評価基盤も「変更に強い」ことが絶対条件。

さらに、評価したい人が自分でロジックを追加できるセルフサービス性。特定の人しか触れないブラックボックスにしない。でも堅牢性もいる。この両立を目指しています。
渡邉: 使いやすさとトラブルシュートのしやすさも大事ですね。想定外の事態が起きた時に、すぐ原因に辿り着ける。社内向けプロダクトですが、「めっちゃ使いやすい」と言われたいですね。
7. チューリングではチームは小さく、素早く、変化する
聞き手:チューリングには「チームは小さく、素早く、変化する」というバリューがありますが、そのために大切にしていることはありますか?

塚本:やるべきことがどんどん変わるんですよね。正解が分からないものを追う以上、変化は避けられない。それに耐えられる設計が必要なので、テストがちゃんと書かれていること、ドメインごとにアプリケーションが切り出されていること、ドキュメントがあることなど、ソフトウェアエンジニアリングで大事とされてきた基本を、愚直にやるのが大事だと思ってます。
渡邉:そうですね。「作っては壊し、新しくする」サイクルが一般のプロダクトよりかなり早いので、それを楽しいと思えるかどうかも大切かなと思います。
聞き手:チューリングに入ってから身についたことはありますか?
渡邉:前職では”壊れにくさ”を重視していたのですが、チューリングに来てからは”使いやすさ”や”スピード”についてより考えるようになりましたね。
塚本:スタートアップらしい勢いがある分アンチパターンを踏む勇気も必要になって、、、基礎を徹底していた前職時代を守破離の”守”とすると、最近は”破”を意識し始めましたね。バグは起こさないようにキワキワを攻めつつ、管理コストと速度のトレードオフをちゃんと見て進めてます。
渡邉:うん、勢いや度胸はつきましたね(笑)。
8. 求めるエンジニア像:当たり前を速く、高品質に。ドメインに潜れる人
聞き手:ここまで色々と話を聞いてきましたが、評価チームとして足りないピースはありますか?
塚本:まず、ありがたい話ですが単純に人が足りてなくて、タスクを1つ片付ける間に3つ増えます(笑)。

その上で、Webアプリやデータエンジニアリングで“当たり前”とされることを、高品質に素早く実装できる人がいると心強いです。RESTfulなAPIをちゃんと作る、データレイクとDWHを適切に分ける、みたいな。
それと、次のフェーズに進む中で、エンジニアリングとビジネスを繋げる意識。データ分析をどう事業やマーケに反映するか。新しい風を吹かせてくれる人が増えると嬉しいですね。
渡邉: 今はチームが小さいので、アプリ、データ、分析まで守備範囲が広い。全部できる必要はないけど、領域を限定しすぎずに飛び込める好奇心がある人は向いてると思います。
塚本: あと何より、人類のグランドチャレンジである「完全自動運転の実現」にディープダイブしてくれる人。ここが一番大事です。
聞き手: なるほど。最も大切なのは飛び込む勇気ということですね!
9. 自動運転×ロボティクス:未来のキャリアにどう効く?
聞き手:物理世界の車を動かす経験って、エンジニアキャリアとしても強いですよね。どう捉えていますか?
塚本: まず、AI×ロボティクスの最前線をどっぷり経験できる。これからAIでロボットを動かすプロダクトは増えるし、その中で自動運転は最先端で学びが多い。
もう1つは、世界的な企業に挑む経験。チューリングは本気で「We Overtake Tesla」を目指している。成果が出ても「テスラと比べれば全然だな」って渇きが常にある(笑)。大きい目標を背負って、ゼロから世界と戦う経験は、エンジニアとしてのキャリアだけでなく、人生の資産になると思います。
渡邉:そうですね。 自動運転は10年先の話じゃなくて、もっと短いスパンで現実に効く技術でもある。そういう意味で今、物理世界とAIの接点を仕事にできるのは、キャリア的にもかなり面白いと思います。

10.最後に:応募を検討しているエンジニアにメッセージ
塚本:私も入る時は知らない世界で、「活躍できるかな」と悩んで応募した覚えがありますが、やることは尽きないので、ぜひ一緒に自動運転を前に進められるといいなと思います。
渡邉:今は2人チームなので、どちらか風邪を引くと開発が止まるくらい仲間が必要です(笑)。ぜひいろんな人といろんな視点を持って働けたら嬉しいですね。
2人:ここまで少し大変そうな話も多くしてしまいましたが、実は私たちも子育て中で、土日はちゃんとプライベートを重視できています。生活を犠牲にする働き方じゃなくても巨大な挑戦はできるので、安心して飛び込んでくれると嬉しいです!

あとがき
対談中、お二人は「難しい」「正解がない」と何度も口にしていましたが、不思議と表情はずっと明るかった。「評価」と聞くと裏方に見えるかもしれませんが、実際は、モデルを速く賢くし、プロダクトとして信頼を作る中心にあります。
もしあなたが、まだ誰も作っていない“当たり前”を世界標準にしていくことにワクワクするなら、チューリングのEvaluationチームはその挑戦のど真ん中にあります。ご興味のある方は、ぜひ採用ページをご確認ください。ぜひ、エンジニアリングで“自動運転の正解”を一緒に作っていきましょう。