生成AIを研究する大学院生がチューリングのインターンにのめり込む理由

2024/12/2

この記事に登場する人

生成AIチーム

塩野大輝 Daiki Shiono

東北大学大学院、博士後期課程1年に在籍しており、現在は Vision & Language に関する研究に取り組んでいます。チューリングでは、生成 AI チームで日本語視覚言語モデル (日本語VLM) の研究開発に携わっています。

生成AIチーム

上田佳祐 Keisuke Ueda

スイスのEPFL（ローザンヌ工科大学）の修士課程1年で、現在は機械学習におけるプライバシー保護に関する研究をしています。チューリングでは、生成AIチームで世界モデルの開発に携わっています。

チューリングが取り組む完全自動運転の実現は、生成AIを活用した最先端かつ未知の研究開発であり、大学で類似した研究分野に取り組んでいる学生も多くいます。チューリングでは、創業から3年間で60名以上のインターン生を受け入れてきました。研究熱心な技術系の学生が多く活躍しています。

今回は2024年にインターンとしてジョインし、生成AI開発チームで活躍している2人の大学院生の対談を実施。大学で研究する2人にとっても、チューリングの環境は魅力的とのこと。インターンの仕事内容やチューリングならではの難しさや面白さを聞きました。

入社してすぐに、開発の中核部分に触れる

ーー2人は生成AIチームに在籍しています。改めて、具体的な開発内容について教えてください。

塩野：主に画像とテキストを入力として受け取り、テキストを出力してくれる GPT-4(V) のような日本語視覚言語モデル (日本語 VLM) の研究開発を担当しています。経済産業省の生成 AI 開発事業「GENIAC プロジェクト」の期間中は、VLM の分散学習ライブラリである vlm-recipes を用いて開発を進めました。

日本語 VLM の学習には画像-テキストデータを使用するのですが、現状公開されている日本語画像-テキストデータセットはその数が少ないという課題があります。そこで「GENIAC プロジェクト」の期間中には、

Wikipedia Vision JA: 日本語 Wikipedia を元にして作成された約 160 万事例からなるデータセット
The Cauldron JA: The Cauldron を日本語に翻訳した 44 のサブデータセットを含むデータセット

の2つの画像-テキストデータセットを生成AIチームで新たに作成することを目指し、公開することができました（詳細はこちらの Blog を参照ください）。

現在は、日本特有の文化や常識を含む入力にも対応できるような日本語 VLM を実現すべく、学習データセット構築と学習戦略の模索を進めています。

上田：自分が入社してまず取り組んだのは、世界モデルの中核部分の差し替えです。荒居さんが実装した世界モデル「Terra」には、その中核にオートリグレッシブなTransformerであるOPTと呼ばれるモデルがあります。そこにLlamaアーキテクチャを改変したモデルを適用し、検証を行いました。

その後は、世界モデルの軽量化および高速化に取り組んでいます。上記の「Terra」では、入力となる動画フレームを離散的な表現に変換してから、LLMで次の動画フレームを生成していたので、その過程で情報が失われてしまったり、生成のスピードや性能が落ちてしまったりすることが問題でした。ただ、近年、画像を離散的な表現に変換することなく自己回帰モデルによって生成する技術が登場してきました。そのような最新技術を取り入れ、画像本来の連続的な値のまま扱えるように調整しています。

ーー2人とも、インターンとして入社してすぐ、基盤モデルの中核を扱う仕事に携わっているんですね。

上田：インターンとして入社したばかりの私が世界モデルの中核部分の調整や改善作業を担当できたのは、世界モデルを設計した荒居さんがしっかりと作り込んでいたからこそです。その部分を差し替えるだけで動いたので、その結果を荒居さんと確認しながら検証を進めました。

ただ、入社してすぐのインターンがこれだけ大きなプログラムの中核部分に触れることなど、他社ではなかなかないと思いますね。

本気の応募や、チューリング飯、応募のキッカケはそれぞれ違った

ーーそもそも2人は、どのようなきっかけでチューリングのインターンにジョインしたでしょうか？

上田：Xで「チューリング飯」の投稿をみて、エンジニアの塩塚さんにDMを送ったのがきっかけです。元々、将棋AIに興味があったこともあり、開発者である山本さんが代表を務める会社としてチューリングのことは認知していました。

ただ、「車」というハードウェアのイメージから、自分には関係ないと思っていましたね。そんなときに、チューリング飯の募集をみかけたんです。タダ飯を食べられることもそうですが、社員に対して「気軽にDMして誘っていいよ」と会社が公式で推薦してくれたので、すごく連絡しやすかったですね。チューリング飯がなかったら、連絡しなかったと思います。

実際に話を聞いて、ハードウェアだけでなくソフトウェアにも力を入れていることを知りました。GENIACプロジェクトに採択されているなど、生成AIの領域にも力を入れていると知り、驚きました。その後、山口さん、荒居さんとも話し、特に荒居さんが取り組んでいる世界モデルには興味が湧きましたね。これまで触ったことはありませんでしたが、興味もありましたし、夏休みは時間もあったので、ちょっとやってみようと軽い気持ちで体験入社に向かいました。

塩野：私はチューリングでインターンとして活躍している藤井さんからの紹介でインターンに入社しました。チューリングでインターンをしてみたいという強い思いから、共通の知り合いを経由して藤井さんと知り合ったんです。

学部生時代からXで青木さんの動向を追っていました。海外の大学の第一線で活躍されている研究者として気になっていたんです。そんな青木さんがいきなり創業。それから、ずっとチューリングの情報を軽く追っている状態でした。テックブログで積極的に発信しており、業界全体を盛り上げようとする気概を感じていました。

あるときXで、チューリングが生成AI×自動運転に取り組んでいくことを知りました。マルチモーダル学習ライブラリ「Heron」と、最大700億パラメータの大規模モデル群を公開したという情報を知ったときは、「ジョインしたい！」と強く思いましたね。というのも私の主な研究領域は、Vision & Language（視覚と言語の融合領域）で、まさにチューリングが注力しようとしている内容とマッチしていると思いました。今この盛り上がっているタイミングでチャレンジしないと後悔すると思い、応募しました。応募して一日体験入社をさせていただいて、働きたい気持ちがさらに強くなり、インターンとして入社することを決意しました。

上田：塩野さんとは全く違い、「ちょっと見てみようかな」くらいの軽い気持ちで、体験入社に臨んだんです。体験入社で世界モデルの技術に触れ、論文を読んで……。こんなにも面白い分野があるのか！と、一気に興味が湧きました。そこから一転、「やらせてください！」とインターン入社を決意しましたね。まさかここまでハマるとは思いませんでした。

最高の環境で、自由に実験

ーー次にインターンの仕事の進め方について教えてください。裁量がどれだけあるかは会社や部署によってさまざまだと思いますが、チューリングの生成AIチームはいかがでしょうか。

塩野：私の感覚では、半分は与えられたタスク、そして半分は自由に動いている感覚です。自由な時間は、生成AIモデルのデータ、学習設定などを自分が思いつくままに実験しています。豊富な計算資源のある環境で、自由に実験できるのはとても楽しいですね。

上田：同じく自由度が高いです。論文の実験・実装は与えられたタスクですが、その中でどんなデータを使うかは全く指定がなく、私が自由に選んでいます。外枠だけは決まっている中で完全に自由にやっています。おもちゃで遊んでいる感覚で、申し訳ないくらいですね（笑）。

塩野：生成AIチーム自体が、自由に探索しながら研究し、そして成果を出していくチームです。社員の皆さんも、自由にやっているようでしっかり成果を出しているので、本当にすごいですし、自分も負けないように頑張りたいなと思いますね。

ーー慣れていない技術に触ったり、分からない事柄に悩んだり、大変さもあると思います。キャッチアップで心がけていることはありますか？

上田：私の場合、世界モデルはこれまでまったく触ったことがありませんでした。とにかく論文を読んで、荒居さんに基礎部分から質問をしまくりました。時間を削ってしまい、申し訳なさもありましたが、荒居さんも「最初はそうだったよ」と伝えてくれたので、心強かったですね。同じ人間なのだから、自分でも頑張れそうだと感じました。

塩野：上田さんと違って、研究分野と同じ領域なので普段から少しだけ慣れていました。ただ、発展途上の分野だからこそ、どんどん新しい論文が出てきます。知っているつもりでもすぐ新しい技術や知見が出てくるので、常にキャッチアップしている状態です。

上田：そうですよね。私がとある論文の再現実装に取り組んでいたときも、実装に行き詰まっている最中にオリジナルの実装が発表されて、ガッカリやら嬉しいやらということもありました（笑）。最新の技術に取り組んでいるからこその大変さがありますね。

塩野：大変さでもあり、そこが面白さでもありますよね。インターンとして気をつけているのは、わからないことがあったら、積極的に質問すること。10分悩んで分からないことがあれば、すぐ質問するようにしていますね。

また、私自身、開発力をもっと身に付けたいと思ってインターンに応募しました。チームメンバーの方々がどうやってコードを書いているか、どんな実装をしているかは注視するようにしています。目的意識をもってインターンに取り組むことで、自分自身の成長にもつながっていると感じます。

チューリングと研究室の並行は双方のいいとこどりができる

ーーチューリングのインターンの難しさや面白さはどんなところにありますか？

塩野：大規模視覚言語モデル (VLM) をつくるにあたり、学習が順調に進んでいるようにみえても、評価したときにまだまだ課題があります。具体的には、学習データに入っているはずの日本語の知識が抜け落ちてしまうことがあるんです。将来的に自動車に実装するにあたり課題となるので、どうすれば解決できるかを日々考えています。

面白さはやっぱり、計算資源ですね。私は研究室でも視覚言語モデルに関する研究を実施していますが、計算機の量が桁違いです。チューリングでは今、32ノードを扱っています。研究室ではH100が1ノードでも多いくらいなので、すごくありがたいですね。

上田：同感です。大規模な動画生成の領域は、そもそも計算機が足りないと実験自体が遅々として進まないことも少なくありません。予算の少ない環境では、そもそも扱えない領域です。チューリングは、私が所属している研究室と比べても規模が段違いです。これだけの開発をいま経験できているのは、自分にとっても大きな資産になっていると感じます。

また、ビジネス面も知れるのが面白いですね。一度、月次のオールハンズミーティングに参加したのですが、資金調達の話がすごく面白かったです。そもそもこの計算機はどこから来たのか、上流の工程を知ることで、作業にも実感が湧きます。成果を出さないといけないという、良い意味でのプレッシャーを感じました。

塩野：資金調達の状況をリアルタイムで知れるのは、勢いのあるスタートアップならではです。チューリングは、SlackやNotionがすべてオープンなのも魅力的です。以前、別の会社でアルバイトしたときは、ほかのチームがどんな仕事をしているかは全く分かりませんでした。ほかのチームとの意思疎通ができますし、情報の伝達・意思決定のスピードも速いと感じますね。

上田：情報がオープンなのは嬉しいですよね。行き詰まったときに、Notion AIを用いて情報を探すこともあります。そうすると過去の、全く別の部署が開発したコードが出てくるんですよね。過去のナレッジを使えるのはすごくありがたい環境だと思います。

ーー最後に、インターンに応募しようか迷っている方にメッセージをお願いします。

塩野：悩んでいるのであれば、一度来てみることをおすすめします。チューリングはさまざまなイベントを開催しているので、まずは足を運んでみてください。

上田：とりあえず、タダ飯を食べるつもりで、チューリング飯に行ってみるといいと思います。実際に話を聞いてみると面白くて、いつの間にかハマってしまうと思います。まずは気軽に、社員の方に会ってみてください。

HR立石の編集後記vol.40

インターンの2人が取り組んでいるテーマは、今まさにトレンドの最先端領域。その中で、裁量を持って手を動かしています。チューリングでは時に正社員と変わらない権限を託されるシーンもありますが、使える計算資源・一緒に働けるメンバーの面でもインターンのみなさんにとって非常に魅力的な環境なのではないかと感じました。

チューリングでは年間を通してインターンを募集しています。ぜひぜひ気になる方は応募ください。