ChatGPTの登場によって瞬く間に認知が進んだAI。今では一般の人でも気づかないうちに何らかの形でAIの恩恵を受けており、生活だけでなくさまざまな産業でその利活用が推し進められています。
デバイスプラスは、これまで電子工作やロボコンに関する記事を中心に多くのコンテンツを公開してきましたが、いよいよデバプラにとってもAIは切っても切れない存在となってきました。現にユーザの方々にアンケートを取ったところ、やはりAIに関する質問が多く、その注目度は非常に高いことが伺えました。
そこで今回は、ロボットの制御とAIの可能性について、どのような技術があり、今後どのように使われていくのか、専門家の方にお話を聞く機会を得たので、前編と後編の2回に分けて紹介していきたいと思います。
後編となる今回も、引き続き機械学習を活用したオーダーメイド型AI「カスタムAI」の開発事業やカスタムAI導入のためのコンサルティング事業を展開する株式会社Laboro.AIより、執行役員エンジニアリング部長を務める吉岡琢さんにお話をお聞きしました。前編では画像認識技術についてお聞きしましたが、後編では今注目の強化学習とLLMについてお聞きしていきます。
吉岡 琢(よしおか たく):株式会社Laboro.AI 執行役員エンジニアリング部長。奈良先端科学技術大学院大学 情報科学研究科 博士後期課程修了(工学)。在学中に確率モデルによる情報処理の研究に従事。修了後、研究所や企業で機械学習による脳活動計測、人流データ分析、深層学習によるロボット制御を経験。2019年4月よりLaboro.AIに参画し、強化学習、自然言語処理を中心に従事。2022年よりエンジニアリング部 部長、2024年より執行役員に就任、部門の指揮を取る。
※ロボット制御×AIの無限の可能性!注目ベンチャー企業の専門家に聞くAIの最新トレンド【前編】はこちら
③注目される強化学習
編集部:続いて強化学習について紹介頂きたいと思います。こちらはあまり馴染みのないワードですが・・・。
吉岡さん:強化学習とは、設計者により与えられた報酬関数に対し、報酬を最大化するための制御則を試行錯誤(トライアルアンドエラー)によって自動的に学習する技術です。分かりやすく言うと失敗から学ぶ、というものです。
編集部:報酬関数には具体的にどのようなものがありますか?
吉岡さん:具体例として「倒立振子」があります。これは、棒を振り子のように振り上げ、直立状態を維持する制御則を強化学習によって獲得する課題です。この場合、棒が上に到達した際に高い報酬を与えるような報酬関数を設計します。その後、報酬関数をエージェント(制御器)に与え、試行錯誤を繰り返させます。初めはうまく制御できず、得られる報酬も低い状態が続きますが、失敗から学びを重ねることで、やがて成功するようになります。成功が積み重なることで、エージェントは「これが最適な制御則だ」と理解し、より良い制御を行えるようになるのです。
編集部:この強化学習を用いた制御はどういったシーンで活用されるのでしょうか?
吉岡さん:当社の事例としては、制振制御の分野で活用が進んでいます。これはビルや橋梁といった大型の構造物において、地震や強風などで起こる揺れを抑えるために備わっているアクティブマスダンパの制御に使用しています。アクティブマスダンパは、ビルや橋梁の中に錘を入れておき、モータによって制御します。その錘の揺れによって地震や強風による揺れを打ち消す技術なのですが、高い効果が出るモータの動かし方を強化学習によって獲得するという検証をおこなっています。

出典:Laboro.AI Webサイト
編集部:この技術は既に実装されているものなのでしょうか?
吉岡さん:いえ、まだシミュレータ上での検証段階です。ビルや橋梁など巨大な構造物は、万が一間違った制御をしてしまっては大変なことになってしまいます。実際の建物を使った検証についてはまだまだこれからとなります。
編集部:お話を聞いていると、強化学習は今後さまざまな領域で活用が進みそうですね。
吉岡さん:強化学習は制御だけではなく、組み合わせ最適化にも活用できます。例えば土木工事の工程最適化といった分野でも強化学習が使われています。大規模な工事計画を人が設計するのは非常に大変です。そこを強化学習によって省力化するというのは大きなメリットがあると思います。今後ますます強化学習が使われるシーンは多くなるのではないでしょうか。
④LLMについて
編集部:最後にLLMについて紹介頂けますでしょうか?
吉岡さん:LLM(Large Language Models)は、自然言語処理の分野で近年注目を集めている技術であり、特にChatGPTの登場によって広く知られるようになりました。LLMとは、大規模なデータセットを用いて事前学習された言語モデルを指し、ユーザが与えるプロンプト(テキストによる指示)に応じてテキストを生成する機能を備えています。その性能は年々進化しており、現在では、まるで人間と会話しているかのような自然な対話や、専門的な知識を活用した応答が可能となっています。
編集部:LLMはいつの間にか広まっていったイメージがありますが、いつ頃から出始めた技術なのでしょうか?
吉岡さん:LLMは2018年に発表されたGPT-1やBERTによって本格的に注目され始めました。これらのモデルはTransformerという新しいアーキテクチャを採用し、大量のデータとパラメータを活用することで高い性能を実現しました。この手法はその後のLLMの進化の基盤となり、より大規模で高性能なモデルが開発されるきっかけともなりました。
編集部:強化学習のパートでも出てきた、Transformerについて説明頂けますか?
吉岡さん:一般にディープニューラルネットワークというものは、画像やテキストといった入力に対して何回も処理を重ねていくことでさまざまな認識や文章の生成ができる仕組みとなっています。この処理の過程のひとつがTransformerとなります。Transformerの特徴の一つは、「Attention」というメカニズムです。これは、単語が直列で並ぶ言語において、どの単語が他の単語と重要な関係(例えば、主語と述語の関係)を持っているのかを、データから動的に学習する仕組みを指します。この仕組みにより、長い文章でも文脈を踏まえた上で単語の意味を正確に捉えることができるようになりました。また、こうしたアテンションメカニズムの導入と、モデルパラメータ数の増加が相まって、従来の手法を大きく超える高い言語理解性能を実現しました。
単語同士の関連性を計算する際、例えば単語が512個ある場合、すべての単語の組み合わせについて関連性を計算するために、512×512の要素を処理する必要があります。これにより、Transformerでは計算量が入力文の長さに対して二乗に比例するという課題がありました。この計算量の制約は、特に長い入力文を扱う際の技術的ハードルとなっていました。しかし、最近では技術の進歩によりこの制約が徐々に解消されつつあります。これにより、現在のモデルでは非常に長い文章でも処理可能となり、高い性能で文脈を理解できるようになっています。
編集部:LLMとロボット制御の組み合わせで考えられる活用方法はどういったものがありますか?
吉岡さん:現在はまだ研究段階ですが、言語による指示をもとに周囲の空間を認識し、ロボットを制御する技術が開発されています。この技術は、産業用ロボットよりも、むしろ人々の生活に密接に関わる場面での活用が期待されています。例えば、レストランでテーブルの上にあるカップに対して「これを片付けてください」と指示する状況を考えてみましょう。この「片付けて」という指示は従来のコンピュータにとっては曖昧ですが、LLM(大規模言語モデル)とビジョン技術を組み合わせたマルチモーダルなモデルを活用することで、ロボットはその指示を「カップをテーブルから取り除く」という具体的な行動として理解できます。このような技術により、曖昧な自然言語の指示を正確に解釈し、人間の意図に沿った動作を実現できるようになることが期待されています。
⑤デバプラユーザへメッセージ
編集部:今回は貴重なお話をお聞かせ頂きありがとうございました。最後にデバプラを日頃利用頂いているユーザの方々にメッセージを頂けませんでしょうか?
吉岡さん:現在はChatGPTに代表されるように、AIの性能が人間に迫る、あるいは上回るほど向上してきており、そのような技術革新によって、いろいろな知覚を統合しながら制御する技術が現実のものとなってきています。さらに良い点としてそうした技術や最新の研究結果を共有するという動きが広まってきています。具体的には、最新の研究論文で提案されたAI技術のプログラムは、GitHubで共有されることが一般的です。また、LLMを含むニューラルネットワークの学習済みパラメータは、Hugging Faceと呼ばれるプラットフォームで公開され、多くの開発者や研究者が活用しています。
つまり、今の世の中は最新の技術を誰もが手に取ることができるようになっており、自分の手で小さいことからすぐに試すことができる環境になってきています。そういった点で、これからAIを学ぶような若い世代の方は非常に恵まれていると思います。このチャンスを逃さないように、若い時にいろいろな経験を積まれると良いのではないでしょうか。
編集部:本日はありがとうございました。