日本に求めるものは物理AI ーNVIDIA AI Summit [後編]

前編に続き、NVIDIAのCEO、ジェンセン・ファン氏の講演をレポートします。

前編では、「NVIDIAがなぜAIチップの分野で90%のシェアを握れているのか」「AIエージェントが仕事や生活をかえる」という点に言及されていたが、後半は「物理AI」と呼ばれるもう一つのAIについてでした。

ロボットにAIが搭載されることで変わるビジネス

世界のロボットのうち、50%は日本製で、これまでのロボットによって生産性は向上してきましたが、市場は横ばいの状態でした。

ファン氏によるとその理由は、「今のロボットには柔軟性がないから」なのだと言います。

確かに、現在のロボットは目的が明確にあり、目的を遂行するために最適化されています。一方で、AIが搭載されるようなロボットは、人のような目や手や足があって、やらなければいけないことを柔軟にこなします。

例えばこれまで生産ラインにおいて、最も柔軟な動きをするのは人間とされていましたが、その考えも改めなければいけないのかもしれません。

未来の工場では、柔軟に判断をしながら業務を遂行するロボットが生産を支えている可能性があるのです。

ロボットにAIを搭載するためのしかけ

ファン氏によると、ロボットにAIを搭載するには次の3つステップが必要だと言います。

まずAIのトレーニングを行い、シミュレーションを行う、そしてAIモデルを実際のロボットに組み込み行動をさせるというものです。

AIによるシミュレーションと強化学習を行う「オムニバース」

初めのステップで学習をしたAIがいきなり現場で作業をするとしたらどうなるだろう。

もしかしたら危険な動作をしてしまうかもしれないし、物理的な空間に対して無理な動きをしようとするかもしれません。

こういったことを回避するには、現場と同じスペースを仮想的に生み出し、現実世界のデジタルツインとして構成、そこで学習済みのAIを動かしてみることが必要になります。

この環境をオムニバースといいます。

オムニバースで練習し、鍛えられたAIは実際のロボットに組み込まれます。

ロボットを制御するためのコンピュータ(Soc)を「Jetson Thor」と呼びます。

Jetson Thorは、人型ロボット用に作られたロボットプロセッサで、人の動きを真似しエミュレートしたり、学習結果をつかってロボットを制御し関節を動かします。

デジタルAIが、テキストから画像を生成できるように、テキストからロボットの動きを生成することができます。

例えば、「左のみかんを掴んで、右に移動させて」というとそういう動作をロボットがするということになるといった感じです。

人型ロボットのフレームワークISSAC LaB

人型ロボットを作るにあたって、強化学習や仮想シミュレーションは非常に重要です。それに使われるのが、ISSAC LABと呼ぶフレームワークです。

このフレームワーク上に3つのワークフローがあり、これらで人型ロボットの知能部分が出来上がります。

ロボットにタスクの実行方法を教えるGroot-Mimic

Grootはもともと「Gr 00 T」、つまり「Generalist Robot 00 Technology」を指します。

人間によるデモンストレーションをAIは覚えます。Mimicを使うことで、動作を一般化することができると言います。

ロボットのテストと評価を行うGroot-Gen

オムニバースの生成AIテクノロジーを使うと、ランダムな環境とロボットの実行してもらいたいアクションのサンプルを膨大な数作成することができます。

仮想空間上でロボットはテストと評価を行うためのフレームワークです。

ロボットの運動モデルを抽出するGroot-Control

学習したすべてのスキルを抽出して、運動学的スキルを実行できるためのフレームワークです。

この3つのフレームワークを使うことで、ロボットが自律的に動くことができるようになるのです。

ロボットが働く工場の未来

将来の工場では、ロボットがチームを作り、数千のセンサーを通してロボットが監視されます。

工場の場合、Megaと呼ばれるデジタルツインが用意され、仮想ロボットとその頭脳となるAIが配置されます。

ロボットは周囲の環境を認識し、推論して、次の行動を計画し、最終的に行動に移します。

これらのアクションはオムニバース上でシミュレーションされ、結果はオムニバース上のセンサーによって取得され、ロボットの脳にフィードバック、認識され、次のアクションが決定します。

こうやってオムニバース上でシミュレーションを繰り返すことで、物理世界での問題をなるべく少なくするのです。

ロボット先進国日本こそ、ロボットにAIを搭載すべき

ここまで見てくると、NVIDIAの技術がどこまでをサポートしてくれるかがわかったのではないでしょうか。

デジタルAIに関しては、パワフルで並列処理が可能なGPUを設計し、チップを製造、提供するだけでなく、高度な制御を誰でも行うことができるためのライブラリ群を提供していて、これを拡充することでより多くの専門的な問題をハードウエアの性能を活かしながら解決していくことができる。

そして、それが差別化であり、かつ、競合へのスイッチコストを上げてい流状況です。

また、物理AIに関しては、オムニバースと呼ばれるデジタルツイン環境を実現し、人の動作を学習したり、学習した内容をデジタルツイン上で再現、評価と最適化を行った上で、物理的な関節の制御モデルをJetson Thorと呼ばれるチップに導入することで、現実世界でのインテリジェントなロボットの動きを実現している。

この分野でも、ライブラリとシミュレーション環境を提供することで、だれでも高度な処理を実現することができ、競合へのスイッチコストを上げていることがわかります。

ファン氏は、今後の社会において、「チップを作ったり、ソフトウエアを作ったりする必要はなくなるが、インテリジェンスは現場で生み出す必要がある。」「製薬業であれ、自動車業であれ、ロボット業であれ、全ての産業、全ての国が独自のAIを作る必要があるのです。」という。

AIによる産業革命の幕開けなのです。