VLM/LLM活用によるピッキングロボットの進化

執筆者:守谷祥史

This article is originally in Japanese. If you wish to read it in English, please use Google Translate by following this link. external-link

はじめに

前回のインサイトでは、ピースピッキングロボットの構成要素と動作の流れ、そして従来の技術が抱えている課題について解説しました。センサー、ロボットアーム、エンドエフェクタといったハードウェアと、高度なソフトウェアによって制御されるピースピッキングロボットは、倉庫におけるピッキング作業の自動化を担う重要な存在です。

関連インサイト

しかし、従来のピースピッキングロボットは、あらかじめプログラムされた形状や材質の物体しか認識・把持できないものが多く、多様な商品を扱うEC市場のニーズに十分に対応できているとは言えませんでした。初めて取り扱う商品や荷姿の商品、変化する作業環境に対応することが難しく、まだ課題が残されています。

そのような課題を抱える中、近年注目を集めているのが、VLM(Vision-Language Model:視覚言語モデル) と LLM(Large Language Model:大規模言語モデル) と呼ばれるAI技術の活用です。

VLM/LLMは、ロボットが人間がインターネット上に蓄積してきた知識を活用できるようになり、ピッキングロボットの進化を大きく加速させる可能性を秘めています。例えば、初めて取り扱う商品を認識したり、最適な把持方法を判断したり、環境変化に柔軟に対応したりする能力を、ロボットに与えることができるのです。

本稿では、VLM/LLMによってピッキングロボットがどのように進化するのか、そして人間とロボットが協働する未来の物流倉庫の姿について、具体的な事例を交えながら解説していきます。前回の記事でピースピッキングロボットの基礎を理解した上で、VLM/LLMがもたらす革新的な未来への展望を深めていきましょう。

ピッキングロボットへの生成AIの活用事例

VLM/LLMは、ピッキングロボットの性能を飛躍的に向上させ、これまで自動化が困難だった作業にも対応できるようになると期待されています。様々な企業がその可能性に着目し、研究開発や実用化を進めています。ここでは、具体的な活用事例を紹介することで、VLM/LLMが物流倉庫にもたらすインパクトを具体的に見ていきましょう。

RFM-1:言語と物理法則を理解するマルチモーダルAIロボット

アメリカのスタートアップ企業であるCovariant.aiは、RFM-1と呼ばれる、生成AIを中核に据えた汎用的なピッキングロボット向けの基盤モデルを開発しました。

Covariantの公式Webサイト external-link

RFM-1は、深層学習を用いて、インターネット上の膨大な一般データに加え、テキスト、画像、動画、ロボットの動作データ、センサーデータなど、様々な種類のデータを統合的に学習することで、言語と物理法則を理解する能力を獲得 した、マルチモーダルなロボット基盤モデルです。

その言語能力と物理法則に対する理解により、自然言語による指示を理解し、人間とコミュニケーションをとったり、高精度な物理シミュレーションも可能です。

従来のロボットのように特定の商品しか扱えない、動作プログラムの変更が必要、といった制限がなく、未知の商品や状況にも柔軟に対応できる汎用性を持つことがRFM-1の大きな特徴です。

Covariant.aiは、RFM-1を様々な業界のパートナー企業と共同で開発・検証しており、幅広い分野での活用が期待されています。

RFM-1の紹介記事(英語) external-link
RFM-1の紹介記事(日本語で読む) external-link

PickGPT:自然言語で指示できるピッキングロボット

ドイツのスタートアップ企業であるSereactは、PickGPT という、LLMを活用したピッキングロボットシステムを開発しました。PickGPTは、人間の作業員が自然言語で指示した内容を理解し、それに基づいてピッキング作業を行う ことができます。

Sereactの公式Webサイト external-link

LogiMAT2024視察でのSereact社の展示の様子はこちら
LogiMAT2024でのSereact社の展示

例えば、「赤い箱を棚から取って、青い箱の上に置いて」といった指示を理解し、実行することができます。従来のロボットでは、このような複雑な指示を理解することは困難でしたが、LLMの活用により、人間とロボットのコミュニケーションがよりスムーズになり、作業指示の効率が大幅に向上します。

PickGPTは、まだ開発段階ではありますが、将来的には、音声認識技術と組み合わせることで、音声による指示 も可能になると期待されています。

従来のピッキングロボットが事前のティーチングやプログラムによる制御が必要だったことを考えると、導入期間の短縮やさまざまな作業に対応できる可能性が広がります。

PickGPTのページ(英語) external-link
PickGPTのページ(日本語で読む) external-link

AutoRT:ロボット学習を加速させる自律的なデータ収集システム

Google DeepMindが開発したAutoRTは、VLMとLLMを活用し、ロボットの動作データを自律的に収集するシステム です。複数のロボットを同時に制御し、多様なタスクを実行させながら、実世界の環境における大量のデータを収集します。

Google DeepMindの公式Webサイト external-link

従来、ロボットの学習データ収集は、人間が手作業でロボットを操作したり、動作をプログラミングしたりする必要があり、非常に時間と労力がかかる作業でした。AutoRTは、このデータ収集作業を自動化することで、ロボット学習の効率化を飛躍的に向上させます。

AutoRTは、ロボットに搭載されたカメラの映像からVLMが周囲の環境や物体を認識し、テキストで記述することから始まります。次に、LLMがこのテキスト情報と「ロボット憲法」と呼ばれるルールを考慮し、ロボットが実行可能なタスクを複数提案します。

ロボットはこれらのタスクの中から、安全かつ実行可能と判断されたものを自律的に選択・実行し、その過程で動作データやセンサーデータなどを収集します。そして、複数ロボットを様々な環境で動作させることで、多様な状況下でのデータを大量に収集することが可能になります。

AutoRTによってデータ収集の自動化・効率化が実現し、人手に頼ることなく大量のロボット動作データを効率的に収集できます。その結果、従来の手作業によるデータ収集と比較して、より多様な状況下でのデータが得られ、ロボット学習を加速させることができます。

AutoRTは、生成AI、特にVLMとLLMを組み合わせることで、ロボット学習のボトルネックであったデータ収集問題を解決し、より高度なロボットの実現に貢献するシステムと言えるでしょう。

AutoRTのページ(英語) external-link
AutoRTのページ(日本語で読む) external-link

生成AIで進化するピッキングロボットの能力:3つの可能性

上記で紹介した事例を踏まえ、VLM/LLMがピッキングロボットにもたらす具体的な進化の可能性について見ていきましょう。

①高度な画像認識:未知の形状・姿勢の物体や類似商品の識別

従来の画像認識技術では、事前に登録された形状やテクスチャを持つ物体しか認識することができませんでした。いわゆるマスタデータを必要とするタイプの画像認識がこれにあたります。

利用技術は非公開なケースが多いため、断言はできませんが、近年では深層学習をベースとした画像認識がよく利用されているようです。メーカー側で膨大な学習データを集めて学習させることで、導入時にはマスタデータを必要としないタイプの画像認識です。

従来の深層学習をベースとした画像認識製品は、メーカーが収集可能な画像データのみを学習データとして利用しておりテキストデータは利用していないことが多いのではないかと予想しています。

それに対して、大手IT企業が開発しているVLMは、インターネット上の膨大な画像データとテキストデータを学習している点で優位性があると考えています。今後、商用利用可能なVLMをベースに開発された画像認識製品が登場することで、従来のマスタ登録型や深層学習型にはない高度な画像認識が可能になる可能性があります。

  • 不定形な商品、柔軟物、反射する商品の認識
    形状が一定でない商品や、光を反射する商品なども、正確に認識できるようになります。

  • バラ積み状態の商品
    山積みになった商品の中から、特定の商品を識別し、その位置と姿勢を正確に把握できるようになります。

  • 類似商品の識別
    パッケージや形状が似ている商品でも、ラベルや細部の特徴から正確に区別できるようになります。

VLMは、膨大な画像データとテキストデータから学習することで、汎化された知識を獲得します。これは、特定の商品だけでなく、これまで見たことのない未知の商品にも対応できる可能性を意味します。

②最適な把持計画:多様な商品の特性に合わせた最適な把持方法の選択

商品の形状や材質、重さ、壊れやすさなどに応じて、適切なグリッパーを選択し、最適な把持位置と力加減で掴む必要があります。従来のロボットでは、これらの判断を人間が行っていましたが、学習済みのVLM/LLMを活用することで、ロボットが自動的に最適な把持計画を立てることができるようになる可能性があります。

例えば、VLM/LLMは、以下のような判断を行います。

  • グリッパーの選択
    商品の形状や材質、重さなどを考慮し、最適なグリッパーを選択します。吸着型、平行爪型、多指型など、様々なグリッパーの中から、最も適切なものを自動で判断します。

  • 把持位置の決定
    商品の形状や姿勢を解析し、安定して把持できる位置を計算します。

  • 把持力の調整
    商品の材質や壊れやすさを考慮し、適切な力で把持します。

VLM/LLMは、過去のピッキングデータや、インターネット上の膨大な商品情報などを学習することで、人間のように経験に基づいた判断を行うことができるようになります。

把持に失敗した場合にも、失敗の原因や対策などをテキストや画像を使って説明させることで、VLMやLLMが継続的に学習するためのデータを生成、蓄積することも可能になるかもしれません。

③自律的な動作調整:環境変化やイレギュラーな状況への対応

物流倉庫内は、常に変化する環境です。商品の配置が変わったり、障害物が置かれたり、予期せぬトラブルが発生したりすることもあります。このような状況変化に対して、ピッキングロボットは柔軟に対応する必要があります。

VLMは、リアルタイムに周囲の環境を認識し、状況に応じた適切な判断 を行うことができます。例えば、以下のような状況に対応できます。

  • 注文内容に応じた作業
    数万SKUを管理する倉庫では、1度の注文に含まれる商品の組み合わせはさらに膨大なものになります。事前のプログラミングなしに商品の組み合わせに応じたピッキングが可能になるかもしれません。

  • 障害物への対応
    ピッキング動作の途中で、ロボットアームの動作範囲内に障害物が置かれた場合、それを認識して回避動作を行い、目的の動作を完了させます。

  • 荷崩れへの対応
    商品が崩れてしまった場合、崩れた商品の位置と姿勢を認識し、再度ピッキングできるように動作計画を修正します。

LLMは、VLMが認識した状況に基づいて、最適な行動計画を生成 することができます。例えば、障害物を検知した場合、LLMは、ロボットアームの動作範囲内で障害物を回避できる新たな経路を計算したり、状況によってはピッキング動作を中断し、人間の作業員に助けを求めるといった判断を、状況に応じて行うことが可能になります。

生成AIによって進化するピッキングロボットのアーキテクチャ

VLM/LLMの進化は、ピッキングロボットのアーキテクチャにも大きな変化をもたらしています。ここでは、特に重要な2つの変化について解説します。

VLM/LLMのカスタマイズ:ピッキングロボットの個別最適化

大手IT企業が発表したVLMやLLMをそのままピッキングロボットに利用しても、高精度なピッキングは期待できないと考えています。

インターネット上の膨大なデータから学習した抽象的な知識をベースにしつつも、業界、拠点、業務に合わせたカスタマイズが必要になります。

ピッキングタスク、特定の環境や扱う商品の種類、作業手順などに合わせて、VLMやLLMをカスタマイズすることで、より高精度かつ効率的なピッキングロボットを実現できます。

例えば、以下のようなカスタマイズが考えられます。

  • 周辺の設備・装置に合わせた動作計画
    ロボットの周辺の設備や機器のレイアウト情報を取り込むことで、障害物を回避したり、より効率的な移動経路を生成することができるようにあるかもしれません。1台のロボットが設備や機器を活用して複数の作業を担うことも可能になりそうです。
  • 特定の商品に特化した学習
    特定の商品群の画像データを重点的に学習させることで、その商品群の認識精度を向上させることが可能になるかもしれません。例えば、アパレル倉庫であれば、衣類の画像データを重点的に学習させることで、衣類の認識精度を向上させることができます。
  • 作業手順の学習
    人間の作業手順を学習させることで、人間と同様の作業フローをロボットで再現できるようになるかもしれません。例えば、特定の商品の梱包方法を学習させることで、人間と同様の作業フローをロボットに覚えさせることができます。

このようなVLM/LLMのカスタマイズを実現するためには、自社が自由に使える、カスタマイズに必要なデータを長期的に収集、蓄積していくことが差別化要素となってくると考えています。

SLMs(Small Language Models)によるロボットへの実装とエッジAI

VLMやLLMは非常に高性能なAIですが、その巨大なサイズゆえに、膨大な計算資源が必要となります。そのため、現状では、クラウドサーバー上で動作させるケースが一般的です。

しかし、近年、SLM(Small Language Model) と呼ばれる、軽量化されたLLMの開発が進んでいます。SLMは、LLMに匹敵する性能を維持しつつ、サイズを大幅に縮小することに成功しており、端末の処理能力の向上とともに、ロボットに直接搭載 することも可能になりつつあります。

実際に、GoogleのGemini NanoやMicrosoftのPhi Silicaなど、ノートPCでも動作する軽量なSLMが発表されています。これらのSLMは、従来のLLMでは不可能だった、ロボットシステム上での動作を可能にする可能性を秘めています。

ロボットシステムにSLMが搭載されるようになれば、ピッキングロボットシステムのアーキテクチャも大きく変化していくでしょう。 従来はクラウドサーバーに依存していた処理がロボットシステム内で完結できるようになり、より高速な処理、オフライン環境での動作、そしてセキュリティの向上 などが期待されます。

未来の物流倉庫:生成AIが実現する人とロボットの協働

VLMやLLMを含むAI技術の進歩によって、ロボットができる作業が増えていく未来の物流倉庫では、ロボットと人間がそれぞれの得意分野を活かし、互いに協力し合う、より効率的で、安全で、そして働きがいのある場所へと進化すると期待されています。

それでも高度なAIを搭載したピッキングロボットは、人間の作業を完全に置き換えるものではありません。むしろ、人間とロボットの協働 によって、物流倉庫全体の生産性を向上させることが期待されています。

ロボットは、単純作業、反復作業、重い荷物の運搬、危険な作業 などを得意としています。一方、人間は、複雑な状況判断、臨機応変な対応、創造的な問題解決 などを得意としています。

AI技術の進化により、ピッキングロボットは初めて取り扱う商品や荷姿、そして変化する環境にも対応できるようになり、これまで以上に多くの作業を自動化できるようになるでしょう。

24時間稼働するロボットたちが、倉庫内を縦横無尽に動き回り、膨大な数の商品を正確にピッキングする。そんな未来の倉庫では、人手不足は解消され、人為的なミスも起こりません。

しかし、それでもなお、人間の力は必要とされます。ロボットが人間の指示を理解し、自律的に作業を行う一方で、人間はロボットの動作を監視し、必要に応じて指示を出したり、サポートしたりする役割を担います。

また、ロボットのメンテナンスや、システムの監視、商品の品質管理といった、より高度な作業にも、人間の力は不可欠です。さらに、生成AIを活用したシステムの開発や運用など、新たな仕事も生まれてくるでしょう。

ロボットが単純作業を代行することで、人間は、より高度な作業に集中できるようになり、従業員の労働環境の改善 にも繋がり、物流業界の魅力向上にも貢献することも期待できます。

倉庫のレイアウトも、ロボットと人間の協働を前提に設計され、通路の幅や棚の高さ、照明などが最適化されるでしょう。ロボットが安全かつ効率的に作業できるスペースを確保しつつ、人間が働きやすい環境も実現する必要があります。

AI技術の進歩は、物流倉庫における人とロボットの協働を促進し、より効率的で、安全で、そして働きがいのある倉庫を実現する可能性を秘めているのです。

さいごに

前回と今回の2回にわたり、ピースピッキングロボットについて解説してきました。前編では、ピースピッキングロボットの基本的な構成要素と動作の流れ、そして従来の技術が抱えていた課題について説明しました。後編となる本稿では、VLM/LLMなどの生成AI技術によってピッキングロボットがどのように進化するのか、具体的な活用事例を交えながら、未来の物流倉庫の姿を展望しました。

従来のピースピッキングロボットは、あらかじめプログラムされた形状や材質の物体しか認識・把持できないものが多く、初めて取り扱う商品や荷姿、変化する作業環境に対応することが難しいという課題を抱えていました。

しかし、VLM/LLMなどの生成AI技術は、ロボットがインターネット上に蓄積された膨大な知識を活用できるようになるため、ピッキングロボットの進化を大きく加速させる可能性を秘めています。

すでに、Covariant.aiのRFM-1やSereactのPickGPTなど、生成AIを活用したピッキングロボットが登場し、従来よりも多様なな商品や荷姿でのピッキング、自然言語による指示への対応などを実現しています。また、Google DeepMindのAutoRTは、VLMとLLMを活用することで、ロボットの動作データを自律的に収集することを可能にし、ロボット学習の効率化を飛躍的に向上させています。

さらに、SLM(Small Language Model)やエッジAIの登場により、ピッキングロボットはより高速な処理、オフライン環境での動作、そしてセキュリティの向上などが期待されます。また、VLM/LLMを特定の倉庫や商品に合わせてカスタマイズすることで、より高精度かつ効率的なピッキング作業が可能になると考えられます。

生成AI技術の進化は、ピッキングロボットの可能性を最大限に引き出し、物流倉庫における人とロボットの協働を促進することで、未来の物流倉庫の姿を大きく変えていくでしょう。より効率的で、安全で、そして働きがいのある倉庫を実現する可能性を秘めた、生成AI技術の進化に、これからも注目していく必要があるでしょう。

ロボット導入コンサルティングについて

当社では、倉庫内業務とロボット技術に関する知見を活かし、物流拠点へのロボット導入プロジェクトをサポートしています。ロボット導入計画の策定、現状業務の分析、導入後の業務設計、最適なロボットの選定、プロジェクト管理、導入後の業務改善に至るまで、一貫したサポートを提供します。

物流ロボット関連のインサイト

当社について

BLUEDGE(ブルーエッジ)では、 「あるべき姿」をともに描くコンサルティング「あるべき姿」をカタチにするシステム開発 を通じて、お客様の戦略策定から実行までを一貫体制でご支援しています。

執筆者:守谷祥史

サービス紹介や無料相談のご案内はお気軽にお問い合わせください。