総菜や生鮮食品などの各店舗内で加工や包装が行われる商品(以下、インストア商品)は、その店舗でのみ有効な独自の商品バーコード「インストアコード」が設定されており、国内共通の商品バーコード「JANコード」は設定されていない。
JANコードが設定されている商品の場合、特定の分類体系に基づいてJANコードと分類名を紐づけた商品情報を入手すれば、レシートに印字された商品名(以下、レシート印字名)を基にその商品を種類別に分類することが容易だ。
しかし、インストアコードに紐づいた商品情報は各店舗で管理されているため入手することが難しく、レシート印字名を基にインストア商品を分類する場合、レシート印字名を一つ一つ目視で確認しながら手作業で分類していく必要がある。
こうした中、東芝データ株式会社は、株式会社東芝の研究開発センターと共同で、レシート印字名に基づき、総菜や生鮮食品などJANコードが設定されていない商品をAIで自動分類する技術を開発した。
これにより、レシートデータに基づいた商品の分類作業を省人化し、商品開発やマーケティング活動の活性化を目指す。
今回東芝データと東芝研究開発センターは、レシート印字名に基づきインストア商品を自動で分類するために、2種類のAI「LightGMAICグラフニューラルネットワークモデル」と「レシート分類学習済み大規模言語モデル」を組み合わせた自動分類技術を開発した。
一つ目の「LightGMAICグラフニューラルネットワークモデル」は、レシート印字名分析向けに新たに開発されたAIだ。
レシート印字名とその部分文字列との対応関係および、レシート印字名と分類名の紐づけを表現したグラフ構造を作成する。そして、そのグラフ構造を、訓練データとしてグラフニューラルネットワークに学習させる。
これにより、新規のレシート印字名を入力すると、それに含まれる部分文字列との関係性から適切な分類名を判定する。部分文字列は、東芝データが保有する過去の分類データから、分類名の判定に対する貢献度が高いものを抽出し、レシート印字名と部分文字列の対応には優先度情報を持たせている。
二つ目の、「レシート分類学習済み大規模言語モデル」は、レシート印字名分類向けに大規模言語モデルを学習させた独自のAIだ。
レシート印字名に対して正しい分類名と間違いやすい分類名の組を作成し、その組を訓練データとして大規模言語モデルに学習させる。
これにより、新規のレシート印字名を入力すると、そのレシート印字名に対し正しい分類を照らし合わせて適切な分類名を判定する。
訓練データは、東芝データが保有する過去の分類データを解析し抽出することで、分類名の判定精度を高めている。
なお、東芝グループの電子レシートサービス「スマートレシート」から得られるレシートデータを用いて、同技術の分類精度を検証したところ、インストア商品に手作業で分類名を付与した場合と比較し、87%以上の正解率で分類することができたという。
今後東芝データは、同技術の分類精度の向上や、手作業で分類する場合と比較した際のコスト精査を進め、2025年度中に同技術を用いたインストア商品の購買統計データの提供開始を目指すとしている。
また、分類対象をインストア商品だけでなく飲食店のメニューに拡大するなど、さらなる研究開発を進める計画だ。