米PeopleTecに所属する研究者らが発表した論文「The Multimodal And Modular Ai Chef: Complex Recipe Generation From Imagery」は、冷蔵庫の中を撮影した画像から、大規模言語モデル(LLM)がその内容で作れる料理レシピを考えてテキストで出力してくれる機械学習モデルを提案した研究報告である。
今回のアプローチは、画像検出(冷蔵庫に写っている食品)とテキスト生成(できるだけ多くのアイテムを使用して、もっともらしいレシピを作成する)を組み合わせたアプリケーションとなる。
具体的には、画像検出器を構築するために、オープンソースのデータセットである「ai-cook-lcv4d」のバージョン4を用いて、YoloV5モデルを一から学習させる。ai-cookデータセットは、開いた冷蔵庫に並べられた一般的な食品(合計30種類)の3050枚の画像から構成されている。
レシピを生成するために、各画像検出から利用可能な食材のリストを照合し、利用可能な入力をChatGPTに入力する。可能な食材から選択し、各画像は最小8入力、最大27入力からレシピを構築し、レシピのタイトル、食材リストとその分量、調理手順などを出力する。
ChatGPTには次のようなテキストプロンプトを入力する。
「あなたは熟練したシェフです。セミコロンで区切られた食材のリストを渡すので、その全部またはほとんどを使って、このリストに載っている以外のものを補わないレシピを教えてください。ある材料が“なし”と表示される場合は、それを無視してください。各レシピにはキャッチーなタイトル、完成までのおおよその時間、提供人数を付けてください。また、他のレシピと同様に、材料はIngredientsと書かれたリストに記載し、次にInstructionセクションに番号付きのリストとして記載します。以下はそのリストです:”」
これによって、どの食品をどれだけ使ったらいいのか、どう作ったらいいのかといった事細かな調理プロセスをテキストで表示できる。将来的にはこの調理プロセスから画像や動画の生成で、よりユーザーに分かりやすく提示することもできるだろう。また、カロリーを制限した食事やヴィーガン食、糖質を抑えた食事、おもてなし料理など、何かに特化した料理レシピの考案も可能になるだろう。
Source and Image Credits: Noever, David, and Samantha Elizabeth Miller Noever. “The Multimodal And Modular Ai Chef: Complex Recipe Generation From Imagery.” arXiv preprint arXiv:2304.02016(2023).
※テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
からの記事と詳細 ( 冷蔵庫の中身から料理レシピを考えてくれるAI ChatGPTを利用 米国チームが開発(2023年4月18日)|BIGLOBEニュース - BIGLOBEニュース )
https://ift.tt/EYlaNVU
科学&テクノロジー
No comments:
Post a Comment