ログインしてください

文献・情報検索システム

日本語

ENGLISH

ヘルプ

ログインしてください

  • 詳細情報

AI LabelMate: A Context-Aware Annotation Agent for Reducing Semantic Fragmentation

書誌事項

著者(英)1) Ashish Patil, 2) Dariusz Mikulski, 3) Judith Mwakalonge, 4) Yunyi Jia
勤務先(英)1) Clemson University, 2) GVSC, 3) South Carolina State University, 4) Clemson University
抄録(英)Robust perception systems for autonomous vehicles rely heavily on high-quality, labeled data, particularly in off-road and unstructured environments. However, the performance of the perception model is often degraded by data chaos resulting from limitations in automated segmentation. Foundation models, such as SAM2, while powerful, typically generate masks based on low-level visual cues, including color and texture gradients. In complex off-road scenes, this leads to semantic fragmentation. A single object, like a moss-covered log, can be split into not only dozens of segments for its bark and moss but also hundreds of smaller, meaningless patches based on minor color variations. This paper introduces a context-aware annotation agent to resolve this issue. Our workflow integrates a vision-language model (Florence-2) for scene understanding with a segmentation model (SAM2) for mask generation. Instead of segmenting indiscriminately, our agent leverages Florence-2 to comprehend the image holistically, localizing complete objects. For example, after Florence-2 identifies a ”moss-covered log,” its semantic context guides the generation of masks for the entire entity or meaningful sub-components, such as moss patches and bark, not just fragmented color variations. This initial mask, generated in seconds, provides annotators with an excellent starting point, significantly reducing the manual effort required for vertex-by-vertex outlining. Annotators retain complete editing control, with the ability to adjust polygon vertices for a pixel-perfect mask and features such as drawing a bounding box or sketch to automatically segment an object. This agent provides a framework that utilizes the complementary strengths of scene understanding and segmentation models. Deploying each model for its own specialized task makes it possible to make more consistent, high-quality automotive datasets faster, which speeds up the creation of safer perception systems.

翻訳

検索について

閉じる

検索ボックスの使い方

検索条件は最大5件まで入力可能です。検索ボックスの数は右側の「+」「−」ボタンで増減させることができます。
一つの検索ボックス内に、複数の語句をスペース(全角/半角)区切りで入力した場合、入力した語句の“すべてを含む”データが検索されます(AND検索)。
例)X(スペース)Y →「XかつY(を含む)」

「AND」「OR」プルダウンの使い方

「AND」を指定すると、前後の検索ボックスに入力された語句の“双方を含む”データが検索されます。また、「OR」を指定すると、前後の検索ボックスに入力された語句の“いずれかを含む”データが検索されます。
例)X AND Y →「XかつY(を含む)」  X OR Z →「XまたはZ(を含む)」
AND検索とOR検索が混在する場合は、OR検索が優先されます。
例)X AND Y OR Z → X AND (Y OR Z)
AND検索と複数のOR検索が混在する場合も、OR検索が優先されます。
例)W AND X OR Y OR Z → W AND (X OR Y OR Z)

検索フィルタの使い方

検索結果の件数が多すぎる場合など、さらに絞り込みしたいときに「検索フィルタ」を使います。各項目にチェックを入れると、その項目が含まれるデータのみに検索結果が絞り込まれます。
各項目後ろの「()」内の数字は、その項目が含まれるデータの件数です。

検索のコツ

著者名で検索するときは、「自動車 太郎」のように、姓名をスペースで区切って入力してください。