視覚:光景のセグメント化における階層性と適用性

Nature 442, 810-813(17 March 2006)
Hierarchy and adaptivity in segmenting visual scenes
Eitan Sharon, Meirav Galun1, Dahlia Sharon, Ronen Basri and Achi Brandt

Finding salient, coherent regions in images is the basis for many visual tasks, and is especially important for object recognition. Human observers perform this task with ease, relying on a system in which hierarchical processing seems to have a critical role. Despite many attempts, computerized algorithms have so far not demonstrated robust segmentation capabilities under general viewing conditions. Here we describe a new, highly efficient approach that determines all salient regions of an image and builds them into a hierarchical structure. Our algorithm, segmentation by weighted aggregation, is derived from algebraic multigrid solvers for physical systems, and consists of fine-to-coarse pixel aggregation. Aggregates of various sizes, which may or may not overlap, are revealed as salient, without predetermining their number or scale. Results using this algorithm are markedly more accurate and significantly faster (linear in data size) than previous approaches.

画像の中から顕著性および一貫性の高い領域を見つけ出すこと(セグメンテーション)は、多くの視覚的課題の基礎であり、物体認知にはとりわけ重要です。ヒトはこの課題を容易におこなえるが、それは階層的な処理が重要な役割を果たすシステムに頼っていると考えられます。しかし、多くの試みにもかかわらず、これまでのコンピューターアルゴリズムでは、一般的な視覚条件下でロバストなセグメンテーション能力を示すことはできませんでした。本論文では、画像から顕著性の高い部分をすべて決定し、それらを階層的な構造に組み立てるという、新しく効率的なアプローチについて述べます。集合に重みづけするこのセグメンテーションのアルゴリズムは、物理系のための代数的マルチグリッド解法に由来し、細かいものから粗いものまでさまざまな画素の集合で成り立っています。集合の数やスケールをあらかじめ決めずに、互いにオーバーラップする、またはしない、種々のサイズの集合体を画像特徴として提示します。このアルゴリズムを適用した結果は、従来のアプローチより精度が大幅に高く、演算速度も大きく向上しました(データサイズに比例する)。