摘要與 1. 引言
相關研究
MaGGIe
3.1. 高效遮罩引導實例摳圖
3.2. 特徵-遮罩時序一致性
實例摳圖資料集
4.1. 影像實例摳圖與 4.2. 影片實例摳圖
實驗
5.1. 影像資料預訓練
5.2. 影片資料訓練
討論與參考文獻
\ 補充材料
架構細節
影像摳圖
8.1. 資料集生成與準備
8.2. 訓練細節
8.3. 量化細節
8.4. 自然影像的更多質化結果
影片摳圖
9.1. 資料集生成
9.2. 訓練細節
9.3. 量化細節
9.4. 更多質化結果
本節擴展了影像摳圖過程,提供了資料集生成的額外見解以及與現有方法的全面比較。我們深入探討 I-HIM50K 和 M-HIM2K 資料集的創建,提供詳細的量化分析,並展示進一步的質化結果以突顯我們方法的有效性。
I-HIM50K 資料集是從 HHM50K [50] 資料集合成而來,該資料集以其廣泛的人類影像遮罩收藏而聞名。我們採用在 COCO 資料集上訓練的 MaskRCNN [14] Resnet-50 FPN 3x 模型來過濾單人影像,產生了 35,053 張影像的子集。遵循 InstMatt [49] 方法論,這些影像與來自 BG20K [29] 資料集的多樣化背景進行合成,創建每張影像包含 2-5 個主體的多實例場景。主體經過調整大小和定位以保持逼真的比例並避免過度重疊,如實例 IoU 不超過 30% 所示。此過程產生了 49,737 張影像,平均每張影像 2.28 個實例。在訓練期間,指導遮罩透過二值化 Alpha 遮罩並應用隨機丟棄、膨脹和侵蝕操作來生成。I-HIM50K 的範例影像顯示於圖 10。
\ M-HIM2K 資料集旨在測試模型對不同遮罩品質的穩健性。它包含每個實例十個遮罩,使用各種 MaskRCNN 模型生成。關於此生成過程使用的模型的更多資訊顯示於表 8。這些遮罩根據與真實 Alpha 遮罩的最高 IoU 匹配到實例,確保最小 IoU 閾值為 70%。未達到此閾值的遮罩從真實資料中人工生成。此過程產生了一組全面的 134,240 個遮罩,其中 117,660 個用於合成影像,16,600 個用於自然影像,為評估遮罩引導實例摳圖提供了穩健的基準。完整資料集 I-HIM50K 和 M-HIM2K 將在本研究獲得接受後發布。
\ 
\ 
\
:::info 作者:
(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);
(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);
(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);
(4) Joon-Young Lee, Adobe Research (jolee@adobe.com)。
:::
:::info 本論文可在 Arxiv 上取得,採用 CC by 4.0 Deed (Attribution 4.0 International) 授權條款。
:::
\

