MaGGIe stellt die Datensätze I-HIM50K und M-HIM2K vor, die über 180.000 synthetisierte menschliche Masken enthalten, um die Robustheit des Instance Matting zu bewerten.MaGGIe stellt die Datensätze I-HIM50K und M-HIM2K vor, die über 180.000 synthetisierte menschliche Masken enthalten, um die Robustheit des Instance Matting zu bewerten.

Synthetisierung von Multi-Instanz-Human-Matting-Daten mit MaskRCNN und BG20K

Abstrakt und 1. Einleitung

  1. Verwandte Arbeiten

  2. MaGGIe

    3.1. Effizientes maskiertes geführtes Instanz-Matting

    3.2. Feature-Matte temporale Konsistenz

  3. Instanz-Matting-Datensätze

    4.1. Bild-Instanz-Matting und 4.2. Video-Instanz-Matting

  4. Experimente

    5.1. Vortraining auf Bilddaten

    5.2. Training auf Videodaten

  5. Diskussion und Referenzen

\ Ergänzungsmaterial

  1. Architekturdetails

  2. Bild-Matting

    8.1. Datensatzgenerierung und -vorbereitung

    8.2. Trainingsdetails

    8.3. Quantitative Details

    8.4. Weitere qualitative Ergebnisse zu natürlichen Bildern

  3. Video-Matting

    9.1. Datensatzgenerierung

    9.2. Trainingsdetails

    9.3. Quantitative Details

    9.4. Weitere qualitative Ergebnisse

8. Bild-Matting

Dieser Abschnitt erweitert den Bild-Matting-Prozess und bietet zusätzliche Einblicke in die Datensatzgenerierung sowie umfassende Vergleiche mit bestehenden Methoden. Wir vertiefen uns in die Erstellung der Datensätze I-HIM50K und M-HIM2K, bieten detaillierte quantitative Analysen und präsentieren weitere qualitative Ergebnisse, um die Wirksamkeit unseres Ansatzes zu unterstreichen.

8.1. Datensatzgenerierung und -vorbereitung

Der I-HIM50K-Datensatz wurde aus dem HHM50K [50]-Datensatz synthetisiert, der für seine umfangreiche Sammlung menschlicher Bild-Mattes bekannt ist. Wir verwendeten ein MaskRCNN [14] Resnet-50 FPN 3x-Modell, trainiert auf dem COCO-Datensatz, um Einzelpersonenbilder herauszufiltern, was zu einer Teilmenge von 35.053 Bildern führte. Nach der InstMatt [49]-Methodik wurden diese Bilder gegen verschiedene Hintergründe aus dem BG20K [29]-Datensatz komponiert, wodurch Multi-Instanz-Szenarien mit 2-5 Subjekten pro Bild erstellt wurden. Die Subjekte wurden in der Größe angepasst und positioniert, um eine realistische Skalierung beizubehalten und übermäßige Überlappungen zu vermeiden, wie durch Instanz-IoUs von nicht mehr als 30% angegeben. Dieser Prozess ergab 49.737 Bilder mit durchschnittlich 2,28 Instanzen pro Bild. Während des Trainings wurden Führungsmasken durch Binarisierung der Alpha-Mattes und Anwendung zufälliger Dropout-, Dilatations- und Erosionsoperationen generiert. Beispielbilder aus I-HIM50K sind in Abb. 10 dargestellt.

\ Der M-HIM2K-Datensatz wurde entwickelt, um die Modellrobustheit gegenüber variierenden Maskenqualitäten zu testen. Er umfasst zehn Masken pro Instanz, die mit verschiedenen MaskRCNN-Modellen generiert wurden. Weitere Informationen zu den für diesen Generierungsprozess verwendeten Modellen sind in Tabelle 8 dargestellt. Die Masken wurden basierend auf dem höchsten IoU mit den Ground-Truth-Alpha-Mattes den Instanzen zugeordnet, wobei ein minimaler IoU-Schwellenwert von 70% sichergestellt wurde. Masken, die diesen Schwellenwert nicht erfüllten, wurden künstlich aus Ground Truth generiert. Dieser Prozess führte zu einem umfassenden Satz von 134.240 Masken, davon 117.660 für zusammengesetzte und 16.600 für natürliche Bilder, was einen robusten Benchmark zur Bewertung des maskierten geführten Instanz-Mattings bietet. Der vollständige Datensatz I-HIM50K und M-HIM2K wird nach Annahme dieser Arbeit veröffentlicht.

\ Abbildung 10. Beispiele des I-HIM50K-Datensatzes. (Am besten in Farbe anzusehen).

\ Tabelle 8. Zehn Modelle mit unterschiedlicher Maskenqualität werden in MHIM2K verwendet. Die MaskRCNN-Modelle stammen von detectron2, trainiert auf COCO mit verschiedenen Einstellungen.

\

:::info Autoren:

(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);

(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).

:::


:::info Dieses Paper ist auf arxiv verfügbar unter CC by 4.0 Deed (Attribution 4.0 International) Lizenz.

:::

\

Marktchance
Multichain Logo
Multichain Kurs(MULTI)
$0.03948
$0.03948$0.03948
+6.07%
USD
Multichain (MULTI) Echtzeit-Preis-Diagramm
Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an service@support.mexc.com um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.