MaGGIe presenta los conjuntos de datos I-HIM50K y M-HIM2K, que incluyen más de 180,000 máscaras humanas sintetizadas para evaluar la robustez del matting de instancias.MaGGIe presenta los conjuntos de datos I-HIM50K y M-HIM2K, que incluyen más de 180,000 máscaras humanas sintetizadas para evaluar la robustez del matting de instancias.

Síntesis de Datos de Matting Humano Multi-Instancia con MaskRCNN y BG20K

2025/12/20 02:30

Resumen y 1. Introducción

  1. Trabajos Relacionados

  2. MaGGIe

    3.1. Matting de Instancia Guiado por Máscara Eficiente

    3.2. Consistencia Temporal Feature-Matte

  3. Conjuntos de Datos de Matting de Instancia

    4.1. Matting de Instancia de Imagen y 4.2. Matting de Instancia de Vídeo

  4. Experimentos

    5.1. Pre-entrenamiento en datos de imagen

    5.2. Entrenamiento en datos de vídeo

  5. Discusión y Referencias

\ Material Suplementario

  1. Detalles de arquitectura

  2. Matting de imagen

    8.1. Generación y preparación del conjunto de datos

    8.2. Detalles de entrenamiento

    8.3. Detalles cuantitativos

    8.4. Más resultados cualitativos en imágenes naturales

  3. Matting de vídeo

    9.1. Generación del conjunto de datos

    9.2. Detalles de entrenamiento

    9.3. Detalles cuantitativos

    9.4. Más resultados cualitativos

8. Matting de imagen

Esta sección amplía el proceso de matting de imagen, proporcionando información adicional sobre la generación de conjuntos de datos y comparaciones exhaustivas con métodos existentes. Profundizamos en la creación de los conjuntos de datos I-HIM50K y M-HIM2K, ofrecemos análisis cuantitativos detallados y presentamos más resultados cualitativos para subrayar la efectividad de nuestro enfoque.

8.1. Generación y preparación del conjunto de datos

El conjunto de datos I-HIM50K fue sintetizado a partir del conjunto de datos HHM50K [50], que es conocido por su extensa colección de mattes de imágenes humanas. Empleamos un modelo MaskRCNN [14] Resnet-50 FPN 3x, entrenado en el conjunto de datos COCO, para filtrar imágenes de una sola persona, resultando en un subconjunto de 35.053 imágenes. Siguiendo la metodología InstMatt [49], estas imágenes fueron compuestas contra fondos diversos del conjunto de datos BG20K [29], creando escenarios de múltiples instancias con 2-5 sujetos por imagen. Los sujetos fueron redimensionados y posicionados para mantener una escala realista y evitar superposición excesiva, como lo indica que los IoUs de instancia no excedan el 30%. Este proceso produjo 49.737 imágenes, con un promedio de 2,28 instancias por imagen. Durante el entrenamiento, las máscaras de guía fueron generadas mediante la binarización de los mattes alfa y la aplicación de operaciones aleatorias de dropout, dilatación y erosión. Las imágenes de muestra de I-HIM50K se muestran en la Fig. 10.

\ El conjunto de datos M-HIM2K fue diseñado para probar la robustez del modelo contra calidades de máscara variables. Comprende diez máscaras por instancia, generadas usando varios modelos MaskRCNN. Más información sobre los modelos utilizados para este proceso de generación se muestra en la Tabla 8. Las máscaras fueron emparejadas con instancias basándose en el IoU más alto con los mattes alfa de referencia, asegurando un umbral mínimo de IoU del 70%. Las máscaras que no cumplieron este umbral fueron generadas artificialmente a partir de la referencia. Este proceso resultó en un conjunto completo de 134.240 máscaras, con 117.660 para imágenes compuestas y 16.600 para imágenes naturales, proporcionando un punto de referencia robusto para evaluar el matting de instancia guiado por máscara. El conjunto de datos completo I-HIM50K y M-HIM2K será publicado después de la aceptación de este trabajo.

\ Figura 10. Ejemplos del conjunto de datos I-HIM50K. (Se ve mejor a color).

\ Tabla 8. Diez modelos con calidad de máscara variable se usan en MHIM2K. Los modelos MaskRCNN son de detectron2 entrenados en COCO con diferentes configuraciones.

\

:::info Autores:

(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);

(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).

:::


:::info Este artículo está disponible en arxiv bajo licencia CC by 4.0 Deed (Atribución 4.0 Internacional).

:::

\

Oportunidad de mercado
Logo de Multichain
Precio de Multichain(MULTI)
$0.0392
$0.0392$0.0392
+2.26%
USD
Gráfico de precios en vivo de Multichain (MULTI)
Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.