TRELLIS.2 4B: Imagen a 3D Nativo en Apple Silicon

Qué es esto

Una adaptación del modelo de imagen a 3D TRELLIS.2 de Microsoft que se ejecuta de forma nativa en Apple Silicon a través de PyTorch MPS, reemplazando las dependencias exclusivas de CUDA con alternativas puras de PyTorch.

Detalles clave

El TRELLIS.2 original requiere CUDA con flash_attn, nvdiffrast y núcleos de convolución dispersa personalizados que no funcionan en Mac. Esta adaptación los reemplaza con:

Una implementación de convolución 3D dispersa de recopilación-dispersión (backends/conv_none.py)
Atención SDPA para transformadores dispersos usando scaled_dot_product_attention de PyTorch
Extracción de mallas basada en Python reemplazando operaciones de mapa hash de CUDA (backends/mesh_extract.py)

Los cambios totales son unos cientos de líneas en 9 archivos. Todas las llamadas .cuda() codificadas se parchearon para usar el dispositivo activo en su lugar.

Rendimiento y requisitos

En M4 Pro (24GB), genera mallas de ~400K vértices a partir de fotos individuales en aproximadamente 3.5 minutos. El uso de memoria alcanza un máximo de alrededor de 18GB de memoria unificada durante la generación.

Requisitos:

macOS en Apple Silicon (M1 o posterior)
Python 3.11+
24GB+ de memoria unificada recomendada
~15GB de espacio en disco para los pesos del modelo

Configuración y uso

Inicio rápido:

git clone https://github.com/shivampkumar/trellis-mac.git
cd trellis-mac
hf auth login
bash setup.sh
source .venv/bin/activate
python generate.py path/to/image.png

Necesitas solicitar acceso a los modelos con acceso restringido en HuggingFace: facebook/dinov3-vitl16-pretrain-lvd1689m y briaai/RMBG-2.0.

Uso básico:

python generate.py photo.png
python generate.py photo.png --seed 123 --output my_model --pipeline-type 512

Limitaciones

Sin exportación de texturas (las mallas se exportan solo con colores de vértice)
Relleno de agujeros desactivado (las mallas pueden tener pequeños agujeros)
Más lento que CUDA (~10x más lento para convolución dispersa)
Solo inferencia, sin soporte para entrenamiento

Implementación técnica

La convolución 3D dispersa construye un hash espacial de vóxeles activos, recopila características vecinas para cada posición del núcleo, aplica pesos mediante multiplicación de matrices y dispersa-suma los resultados nuevamente. La extracción de mallas reimplementa flexible_dual_grid_to_mesh usando diccionarios de Python en lugar de operaciones de mapa hash de CUDA.

Puntos de referencia en M4 Pro (24GB), tipo de pipeline 512: