TRELLIS.2 Portado para Apple Silicon: Imagem-3D em 3,5 Min

O Que É Isso

Uma versão portada do modelo TRELLIS.2 da Microsoft para conversão de imagem em 3D que roda nativamente no Apple Silicon via PyTorch MPS, substituindo dependências exclusivas do CUDA por alternativas em PyTorch puro.

Detalhes Principais

O TRELLIS.2 original requer CUDA com flash_attn, nvdiffrast e kernels de convolução esparsa personalizados que não funcionam no Mac. Esta versão portada substitui esses componentes por:

Uma implementação de convolução 3D esparsa do tipo gather-scatter (backends/conv_none.py)
Atenção SDPA para transformadores esparsos usando scaled_dot_product_attention do PyTorch
Extração de malha baseada em Python substituindo operações de hashmap do CUDA (backends/mesh_extract.py)

As alterações totais são de algumas centenas de linhas em 9 arquivos. Todas as chamadas .cuda() embutidas no código foram corrigidas para usar o dispositivo ativo em vez disso.

Desempenho e Requisitos

No M4 Pro (24 GB), gera malhas com cerca de 400 mil vértices a partir de fotos únicas em aproximadamente 3,5 minutos. O uso de memória atinge picos de cerca de 18 GB de memória unificada durante a geração.

Requisitos:

macOS no Apple Silicon (M1 ou posterior)
Python 3.11+
24 GB+ de memória unificada recomendado
~15 GB de espaço em disco para os pesos do modelo

Configuração e Uso

Início rápido:

git clone https://github.com/shivampkumar/trellis-mac.git
cd trellis-mac
hf auth login
bash setup.sh
source .venv/bin/activate
python generate.py caminho/para/imagem.png

Você precisa solicitar acesso aos modelos com acesso controlado no HuggingFace: facebook/dinov3-vitl16-pretrain-lvd1689m e briaai/RMBG-2.0.

Uso básico:

python generate.py foto.png
python generate.py foto.png --seed 123 --output meu_modelo --pipeline-type 512

Limitações

Não há exportação de texturas (as malhas são exportadas apenas com cores de vértice)
Preenchimento de buracos desativado (as malhas podem ter pequenos buracos)
Mais lento que o CUDA (~10x mais lento para convolução esparsa)
Apenas inferência, sem suporte a treinamento

Implementação Técnica

A convolução 3D esparsa constrói um hash espacial de voxels ativos, coleta características de vizinhos para cada posição do kernel, aplica pesos via multiplicação de matrizes e espalha-adiciona os resultados de volta. A extração de malha reimplementa flexible_dual_grid_to_mesh usando dicionários Python em vez de operações de hashmap do CUDA.

Benchmarks no M4 Pro (24 GB), tipo de pipeline 512: