TRELLIS.2 Image-to-3D Portado para Executar Nativamente em Apple Silicon

✍️ OpenClawRadar📅 Publicado: April 20, 2026🔗 Source
TRELLIS.2 Image-to-3D Portado para Executar Nativamente em Apple Silicon
Ad

O Que É Isso

Uma versão portada do modelo TRELLIS.2 da Microsoft para conversão de imagem em 3D que roda nativamente no Apple Silicon via PyTorch MPS, substituindo dependências exclusivas do CUDA por alternativas em PyTorch puro.

Detalhes Principais

O TRELLIS.2 original requer CUDA com flash_attn, nvdiffrast e kernels de convolução esparsa personalizados que não funcionam no Mac. Esta versão portada substitui esses componentes por:

  • Uma implementação de convolução 3D esparsa do tipo gather-scatter (backends/conv_none.py)
  • Atenção SDPA para transformadores esparsos usando scaled_dot_product_attention do PyTorch
  • Extração de malha baseada em Python substituindo operações de hashmap do CUDA (backends/mesh_extract.py)

As alterações totais são de algumas centenas de linhas em 9 arquivos. Todas as chamadas .cuda() embutidas no código foram corrigidas para usar o dispositivo ativo em vez disso.

Desempenho e Requisitos

No M4 Pro (24 GB), gera malhas com cerca de 400 mil vértices a partir de fotos únicas em aproximadamente 3,5 minutos. O uso de memória atinge picos de cerca de 18 GB de memória unificada durante a geração.

Requisitos:

  • macOS no Apple Silicon (M1 ou posterior)
  • Python 3.11+
  • 24 GB+ de memória unificada recomendado
  • ~15 GB de espaço em disco para os pesos do modelo
Ad

Configuração e Uso

Início rápido:

git clone https://github.com/shivampkumar/trellis-mac.git
cd trellis-mac
hf auth login
bash setup.sh
source .venv/bin/activate
python generate.py caminho/para/imagem.png

Você precisa solicitar acesso aos modelos com acesso controlado no HuggingFace: facebook/dinov3-vitl16-pretrain-lvd1689m e briaai/RMBG-2.0.

Uso básico:

python generate.py foto.png
python generate.py foto.png --seed 123 --output meu_modelo --pipeline-type 512

Limitações

  • Não há exportação de texturas (as malhas são exportadas apenas com cores de vértice)
  • Preenchimento de buracos desativado (as malhas podem ter pequenos buracos)
  • Mais lento que o CUDA (~10x mais lento para convolução esparsa)
  • Apenas inferência, sem suporte a treinamento

Implementação Técnica

A convolução 3D esparsa constrói um hash espacial de voxels ativos, coleta características de vizinhos para cada posição do kernel, aplica pesos via multiplicação de matrizes e espalha-adiciona os resultados de volta. A extração de malha reimplementa flexible_dual_grid_to_mesh usando dicionários Python em vez de operações de hashmap do CUDA.

Benchmarks no M4 Pro (24 GB), tipo de pipeline 512:

  • Carregamento do modelo: ~45s
  • Pré-processamento da imagem: ~5s
  • Amostragem da estrutura esparsa: ~15s
  • Amostragem Shape SLat: ~90s
  • Amostragem Texture SLat: ~50s
  • Decodificação da malha: ~30s
  • Total: ~3,5 min

📖 Leia a fonte completa: HN LLM Tools

Ad

👀 See Also

TranscriptionSuite v1.1.2 adiciona os modelos WhisperX, NeMo e VibeVoice.
Tools

TranscriptionSuite v1.1.2 adiciona os modelos WhisperX, NeMo e VibeVoice.

O TranscriptionSuite v1.1.2 agora oferece três pipelines de transcrição: WhisperX com diarização PyAnnote, modelos NeMo (Parakeet e Canary) com diarização PyAnnote e modelos VibeVoice com diarização integrada. A atualização inclui um gerenciador de modelos, processamento paralelo, controles de atalho e um pipeline de gravação de 24kHz para VibeVoice.

OpenClawRadar
Interface Web de Código Aberto para Sessões Paralelas de Código Claude Usando Git Worktree
Tools

Interface Web de Código Aberto para Sessões Paralelas de Código Claude Usando Git Worktree

Um desenvolvedor criou uma interface web de código aberto chamada CCUI que permite executar múltiplas sessões do Claude Code em paralelo usando git worktree. Ela funciona como um servidor web local acessível via navegador e suporta encaminhamento de porta SSH para desenvolvimento remoto.

OpenClawRadar
Specsmaxxing: Combatendo a Psicose de IA com Especificações YAML e ACAI
Tools

Specsmaxxing: Combatendo a Psicose de IA com Especificações YAML e ACAI

Acai.sh apresenta Specsmaxxing: um método para combater agentes de IA perdendo contexto ao escrever requisitos em YAML e usar Critérios de Aceitação numerados para IA (ACAI) que os agentes referenciam no código.

OpenClawRadar
Redutor de Tokens: Um Plugin de Código Claude para Compressão Inteligente de Contexto
Tools

Redutor de Tokens: Um Plugin de Código Claude para Compressão Inteligente de Contexto

Token Reducer é um plugin do Claude Code que processa o contexto do repositório localmente para reduzir o uso de tokens em 90-98% usando segmentação baseada em AST, recuperação híbrida e compressão TextRank. É licenciado sob MIT e disponível através do marketplace de plugins.

OpenClawRadar