TRELLIS.2 Image-to-3D Portado para Executar Nativamente em Apple Silicon

O Que É Isso
Uma versão portada do modelo TRELLIS.2 da Microsoft para conversão de imagem em 3D que roda nativamente no Apple Silicon via PyTorch MPS, substituindo dependências exclusivas do CUDA por alternativas em PyTorch puro.
Detalhes Principais
O TRELLIS.2 original requer CUDA com flash_attn, nvdiffrast e kernels de convolução esparsa personalizados que não funcionam no Mac. Esta versão portada substitui esses componentes por:
- Uma implementação de convolução 3D esparsa do tipo gather-scatter (backends/conv_none.py)
- Atenção SDPA para transformadores esparsos usando scaled_dot_product_attention do PyTorch
- Extração de malha baseada em Python substituindo operações de hashmap do CUDA (backends/mesh_extract.py)
As alterações totais são de algumas centenas de linhas em 9 arquivos. Todas as chamadas .cuda() embutidas no código foram corrigidas para usar o dispositivo ativo em vez disso.
Desempenho e Requisitos
No M4 Pro (24 GB), gera malhas com cerca de 400 mil vértices a partir de fotos únicas em aproximadamente 3,5 minutos. O uso de memória atinge picos de cerca de 18 GB de memória unificada durante a geração.
Requisitos:
- macOS no Apple Silicon (M1 ou posterior)
- Python 3.11+
- 24 GB+ de memória unificada recomendado
- ~15 GB de espaço em disco para os pesos do modelo
Configuração e Uso
Início rápido:
git clone https://github.com/shivampkumar/trellis-mac.git
cd trellis-mac
hf auth login
bash setup.sh
source .venv/bin/activate
python generate.py caminho/para/imagem.pngVocê precisa solicitar acesso aos modelos com acesso controlado no HuggingFace: facebook/dinov3-vitl16-pretrain-lvd1689m e briaai/RMBG-2.0.
Uso básico:
python generate.py foto.png
python generate.py foto.png --seed 123 --output meu_modelo --pipeline-type 512Limitações
- Não há exportação de texturas (as malhas são exportadas apenas com cores de vértice)
- Preenchimento de buracos desativado (as malhas podem ter pequenos buracos)
- Mais lento que o CUDA (~10x mais lento para convolução esparsa)
- Apenas inferência, sem suporte a treinamento
Implementação Técnica
A convolução 3D esparsa constrói um hash espacial de voxels ativos, coleta características de vizinhos para cada posição do kernel, aplica pesos via multiplicação de matrizes e espalha-adiciona os resultados de volta. A extração de malha reimplementa flexible_dual_grid_to_mesh usando dicionários Python em vez de operações de hashmap do CUDA.
Benchmarks no M4 Pro (24 GB), tipo de pipeline 512:
- Carregamento do modelo: ~45s
- Pré-processamento da imagem: ~5s
- Amostragem da estrutura esparsa: ~15s
- Amostragem Shape SLat: ~90s
- Amostragem Texture SLat: ~50s
- Decodificação da malha: ~30s
- Total: ~3,5 min
📖 Leia a fonte completa: HN LLM Tools
👀 See Also

TranscriptionSuite v1.1.2 adiciona os modelos WhisperX, NeMo e VibeVoice.
O TranscriptionSuite v1.1.2 agora oferece três pipelines de transcrição: WhisperX com diarização PyAnnote, modelos NeMo (Parakeet e Canary) com diarização PyAnnote e modelos VibeVoice com diarização integrada. A atualização inclui um gerenciador de modelos, processamento paralelo, controles de atalho e um pipeline de gravação de 24kHz para VibeVoice.

Interface Web de Código Aberto para Sessões Paralelas de Código Claude Usando Git Worktree
Um desenvolvedor criou uma interface web de código aberto chamada CCUI que permite executar múltiplas sessões do Claude Code em paralelo usando git worktree. Ela funciona como um servidor web local acessível via navegador e suporta encaminhamento de porta SSH para desenvolvimento remoto.

Specsmaxxing: Combatendo a Psicose de IA com Especificações YAML e ACAI
Acai.sh apresenta Specsmaxxing: um método para combater agentes de IA perdendo contexto ao escrever requisitos em YAML e usar Critérios de Aceitação numerados para IA (ACAI) que os agentes referenciam no código.

Redutor de Tokens: Um Plugin de Código Claude para Compressão Inteligente de Contexto
Token Reducer é um plugin do Claude Code que processa o contexto do repositório localmente para reduzir o uso de tokens em 90-98% usando segmentação baseada em AST, recuperação híbrida e compressão TextRank. É licenciado sob MIT e disponível através do marketplace de plugins.