TRELLIS.2 Image-to-3D Porté pour Fonctionner en Natif sur Apple Silicon

✍️ OpenClawRadar📅 Publié: April 20, 2026🔗 Source
TRELLIS.2 Image-to-3D Porté pour Fonctionner en Natif sur Apple Silicon
Ad

Ce que c'est

Une adaptation du modèle TRELLIS.2 de Microsoft, qui génère des modèles 3D à partir d'images, pour qu'il fonctionne nativement sur Apple Silicon via PyTorch MPS, en remplaçant les dépendances exclusives à CUDA par des alternatives purement PyTorch.

Détails clés

Le TRELLIS.2 original nécessite CUDA avec flash_attn, nvdiffrast et des noyaux de convolution clairsemée personnalisés qui ne fonctionnent pas sur Mac. Cette adaptation les remplace par :

  • Une implémentation de convolution 3D clairsemée par collecte-dispersion (backends/conv_none.py)
  • Une attention SDPA pour les transformateurs clairsemés utilisant scaled_dot_product_attention de PyTorch
  • Une extraction de maillage basée sur Python remplaçant les opérations de table de hachage CUDA (backends/mesh_extract.py)

Les modifications totales représentent quelques centaines de lignes réparties sur 9 fichiers. Tous les appels .cuda() codés en dur ont été corrigés pour utiliser l'appareil actif à la place.

Performances et exigences

Sur M4 Pro (24 Go), génère des maillages d'environ 400 000 sommets à partir de photos uniques en environ 3,5 minutes. L'utilisation de la mémoire culmine à environ 18 Go de mémoire unifiée pendant la génération.

Exigences :

  • macOS sur Apple Silicon (M1 ou ultérieur)
  • Python 3.11+
  • 24 Go+ de mémoire unifiée recommandés
  • ~15 Go d'espace disque pour les poids du modèle
Ad

Installation et utilisation

Démarrage rapide :

git clone https://github.com/shivampkumar/trellis-mac.git
cd trellis-mac
hf auth login
bash setup.sh
source .venv/bin/activate
python generate.py path/to/image.png

Vous devez demander l'accès aux modèles protégés sur HuggingFace : facebook/dinov3-vitl16-pretrain-lvd1689m et briaai/RMBG-2.0.

Utilisation de base :

python generate.py photo.png
python generate.py photo.png --seed 123 --output my_model --pipeline-type 512

Limitations

  • Aucune exportation de texture (les maillages s'exportent uniquement avec des couleurs de sommet)
  • Remplissage des trous désactivé (les maillages peuvent avoir de petits trous)
  • Plus lent que CUDA (~10 fois plus lent pour la convolution clairsemée)
  • Inférence uniquement, pas de support pour l'entraînement

Implémentation technique

La convolution 3D clairsemée construit une table de hachage spatiale des voxels actifs, collecte les caractéristiques des voisins pour chaque position du noyau, applique les poids via une multiplication matricielle et disperse-ajoute les résultats. L'extraction de maillage réimplémente flexible_dual_grid_to_mesh en utilisant des dictionnaires Python au lieu des opérations de table de hachage CUDA.

Benchmarks sur M4 Pro (24 Go), type de pipeline 512 :

  • Chargement du modèle : ~45 s
  • Prétraitement de l'image : ~5 s
  • Échantillonnage de la structure clairsemée : ~15 s
  • Échantillonnage SLat de la forme : ~90 s
  • Échantillonnage SLat de la texture : ~50 s
  • Décodage du maillage : ~30 s
  • Total : ~3,5 min

📖 Lire la source complète : HN LLM Tools

Ad

👀 See Also

Auto Router vs Sonnet : Économies de coût vs Qualité de réponse
Tools

Auto Router vs Sonnet : Économies de coût vs Qualité de réponse

La fonctionnalité Auto Router d'Open Router sélectionne dynamiquement des LLM en fonction de la complexité du contexte, offrant des économies de coût significatives (0,8 centime contre 0,00071 centime par requête), mais les utilisateurs signalent une dégradation de la qualité des réponses par rapport à Sonnet 4.6.

OpenClawRadar
Phaselock : Un système de contrôle d'agent IA inspiré des techniques parentales
Tools

Phaselock : Un système de contrôle d'agent IA inspiré des techniques parentales

Phaselock est une compétence d'agent open-source qui implémente quatre mécanismes de contrôle pour les agents d'IA de codage : des portes explicites avant l'action, un retour immédiat sur les erreurs, des choix contraints et l'application mécanique de règles. Il fonctionne avec Claude Code, Cursor, Windsurf et tout outil prenant en charge les hooks.

OpenClawRadar
L'application de bureau Claude permet la collaboration entre IA via des documents Google partagés
Tools

L'application de bureau Claude permet la collaboration entre IA via des documents Google partagés

Les utilisateurs ont réussi à mettre en place une communication de Claude à Claude en utilisant la nouvelle fonction de collaboration dans l'application de bureau, avec deux agents lisant et écrivant dans un Google Doc partagé. Le test a impliqué cinq tours de dialogue questions-réponses entre les agents d'IA.

OpenClawRadar
Best-Backup : Un outil gratuit pour les sauvegardes de serveur OpenClaw et de conteneurs Docker
Tools

Best-Backup : Un outil gratuit pour les sauvegardes de serveur OpenClaw et de conteneurs Docker

L'outil gratuit best-backup offre des capacités de sauvegarde robustes pour les serveurs OpenClaw, incluant des sauvegardes complètes du serveur, des sauvegardes de dossiers spécifiques et des sauvegardes de conteneurs Docker, avec des fonctionnalités comme la compression, le chiffrement utilisant les clés SSH existantes et l'intégration avec Google Drive.

OpenClawRadar