Apple Silicon에서 TRELLIS.2 네이티브 실행: PyTorch MPS 포팅 완료

이것이 무엇인가요

Microsoft의 TRELLIS.2 이미지-3D 모델을 PyTorch MPS를 통해 Apple Silicon에서 네이티브로 실행되도록 포팅한 버전으로, CUDA 전용 의존성을 순수 PyTorch 대안으로 대체했습니다.

주요 세부사항

원본 TRELLIS.2는 Mac에서 작동하지 않는 flash_attn, nvdiffrast 및 맞춤형 희소 컨볼루션 커널을 포함한 CUDA가 필요합니다. 이 포트는 다음으로 대체합니다:

수집-분산 희소 3D 컨볼루션 구현 (backends/conv_none.py)
PyTorch의 scaled_dot_product_attention을 사용한 희소 트랜스포머용 SDPA 어텐션
CUDA 해시맵 연산 대신 Python 기반 메시 추출 (backends/mesh_extract.py)

총 변경 사항은 9개 파일에 걸쳐 수백 줄입니다. 모든 하드코딩된 .cuda() 호출은 활성 장치를 사용하도록 패치되었습니다.

성능 및 요구사항

M4 Pro(24GB)에서 단일 사진으로 약 40만 개 정점 메시를 약 3.5분 만에 생성합니다. 생성 중 메모리 사용량은 통합 메모리 약 18GB까지 최고치에 도달합니다.

요구사항:

Apple Silicon의 macOS (M1 이상)
Python 3.11 이상
24GB 이상 통합 메모리 권장
모델 가중치용 약 15GB 디스크 공간

설정 및 사용법

빠른 시작:

git clone https://github.com/shivampkumar/trellis-mac.git
cd trellis-mac
hf auth login
bash setup.sh
source .venv/bin/activate
python generate.py path/to/image.png

HuggingFace의 gated 모델에 대한 액세스를 요청해야 합니다: facebook/dinov3-vitl16-pretrain-lvd1689m 및 briaai/RMBG-2.0.

기본 사용법:

python generate.py photo.png
python generate.py photo.png --seed 123 --output my_model --pipeline-type 512

제한사항

텍스처 내보내기 없음 (메시는 정점 색상만으로 내보내짐)
구멍 채우기 비활성화 (메시에 작은 구멍이 있을 수 있음)
CUDA보다 느림 (희소 컨볼루션의 경우 약 10배 느림)
추론 전용, 학습 지원 없음

기술 구현

희소 3D 컨볼루션은 활성 복셀의 공간 해시를 구축하고, 각 커널 위치에 대한 이웃 특징을 수집하며, 행렬 곱셈을 통해 가중치를 적용하고, 결과를 다시 분산-추가합니다. 메시 추출은 CUDA 해시맵 연산 대신 Python 딕셔너리를 사용하여 flexible_dual_grid_to_mesh를 재구현합니다.

M4 Pro(24GB), 파이프라인 유형 512 기준 벤치마크: