블랙웰 GB10에서 CUDA 13.0으로 vLLM을 실행할 때 발생하는 aarch64 특정 장애 모드 네 가지

✍️ OpenClawRadar📅 게시일: March 22, 2026🔗 Source
블랙웰 GB10에서 CUDA 13.0으로 vLLM을 실행할 때 발생하는 aarch64 특정 장애 모드 네 가지
Ad

설정 및 환경

이 설정은 aarch64(sbsa-linux), Python 3.12, CUDA 13.0 및 vLLM v0.7.1을 사용하는 GB10 하드웨어를 사용합니다. 문제는 일일 재설정 테스트 환경에서 발생했으며 CUDA 13.0을 사용하는 aarch64에 특정됩니다.

실패 모드 1: aarch64용 cu121 휠이 존재하지 않음

--index-url .../cu121 프로토콜을 사용하면 다음이 반환됩니다: ERROR: Could not find a version that satisfies the requirement torch (from versions: none). cu121 인덱스에는 aarch64 바이너리가 없습니다. Blackwell aarch64의 올바른 인덱스는 cu130입니다.

sudo pip3 install --pre torch torchvision torchaudio \
--index-url https://download.pytorch.org/whl/nightly/cu130 \
--break-system-packages

실패 모드 2: ncclWaitSignal 정의되지 않은 기호

cu130 torch 설치 후, 가져오기가 실패합니다: ImportError: libtorch_cuda.so: undefined symbol: ncclWaitSignal. apt로 설치된 NCCL에는 이 기호가 없지만 pip로 설치된 nvidia-nccl-cu13에는 있습니다. 링커가 자동으로 찾지 못합니다.

해결 방법: 모든 Python 호출 전에 LD_PRELOAD를 통해 강제 적용:

export LD_PRELOAD=/usr/local/lib/python3.12/dist-packages/nvidia/nccl/lib/libnccl.so.2

실패 모드 3: vLLM CPU 확장 빌드 중 numa.h를 찾을 수 없음

오류: fatal error: numa.h: No such file or directory. vLLM의 CPU 확장에는 libnuma-dev가 필요하며, 이는 재설정된 시스템에 설치되지 않았습니다.

sudo apt-get install -y libnuma-dev
Ad

실패 모드 4: ABI 불일치 — MessageLogger 정의되지 않은 기호

전체 빌드를 완료한 후 vLLM을 시작하면 실패합니다: ImportError: vllm/_C.abi3.so: undefined symbol: _ZN3c1013MessageLoggerC1EPKciib.

nm으로 진단한 결과:

  • vLLM 바이너리가 예상한 내용(이전 서명): U _ZN3c1013MessageLoggerC1EPKciib ← (const char*, int, int, bool)
  • cu130 torch 라이브러리가 실제로 제공하는 내용(새 서명): T _ZN3c1013MessageLoggerC1ENS_14SourceLocationEib ← (SourceLocation, int, bool)

근본 원인: pip의 빌드 격리. pip install -e .을 실행할 때 pip는 격리된 빌드 환경을 생성하고 pyproject.toml 버전 제약 조건을 기반으로 별도의 이전 torch를 다운로드합니다. vLLM은 이전 헤더에 대해 컴파일되지만 런타임에는 새로운 cu130 torch가 발견되어 서명 불일치가 발생합니다.

해결 방법: 명시적 하위 프로세스 주입과 함께 --no-build-isolation 사용:

sudo -E env \
LD_PRELOAD="/usr/local/lib/python3.12/dist-packages/nvidia/nccl/lib/libnccl.so.2" \
LD_LIBRARY_PATH="/usr/local/lib/python3.12/dist-packages/torch/lib:..." \
MAX_JOBS=8 \
pip3 install -e . --no-deps --no-build-isolation --break-system-packages

중요한 세부 사항: sudo -E만으로는 작동하지 않습니다. pip의 하위 프로세스 체인이 LD_PRELOAD를 전달하지 않기 때문입니다. 하위 프로세스에 명시적으로 주입하려면 sudo -E env VAR=value pip3가 필요합니다.

설치 후 ABI 검증:

nm -D vllm/_C.abi3.so | grep MessageLogger
# 반드시 "SourceLocation"을 포함해야 함 — 여전히 "EPKciib"라고 표시되면 재설치

다중 에이전트 시스템을 위한 추가 참고 사항

vLLM을 다중 에이전트 시스템의 백엔드로 사용하는 경우 --served-model-name your-model-name을 추가하세요. 이 없으면 vLLM은 전체 파일 경로 아래에 모델을 제공하며 에이전트는 이름으로 쿼리할 때 404를 받습니다.

자동화 스크립트 및 systemd 서비스를 포함한 전체 v2 프로토콜은 github.com/trgysvc/AutonomousNativeForge → docs/BLACKWELL_SETUP_V2.md에서 확인할 수 있습니다. 이 저장소는 이 설정 위에서 실행되는 4-에이전트 자율 코딩 파이프라인인 ANF를 위한 것이지만, 설정 문서는 Blackwell/vLLM 수정만 필요한 경우 독립적으로 사용할 수 있습니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

Optimizing Qwen3.5-9B on RTX 3070 Mobile with ik_llama.cpp: Config Tweaks and Benchmarks
Guides

Optimizing Qwen3.5-9B on RTX 3070 Mobile with ik_llama.cpp: Config Tweaks and Benchmarks

A developer shares optimization findings for running Qwen3.5-9B Q4_K_M on an RTX 3070 Mobile 8GB GPU using ik_llama.cpp, achieving ~50 tokens/second generation speed and significant prompt evaluation improvements through configuration adjustments.

OpenClawRadar
Trellis 2가 AMD RX 9070 XT에서 ROCm 7.11로 성공적으로 실행 중입니다.
Guides

Trellis 2가 AMD RX 9070 XT에서 ROCm 7.11로 성공적으로 실행 중입니다.

한 개발자가 AMD RX 9070 XT GPU에서 ROCm 7.11을 사용해 Linux Mint 22.3에서 Trellis 2를 성공적으로 실행했습니다. 이는 AMD 하드웨어에서 Trellis 2를 실행하려 할 때 사용자들이 겪는 지오메트리 절단, 미리보기 실패 및 기타 오류 문제를 해결합니다.

OpenClawRadar
OpenClaw 작업 공간 구성: 두 달 사용 후 얻은 교훈
Guides

OpenClaw 작업 공간 구성: 두 달 사용 후 얻은 교훈

OpenClaw 개발자의 경험에 따르면 작업 공간 품질이 에이전트 성능에 5-10배 영향을 미치며, SOUL.md, AGENTS.md, MEMORY.md, USER.md 및 스킬 구성에 대한 구체적인 지침이 제공됩니다.

OpenClawRadar
Dev 채널을 통해 OpenClaw에서 GPT-5.4를 조기에 이용하는 방법
Guides

Dev 채널을 통해 OpenClaw에서 GPT-5.4를 조기에 이용하는 방법

OpenClaw 개발 채널은 현재 안정 버전 출시 전에 GPT-5.4에 접근할 수 있는 방법을 제공합니다. 사용자는 특정 명령어를 사용하여 게이트웨이를 개발 채널로 전환한 후 재시작해야 모델 목록에서 확인할 수 있습니다.

OpenClawRadar