ComfyUI Wan 2.1 GGUF로 AI 영상 생성하기 완벽 가이드

이미지를 동영상으로 변환하는 AI 기술이 급속도로 발전하고 있습니다. 그중에서도 Wan 2.1 모델은 저사양 PC에서도 고품질 영상을 생성할 수 있는 혁신적인 도구로 주목받고 있습니다. 특히 GGUF 양자화 모델을 사용하면 6GB VRAM만으로도 4K 영상 제작이 가능해졌습니다1. 이 글에서는 ComfyUI와 Wan 2.1 GGUF 모델을 활용한 이미지-비디오(img2vid) 변환 방법을 상세히 알아보겠습니다.

ComfyUI 설치 및 환경 구성

ComfyUI 설치하기

ComfyUI 다운로드: ComfyUI의 GitHub 저장소에서 최신 버전을 다운로드합니다.
압축 해제: 다운로드한 .zip 파일을 7-Zip 같은 프로그램으로 압축을 해제합니다.
실행하기: NVIDIA GPU 사용 시 run_nvidia_gpu.bat 파일을 더블 클릭하여 실행합니다.

필수 확장 프로그램 설치

ComfyUI를 최신 상태로 유지하는 것이 Wan 2.1 모델과의 호환성을 위해 매우 중요합니다 ComfyUI 매니저를 통해 필요한 확장 프로그램을 쉽게 설치할 수 있습니다:

ComfyUI 매니저 설치: https://github.com/ltdrdata/ComfyUI-Manager 에서 다운로드
필수 노드 설치
TeaCache 설치: https://github.com/welltop-cn/ComfyUI-TeaCache

Wan 2.1 GGUF 모델 설치

Wan 2.1은 480p 또는 720p 해상도의 비디오를 생성할 수 있는 오픈 소스 비디오 모델입니다 GGUF 양자화 모델을 사용하면 적은 VRAM으로도 효율적인 비디오 생성이 가능합니다.

필요한 모델 파일 다운로드

다음 파일들을 https://huggingface.co/calcuis/wan-gguf/tree/main 에서 다운로드합니다:

clip_vision_h_fp8_e4m3fn.safetensors
t5xxl_um_fp8_e4m3fn_scaled.safetensors
wan2.1-i2v-14b-480p-q4_0.gguf
wan_2.1_vae_fp8_e4m3fn.safetensors
4x_foolhardy_Remacri.pth

모델 파일 배치

다운로드한 파일들을 ComfyUI의 적절한 디렉토리에 배치해야 합니다

Diffusion Model (wan2.1-i2v-14b-480p-q4_0.gguf): ComfyUI/models/unet
CLIP (t5xxl_um_fp8_e4m3fn_scaled.safetensors): ComfyUI/models/clip
VAE (wan_2.1_vae_fp8_e4m3fn.safetensors): ComfyUI/models/vae
CLIP Vision (clip_vision_h_fp8_e4m3fn.safetensors): ComfyUI/models/clip_vision
4x_foolhardy_Remacri.pth: ComfyUI/models/upscale_models

Wan 2.1 워크플로우 설정 및 사용

워크플로우 불러오기

Wan 2.1 GGUF img2vid 워크플로우 JSON 파일을 다운로드합니다.
ComfyUI에 드래그 앤 드롭하여 워크플로우를 불러옵니다.
누락된 노드가 있다면 Manager > Install missing custom nodes를 클릭하여 설치합니다
ComfyUI를 재시작합니다.

이미지에서 비디오 생성하기

이미지 업로드: Load Image 노드를 통해 비디오의 첫 프레임으로 사용할 이미지를 업로드합니다.
프롬프트 설정:
- 긍정적 프롬프트: 생성하고자 하는 비디오를 설명합니다. 단순히 입력 이미지를 묘사하는 것이 아니라, 비디오의 후반부에서 어떤 동작이 일어날지 설명하는 것이 좋습니다4.
- 부정적 프롬프트: 기본 템플릿을 그대로 사용해도 됩니다.
비디오 생성: Queue 버튼을 클릭하여 워크플로우를 실행합니다.

해상도 및 최적화 설정

480p 비디오 생성

480p 비디오(640×480 픽셀)를 생성하려면:

Width: 848
Height: 480

이 설정은 저사양 PC에서도 원활하게 작동합니다.

GGUF 양자화 이해하기

GGUF 양자화 모델은 다양한 수준(Q4_0, Q5_K_M 등)으로 제공됩니다. 양자화 수준에 따라 비디오 품질과 생성 속도가 달라집니다:

낮은 양자화 레벨: 더 빠른 생성 속도, 상대적으로 낮은 품질
높은 양자화 레벨: 더 높은 품질, 더 많은 VRAM 요구

8GB VRAM 그래픽 카드에서는 480p 워크플로우가 원활하게 작동합니다.

Wan 2.1 GGUF 모델과 ComfyUI를 활용하면 저사양 PC에서도 고품질 AI 비디오를 생성할 수 있습니다. 이 가이드를 따라 설치하고 워크플로우를 설정하면, 이미지에서 비디오를 생성하는 강력한 도구를 손쉽게 사용할 수 있습니다.

프롬프트 엔지니어링과 모델 설정을 통해 더욱 창의적이고 품질 높은 비디오를 만들어보세요. Wan 2.1은 계속해서 발전하고 있으며, 앞으로 더 많은 기능과 개선된 품질을 제공할 것입니다.