
Jika Anda ingin terjun langsung dalam pembuatan gambar dan video bertenaga AI tanpa kehilangan kendali, Anda datang ke tempat yang tepat: ComfyUI adalah antarmuka berbasis node yang memungkinkan Anda membangun alur kerja Anda sendiri seperti batu bata LEGO. Dalam panduan ini Anda akan belajar, dari awal dan secara detail, cara mengatur alur kerja efek visual (VFX) di ComfyUI, baik untuk gambar maupun video, tanpa melewatkan hal penting apa pun.
Selain dasar-dasarnya, kita akan melihat alur teks ke gambar, alur gambar ke gambar, inpainting, outpainting, penskalaan, ControlNet, SDXL, LoRA, dan penyematan. Kami akan melakukan lompatan ke video dengan AnimateDiff, HunyuanVideo, LTX Video dan Wan 2.1Ini mencakup persyaratan, instalasi, parameter utama, dan tips produktivitas dengan pintasan dan pengelola node. Kami juga akan membahas opsi cloud jika Anda ingin menghindari instalasi yang rumit.
Apa itu ComfyUI dan mengapa ideal untuk VFX?
ComfyUI adalah GUI berbasis node untuk Difusi Stabil yang memungkinkan Anda melihat dan memodifikasi aliran data dari awal hingga akhir. Setiap node melakukan tugas tertentu (memuat model, mengkodekan teks, pengambilan sampel, mendekode VAE, dll.) dan terhubung dengan kabel yang mewakili input dan output. Filosofi ini sempurna untuk VFX: Anda tahu persis di mana sinyal masuk, di mana ia ditransformasikan, dan bagaimana memengaruhi hasilnya.
Dibandingkan dengan antarmuka monolitik, ComfyUI menonjol karena transparansi dan fleksibilitasnya. Biaya kebebasan itu adalah kurva pembelajaran yang lebih curam dan beberapa gangguan visual. (setiap alur kerja dapat ditata secara berbeda), tetapi hasilnya adalah kemampuan untuk membuat prototipe dengan cepat, melakukan debug secara akurat, dan berbagi alur kerja dengan cara yang dapat direproduksi.
ComfyUI vs. AUTOMATIC1111
Banyak pengguna datang dari AUTOMATIC1111, klasik untuk Difusi Stabil. ComfyUI mendapatkan peningkatan dalam hal ringan, transparansi, dan kemampuan pembuatan prototipeA1111 terasa lebih seragam dan lugas, tetapi kurang detail. Jika Anda ingin memahami cara kerja internal dan memaksimalkan VFX, ComfyUI adalah pilihan yang tepat.
Langkah pertama dan kontrol dasar
Berinteraksi dengan kanvas itu mudah: perbesar dengan gerakan roda atau cubit, seret untuk memindahkan, dan buat koneksi dengan menyeret dari keluaran satu simpul ke masukan simpul lainnya. Anda akan melihat blok (node) seperti Load Checkpoint, CLIP Text Encode, KSampler atau VAE, dan kabel yang mewakili jalur data.
Teks ke gambar: aliran dasar dan simpul penting
Alur kerja standar meliputi pemuatan titik pemeriksaan, pengkodean perintah, pengambilan sampel dalam laten, dan pengodean ke piksel. Inilah kerangka yang menjadi dasar hampir semua hal di ComfyUI dibangun..
Pemilihan model dengan Load Checkpoint
Node Load Checkpoint mengirimkan tiga bagian: MODEL (jaringan prediksi derau), CLIP (pengode teks), dan VAE (untuk berpindah dari piksel ke laten dan sebaliknya). MODEL memberi makan KSampler, CLIP menuju ke node teks, dan VAE digunakan untuk mendekode hasil akhir.Tanpa pos pemeriksaan tidak ada permainan, jadi pilihlah yang kompatibel dengan alur kerja Anda.
Prompt positif dan negatif dengan CLIP Text Encode
Gunakan dua node CLIP Text Encode: yang atas untuk positif dan yang bawah untuk negatif. Teks diubah menjadi embedding beresolusi tinggi yang memandu penyebaranAnda dapat memberi bobot pada kata dengan sintaksis (term:1.2) untuk memberikan bobot lebih atau kurang pada konsep.
Pembuatan dan parameter KSampler
Pengambilan sampel akan dimulai saat Anda memasukkannya dalam antrean (Prompt Antrean). KSampler mengontrol benih, langkah, sampler, penjadwal, dan kekuatan denoiseBenih yang tetap memberikan reproduktifitas; langkah yang lebih banyak biasanya meningkatkan detail (dengan mengorbankan waktu); denoise=1 dalam text2img menerapkan proses penghilangan noise secara penuh.
Gambar Laten Kosong: resolusi dan batch
Node Gambar Laten Kosong menciptakan kanvas laten awal. Tinggi dan lebar harus kelipatan 8Ukuran tipikal: 512/768 untuk SD 1.5 dan 1024 untuk SDXL. Sesuaikan ukuran batch jika Anda ingin beberapa gambar sekaligus.
VAE: kompresi dan rekonstruksi
VAE mengodekan dan mendekode antara piksel dan laten. Ia memberikan efisiensi dan ruang laten yang dapat dimanipulasi, sebagai ganti sejumlah kerugian atau artefak.Dalam text2img, Anda akan menggunakannya terutama di akhir (VAE Decode) untuk mendapatkan gambar dalam piksel.
Gambar ke gambar, SDXL dan inpainting/outpainting
Gambar demi gambar
Alur kerja ini menggabungkan perintah dan gambar dasar. Pilih titik pemeriksaan, muat gambar, tinjau perintah, dan sesuaikan denoise di KSampler untuk memutuskan seberapa jauh Anda menyimpang dari aslinya (kurang denoise = lebih mirip sumbernya).
SDXL di ComfyUI
ComfyUI mendukung SDXL lebih awal dan efisien berkat modularitasnya. Siapkan prompt positif/negatif dan luncurkan proses dengan sampler yang sesuai; ingat resolusi laten yang optimal (biasanya 1024).
Lukisan
Untuk memodifikasi area tertentu, muat gambar, buka editor masker, dan simpan masker ke node. Alur kerja ini menggunakan model standar; jika Anda menggunakan titik pemeriksaan "inpainting", gunakan VAE Encode (Inpaint). Alih-alih node VAE Encode dan Set Noise Latent Mask standar, ia menetapkan perintah untuk mendeskripsikan perubahan dan kekuatan denoise umum seperti 0.6.
Pengecatan
Perluas batas gambar dengan Pad Image untuk Outpainting: kendalikan kiri/atas/kanan/bawah dan bulu untuk transisi yang halus. Dalam VAE Encode (untuk Inpainting) sesuaikan grow_mask_by (lebih baik >10) untuk mendapatkan tambalan yang lebih alami dan terintegrasi dengan baik.
Skala: piksel vs laten
Peningkatan piksel
Dua cara: dengan algoritma (bicubic, bilinear, nearest-exact) dengan Upscale Image by, atau dengan model dengan Load Upscale Model + Upscale Image (menggunakan Model). Algoritma cepat tetapi kurang halus; model membutuhkan waktu lebih lama dan biasanya menawarkan detail yang lebih baikdan Anda dapat menggabungkan jalan-jalan dengan paket 50 efek untuk After Effects.
Peningkatan laten
Yang disebut Hi-Res Latent Fix berskala langsung dalam ruang laten, memperkaya detail selama rekonstruksi. Ini mungkin sedikit menyimpang dari aslinya dan lebih lambat, tetapi menambahkan informasi alih-alih sekadar meregangkan piksel.
Perbandingan cepat
Peningkatan skala piksel: cepat, tanpa menambahkan informasi baru, dan memungkinkan penghalusan. Peningkatan skala laten: lebih lambat, Ini menambahkan detail tetapi dapat mengubah gambar dasar.Pilih berdasarkan konteks dan kesetiaan yang dibutuhkan.
ControlNet: kontrol halus struktur
ControlNet menyediakan pedoman seperti batas, pose, kedalaman, atau segmentasi untuk memastikan model mematuhi struktur. Ini adalah alat yang sangat hebat untuk VFX karena secara konsisten memperbaiki komposisi dan gerakan.Cobalah Lineart, Depth, atau OpenPose dan sesuaikan kekuatan untuk menyeimbangkan kesetiaan/kreativitas.
Administrator ComfyUI: Node Kustom Terkini
Instal node yang hilang
Jika alur kerja meminta node yang tidak Anda miliki, gunakan tombol Manajer: Manajer, "Instal node kustom yang hilang", mulai ulang ComfyUI dan muat ulang browser. Ini memastikan Anda mereplikasi alur bersama secara tepat..
Perbarui node
Dari Manajer, periksa pembaruan dan klik "Instal node khusus". Jika "Perbarui" muncul di samping paket, terapkan, mulai ulang, dan segarkan. Menjaga node tetap terkini mencegah kesalahan dan meningkatkan fungsionalitas.
Cari node di kanvas
Klik dua kali pada kanvas kosong untuk membuka pencari simpul dan menambahkannya berdasarkan nama. Ini mempercepat perakitan rantai yang rumit. tanpa menelusuri menu.
Penanaman (inversi teks)
Untuk mengaktifkan penyematan, ketikkan embedding:Name pada prompt positif atau negatif. Tempatkan file di ComfyUI/models/embeddings ComfyUI akan menerapkannya jika menemukan kecocokan. Ini cara ampuh untuk menggabungkan gaya atau konsep tertentu.
Menanamkan pelengkapan otomatis
Instal paket ComfyUI-Custom-Scripts untuk pelengkapan otomatis. Setelah aktif, mulai ketik “embedding:” akan menampilkan embed yang tersediamempercepat pekerjaan dengan koleksi besar.
Menanamkan bobot
Anda dapat memberi bobot seperti halnya kata-kata: (embedding:Name:1.2) meningkatkan pengaruh dan (embedding:Name:0.8) menguranginya. Menyesuaikan bobot memberi Anda kendali yang baik atas dampak visual.
LoRA: menyesuaikan gaya tanpa menyentuh VAE
LoRA memodifikasi MODEL dan CLIP dari titik pemeriksaan dasar untuk memperkenalkan gaya, karakter, atau objek, dengan membiarkan VAE tetap utuh. Alur dasar: pilih titik pemeriksaan, tambahkan satu atau lebih LoRA, tinjau perintah, dan luncurkan antrean.
Beberapa LoRA yang berjenjang
Anda dapat menerapkan beberapa LoRA dalam alur yang sama; semuanya digabungkan secara berurutan. Bereksperimen dengan urutan dan bobot untuk mencampur gaya secara kreatif sampai keseimbangan yang diinginkan tercapai.
Pintasan dan trik yang menghemat waktu berjam-jam
Salin/tempel: Ctrl+C, Ctrl+V dan Ctrl+Shift+V untuk menempel sambil menyimpan entri. Pilih beberapa node dengan Ctrl, buat kotak pilihan, dan pindahkan dengan Shift untuk tata letak cepat.
Menonaktifkan node dengan Ctrl+M akan menghilangkannya sementara; meminimalkan node dengan menekan titik di sudut kiri atasnya untuk membersihkan kanvas dalam proyek besar.
Antrean pembangkitan: Ctrl+Enter. ComfyUI mengeksekusi ulang node hanya jika input berubah; memperbaiki benih untuk menghindari perhitungan ulang rantai panjang dan menghemat waktu.
Alur tertanam PNG: Seret gambar yang dihasilkan ke ComfyUI untuk mengambil alur kerja dari metadatanya. Ini adalah cara yang sangat baik untuk berbagi dan membuat versi pipeline tanpa kehilangan bagian. Jika Anda belajar lebih baik dengan video, lihat 10 tutorial video yang inovatif.
ComfyUI untuk video: AnimateDiff langkah demi langkah
AnimateDiff memungkinkan Anda menghasilkan urutan dari teks, gambar, atau video. Untuk Windows dengan NVIDIA, VRAM 10 GB adalah optimal (minimal 8 GB dengan resolusi lebih rendah atau Txt2Vid); dalam proyek yang menuntut Anda dapat mengharapkan sekitar 10 GB dengan 2 ControlNet.
Instalasi dan dependensi
Instal Git untuk mengkloning node dan 7-Zip untuk mengekstrak ComfyUI portabel. FFmpeg bersifat opsional (untuk mengemas GIF/MP4 dari node penggabung)Jika tidak ada di PATH, aliran akan terus menghasilkan frame yang longgar.
Unduh ComfyUI portabel dan jalankan run_nvidia_gpu pertama kali untuk inisialisasi. Di folder node kustom, klon ComfyUI-AnimateDiff-Evolved, ComfyUI-Manager, ComfyUI-Advanced-ControlNet dan ComfyUI-VideoHelperSuite.
Dari Manajer, instal “ControlNet Auxiliary Preprocessors” dan “FizzNodes”. Mulai ulang ComfyUI untuk memuat semuanya dengan benar dan menghindari kesalahan impor.
Model yang dibutuhkan
Tempatkan titik pemeriksaan SD 1.5 yang kompatibel dalam folder yang sesuai dan VAE generalis jika diperlukan. Unduh modul gerak (misalnya, yang asli dari AnimateDiff, TemporalDiff, atau AD Stabilized Motion) dan salin ke jalur Anda. Untuk ControlNet, tambahkan Lineart, Depth, dan OpenPose (pth/yaml).
Alur kerja utama: Vid2Vid dan Txt2Vid
Vid2Vid: memuat direktori bingkai dengan simpul masukan gambar/video, mengontrol image_load_cap, skip_first_images dan select_every_nth untuk durasi dan pengambilan sampel. Opsi Konteks Seragam sangat penting: panjang konteks ~16, tumpang tindih untuk kontinuitas, dan loop tertutup hanya untuk Txt2Vid.
Txt2Vid: menggunakan simpul bingkai utama (tanpa pemuat gambar) dan dibuat langsung dari prompt. Dengan Denoise=1 di KSampler Anda akan mendapatkan efek generatif penuh, ideal untuk klip imajinatif.
Penjadwalan perintah batch
BatchPromptSchedule dari FizzNodes memungkinkan Anda memvariasikan prompt per frame. FizzNodes menggunakan pre_text dan app_text untuk header dan closure umum, serta mendefinisikan pasangan "frame: prompt". Hati-hati dengan koma terakhir di elemen terakhir, itu akan menyebabkan kesalahan; menduplikasi instruksi jika Anda ingin menyimpannya di antara interval.
Pengaturan pengambilan sampel dan penggabungan
KSampler untuk video memerlukan lebih banyak langkah (minimal 25 dan lebih baik jika ditingkatkan). Cobalah sampler Euler_a dan sesuaikan CFG sesuai keinginan Anda.Di Vid2Vid, turunkan denoise agar lebih dekat dengan klip sumber. Node Combine mengekspor GIF/MP4: tentukan frame_rate, loop_count, format, dan apakah Anda ingin melakukan ping-pong.
Tips praktis: turunkan kekuatan ControlNet untuk gambar diam, coba OpenPose, gunakan KSampler kedua untuk koreksi "hires". Coba Motion LoRA untuk memperkaya gerakan tertentu dan menggabungkan ControlNets secara hemat.
Mesin video lain di ComfyUI
HunyuanVideo (img2vid dipandu oleh subtitle)
Siapkan gambar Anda pada resolusi 512x512 dan buat subtitel dengan Florence2Run. Ganti istilah seperti “gambar/foto/ilustrasi” dengan “video” menggunakan StringReplace Untuk menyelaraskan dengan pelatihan model. Konversi ke ruang laten menggunakan HunyuanVideo Sampler + wrapper, terapkan Lora Select, dan ekspor dengan penggabung.
Video LTX (jalur node LTX)
Instal node dan model ComfyUI-LTXVideo (termasuk encoder PixArt-XL). Tulis prompt di CLIP, buat video laten dengan EmptyLTXVLatentVideo dan sesuaikan LTXVSchedulerJumlah langkah meningkatkan kualitas, dan parameter seperti max_shift, base_shift, stretch, dan terminal membentuk dinamika klip. Simpan dengan SaveAnimatedWEBP (lossless true, kualitas 100) atau ekspor ke format lain.
Wan 2.1 (teks ke video, gambar ke video, video ke video)
ComfyUI juga mengintegrasikan alur untuk Wan 2.1. Penggunaannya termasuk Txt2Vid, Img2Vid dan Vid2Vid, dengan kontrol parameter yang mirip dengan jaringan pipa sebelumnya dan keuntungan dalam konsistensi temporal tergantung pada kasus penggunaan.
Grafik gerak: segmentasi, kedalaman, dan pencampuran
Untuk animasi grafik gerak dari video, mulailah dengan LoadVideoInput, kendalikan Skip First Frames dan Select Every Nth Frame, dan skalakan dengan ImageScaleToMegapixels hingga ~1MP. Praproses ini menyesuaikan beban VRAM dan kecepatan operasi di generasi ini. Anda juga dapat memeriksa bagaimana Membuat judul di Premiere untuk mengintegrasikan grafik dan kredit.
Segmentasikan subjek menggunakan GroundingDINO dan SAM dengan GroundingDinoSAMSegment dari teks. Perbesar topeng dengan GrowMaskWithBlur dan ubah menjadi gambar dengan MaskToImage untuk garis besar yang lebih kuat.
Buat sinyal waktu dengan TimeFeatureNode dan modulasi dengan FeatureScaler (linier, logaritmik, eksponensial). Ini akan memungkinkan Anda untuk mengontrol perpindahan kedalaman (Z) atau posisi topeng di sepanjang klip untuk efek yang lebih sinematik.
Hasilkan masker pengecatan ulang yang bergantung pada kedalaman dengan FlexMaskDepthChamber, yang menggabungkan masker subjek, sinyal waktu, dan peta kedalaman klip. Sesuaikan Z Depan/Z Belakang untuk menentukan zona aktif pada waktu tertentu. dan mencapai efek 3D yang meyakinkan.
Pada fase generatif, muat titik pemeriksaan, terapkan LoRA, konfigurasikan perintah, dan tambahkan ControlNet jika sesuai. AnimateDiff akan memberi Anda bingkai; lalu interpolasi dengan RIFE VFI untuk menggandakan kehalusan dan transisi yang mulus.
Jika Anda ingin mencampur lintasan: buat beberapa versi dengan indikasi berbeda, pilih segmen dengan ImageIntervalSelectPercentage, campurkan transisi dengan ImageBlend dan gabungkan dengan ImageBatchMulti. Sebuah lintasan terakhir melalui RIFE VFI membuat animasinya halus dan lembut dan siap untuk diekspor.
Alternatif ComfyUI online dan cloud

Jika Anda tidak ingin menginstal apa pun, tersedia layanan cloud dengan ComfyUI yang telah dikonfigurasikan sebelumnya, dengan ratusan node/model dan lusinan alur kerja siap pakai. Mereka berguna untuk pengujian cepat atau untuk tim yang berbagi templat tanpa harus berurusan dengan agen lokal. Sebagai alternatif yang cepat dan mudah, ada juga sumber daya di animasi dan efek visual di CapCut.
Pilihan lainnya adalah menggunakan generator video berbasis cloud seperti Dreamina: antarmuka sederhana, tidak ada VRAM lokal, dan hasil dalam 20–60 detik. Menawarkan fitur tambahan seperti peningkatan HD, interpolasi bingkai, dan pembuatan soundtrack.Dengan kredit harian gratis untuk memulai, ini adalah alternatif yang efisien ketika kecepatan lebih penting daripada kontrol terperinci.
Kinerja, persyaratan dan waktu
Secara lokal, ComfyUI untuk gambar ke video biasanya memerlukan antara 8 dan 24 GB VRAM tergantung pada model (AnimateDiff, HunyuanVideo, LTX Video) dan resolusinya. Bahkan pada GPU yang kuat, satu generasi dapat memakan waktu 10–30 menit Jika klipnya panjang atau jika Anda menggunakan beberapa ControlNet dan filter high-pass, beban dialihkan ke penyedia di cloud.
Perangkat lunak ComfyUI gratis, tetapi biayanya ada pada perangkat keras dan listrik jika Anda bekerja dalam jangka waktu lama. Cloud menghindari biaya itu, sebagai gantinya ketergantungan pada layanan dan biaya atau kredit.Evaluasi apa yang paling menguntungkan alur kerja Anda.
Pemecahan masalah umum
Jika Anda melihat kesalahan null atau node yang "tidak ada", kemungkinan ada model yang hilang di folder Anda atau dependensi yang terhapus. Verifikasi bahwa setiap node memiliki model terkait dan gunakan Manajer untuk menginstal paket yang hilang.Hindari repositori yang berkonflik jika Anda sudah menggunakan ComfyUI untuk tugas lain.
Praktik terbaik untuk VFX yang konsisten
Kunci benih untuk reproduktifitas saat Anda menyesuaikan bagian rantai. Simpan gambar dengan metadata alur kerja dan beri anotasi pada versi node dan modelDalam video, tentukan panjang konteks dan tumpang tindih dengan hati-hati, dan pertahankan urutan ControlNet dan LoRA yang jelas.
Beralih secara taktis antara piksel tingkat atas dan laten tergantung pada jenis bidikan dan tingkat detail. Di Vid2Vid, kurangi denoise untuk menghormati pergerakan dasar.Dalam Txt2Vid, dorong langkah dan sampler untuk mendapatkan stabilitas visual.
Integrasikan praprosesor ControlNet (canny, depth, openpose…) dari Manajer untuk memperluas kotak peralatan Anda. Dan ingat: kekuatan ControlNet yang lebih rendah sering kali berkinerja lebih baik dalam video.menghindari tampilan yang disaring dan mempertahankan tampilan yang alami.
Pastikan untuk menjelajahi HunyuanVideo dan LTX Video jika kasus Anda memerlukan panduan subtitle, kontrol dinamika waktu yang berbeda, atau jalur pipa alternatif. Wan 2.1 juga menambahkan opsi solid untuk Txt2Vid, Img2Vid, dan Vid2Vid dengan parameter yang konsisten dan hasil yang kompetitif.
Mereka yang mencari kecepatan dan tanpa hambatan dapat mengandalkan layanan daring, sementara mereka yang membutuhkan kontrol bedah dan reproduktifitas total akan bersinar dengan ComfyUI lokal. Dengan bagian-bagian yang telah Anda lihat—simpul, parameter, pintasan, dan alur—Anda sekarang memiliki peta jalan untuk menghasilkan VFX tingkat atas. baik dalam gambar diam maupun rangkaian video, dengan cara yang fleksibel dan dapat diskalakan.




