AI RACE— Cuộc đua AI
Hướng dẫn

Phối hợp Midjourney + Runway + ElevenLabs: Pipeline làm video chuyên nghiệp

Hướng dẫn kỹ thuật từng bước xây dựng workflow video AI từ script đến sản phẩm, kết hợp Midjourney (visual concept), Runway Gen-3/4.5 (video generation), và ElevenLabs (voice cloning & TTS). Phù hợp cho video quảng cáo, content marketing, demo sản phẩm.

21:09 03/07/2026
Hướng dẫn

Tổng quan Pipeline

Workflow chuyên nghiệp để tạo video AI gồm 5 giai đoạn: (1) Viết script & concept, (2) Tạo visual reference bằng Midjourney, (3) Sinh video từ Runway Gen-3/Gen-4.5, (4) Ghi âm giọng nói ElevenLabs, (5) Sync & finalize. Toàn bộ quy trình có thể hoàn thành trong 1-2 ngày mà không cần kỹ năng filmmaking truyền thống.

Bước 1: Viết script & concept art direction

Bắt đầu bằng script ngắn (30-60 giây) mô tả cảnh quay, hành động, cảm xúc. Ví dụ: "Một chiếc smartwatch bề mặt bóng mướt, quay chậm dưới ánh sáng xanh lạnh, hiển thị hình tim đang nhịp đều, chuyển sang màn hình thể dục". Tầng script này sẽ feed vào Midjourney (visual) và ElevenLabs (narration).

Ghi chú cụ thể về style: "cinematic", "futuristic", "warm lighting", "shallow depth of field" — các từ này quyết định chất lượng output cuối.

Bước 2: Tạo visual reference bằng Midjourney

Dùng Midjourney (v6 trở lên) để sinh 3-5 ảnh concept từ script. Prompt mẫu:

`` /imagine a luxury smartwatch product shot, cinematic lighting, 35mm lens, shallow DOF, modern minimalist, studio lighting, professional photography, high detail --ar 16:9 --quality 2 ``

Tải 2-3 ảnh đẹp nhất làm "Image to Video seed" cho Runway. Chất lượng visual reference ở đây quyết định 60% chất lượng video cuối.

Bước 3: Sinh video bằng Runway Gen-3 / Gen-4.5

Runway Gen-3 Alpha (sử dụng đến hết tháng 7/2026) vẫn là model ổn định nhất hiện nay. Gen-4.5 mới hơn nhưng chậm hơn. Quy trình:

  1. Upload ảnh từ Midjourney vào Runway
  2. Nhập text prompt chi tiết: "Camera dolly right across product, slow 360 rotation, studio lighting holds, 8 seconds"
  3. Chọn Director Mode để fine-tune camera movement (dolly, zoom, pan)
  4. Render ở resolution 1080p hoặc 4K (4K mất 2-3 phút/video, chi phí cao hơn)

Mẹo: Dùng Motion Brush nếu muốn kiểm soát vùng cụ thể (ví dụ: làm mờ nền, tăng kỳ vọng ở sản phẩm).

Thời gian render: 1-5 phút tùy model + độ phức tạp. Chi phí: mỗi video tính theo số khung hình (frame credits).

Bước 4: Tạo voice narration bằng ElevenLabs

Có hai cách:

Cách A - Voice Cloning (Instant Voice Cloning) Upload sample giọng của bạn (15-30 giây), ElevenLabs clone trong <2 phút. Sau đó paste script tạo audio narration với giọng clone. Ideal cho branding (đặc trưng giọng riêng).

Cách B - Preset Voice + TTS Chọn từ 10.000+ giọng pre-made trong ElevenLabs library (các ngôn ngữ, accent khác nhau). Paste script → export MP3. Nhanh hơn, không cần sample.

Chọn voice có "natural pauses", tốc độ phù hợp (không quá nhanh để video kịp theo).

Bước 5: Sync audio + visual + music + export

Tải video Runway + audio ElevenLabs vào CapCut (miễn phí, user-friendly) hoặc DaVinci Resolve (chuyên nghiệp, render chậm):

  1. Import video từ Runway làm track hình
  2. Import audio ElevenLabs làm track âm thanh
  3. Sync bằng waveform hoặc hand-align theo cảnh (smart sync: xem ElevenLabs có tính năng auto-sync không)
  4. Thêm background music (Epidemic Sound, Artlist, hay ElevenLabs Music nếu có)
  5. Color grade nhẹ: tăng saturation +10%, warm filter nếu product luxury
  6. Export 1080p H.264 để upload YouTube/TikTok

Mẹo thực chiến

Prompt stacking: Prompt Runway càng chi tiết càng tốt. "Slow push-in, cinematic depth of field, warm key light 45°" cho kết quả tốt hơn "nice camera movement".

Reusable assets: Một video Runway có thể narrate bằng nhiều giọng khác nhau → làm N phiên bản cho thị trường khác (VN, EN, JP).

Fallback plan: Nếu Runway output không như ý, dùng Pika (competitor rẻ hơn) hoặc Veo (Google, chất lượng ngang Gen-3) làm alternative.

Collaboration: ElevenLabs Flows (mới tháng 3/2026) là canvas node-based cho phép xây dựng workflow tự động mà không cần download/upload nhiều lần. Nếu bạn thường làm video hàng loạt, Flows tiết kiệm 40% thời gian.

Chi phí & subscription

  • Midjourney: $10-20/tháng (fast hours unlimited)
  • Runway: $12/tháng (limited credits) hoặc $60/tháng (pro, nhiều credits hơn)
  • ElevenLabs: $5/tháng (free tier hạn chế) hoặc $22/tháng (Creator, voice cloning unlimited)
  • CapCut/DaVinci: Miễn phí (các tính năng pro trả phí)
  • Music: $15-30/tháng nếu dùng subscription service

Tổng: ~$60-130/tháng để có full stack. Nếu tính cost-per-video (1 video mất 2-3 giờ), rẻ hơn thuê freelance 50%.

Kết luận

Phối hợp Midjourney + Runway + ElevenLabs tạo nên sơ đồ sản xuất video hiện đại: không cần máy quay, diễn viên, hay studio — chỉ cần script, laptop, và $3 API credit. Output chất lượng "Hollywood" trong vòng 24 giờ là hoàn toàn khả thi.