Sora của OpenAI mở màn cho xu hướng AI tạo video từ văn bản hoặc ảnh vào tháng 2 năm ngoái. Tuy nhiên, thị trường này chỉ thực sự bùng nổ trong nửa đầu năm nay khi nhiều công cụ được nâng cấp mạnh về tính năng và chất lượng.
ByteDance Seedance 1.0
Ra mắt ngày 18/6, Seedance 1.0 được một số chuyên gia đánh giá là AI tạo video từ văn bản và hình ảnh mạnh mẽ nhất hiện nay. Công cụ giúp người dùng chuyển đổi các câu lệnh đơn giản, ngắn gọn thành đoạn phim chất lượng cao mà không cần yêu cầu phức tạp.

Một số video tạo từ Seedance 1.0. Video: ByteDance
Theo ByteDance, công ty đã tìm ra cách tách biệt thông tin về không gian và thời gian trong video bằng cách "mã hóa" vị trí, giúp AI học từ chữ viết và hình ảnh, tối ưu hóa để cho ra các cảnh quay mượt. Artificial Analysis, nền tảng chuyên phân tích và đánh giá hiệu suất mô hình AI, nhận định Seedance 1.0 vượt Veo 3 của Google, Sora của OpenAI hay Kling 2.0 của Kuaishou về nhiệm vụ biến văn bản và ảnh thành video.
Seedance 1.0 giới hạn độ dài 5 giây, thấp hơn mức 8 giây của Veo 3, nhưng thời gian sản xuất video nhanh hơn với 40 giây. Điểm trừ là nó chưa có tính năng tạo âm thanh khớp với nội dung.
Midjourney V1
V1 trình làng ngày 19/6, được đánh giá có độ chân thực cùng tính sáng tạo cao và chi phí thấp. Mỗi video cũng có độ dài 5 giây, nhưng người dùng có thể nhấn nút tạo thêm bốn lần, mỗi lần bốn giây, tức video cuối cùng có thể đạt tổng cộng 21 giây.

Video tạo từ Midjourney V1. Video: Midjourney
Midjourney phát hành V1 qua Discord và website, tính phí với ba gói gồm Basic 10 USD/tháng, Pro 60 USD/tháng và Mega 120 USD/tháng. TheoTechCrunch, video từ mô hình này có độ sáng tạo cao, "hiểu" ý đồ người tạo chỉ sau vài câu lệnh nhưng tốc độ tạo chưa cao. Ngoài ra, Midjourney cũng tính phí cao hơn 8 lần so với tạo ảnh thông thường.
Runway Gen 4
Gen 4 trình làng đầu tháng 4, được Runway giới thiệu có thể tạo cảnh và người nhất quán, điều những mô hình AI trước đó chưa làm được. "Bằng cách sử dụng tài liệu tham khảo trực quan kết hợp câu lệnh hướng dẫn, Gen-4 cho phép người dùng tạo hình ảnh và video với phong cách, chủ đề, địa điểm thống nhất, liên tục và khả năng kiểm soát trong câu chuyện", đại diện Runway nói khi đó.

Một số cảnh quay và phim ngắn do Runway Gen-4 tạo ra. Video: YouTube/Runway
Cũng theo công ty, Gen-4 có thể tái hiện chính xác nhân vật, địa điểm, sau đó ghép cảnh quay từ nhiều góc nhìn và vị trí theo ý muốn người dùng. Kết quả là cảnh trở nên liền mạch, đồng thời "giữ nguyên phong cách, tâm trạng và các yếu tố điện ảnh đặc trưng của từng khung hình". Gen-4 hiện được triển khai cho người dùng trả phí và doanh nghiệp.
Kuaishou Kling AI 2.0
Ra mắt tháng 4, Kling AI 2.0 cũng được Kuaishou (Trung Quốc) giới thiệu là mô hình video "mạnh nhất thế giới". Theo Gai Kun, Phó chủ tịch Kuaishou, mô hình được nâng cấp với các khả năng theo sát hướng dẫn từ người dùng, hiểu nhanh, chất lượng hình ảnh và chuyển động cao, cảm giác chân thực và thẩm mỹ.

Video tạo từ Kling AI 2.0 của Kuaishou. Video: Kuaishou
Phiên bản đầu tiên của Kling AI được giới thiệu đầu năm ngoái sau khi Sora trình làng. Theo Gai, Kling hiện có hơn 22 triệu người dùng toàn cầu, tạo ra hơn 168 triệu video và 344 triệu hình ảnh.
Google Veo 3
So với các phiên bản trước, Veo 3 được Google bổ sung khả năng kết hợp âm thanh với hình ảnh, gồm lời thoại giữa các nhân vật. Theo CNBC, đây là điểm khác biệt quan trọng khi hầu hết công cụ khác trên thị trường chủ yếu cung cấp video không có âm thanh, hoặc chỉ trên nền nhạc.

Một số video được tạo bằng Google Veo 3. Nguồn: Bảo Lâm tổng hợp
Người dùng có thể sử dụng Veo 3 độc lập hoặc qua ứng dụng làm phim AI Flow. Công cụ sử dụng AI tạo ảnh từ văn bản Imagen và Gemini để tạo clip dài 8 giây với đầu vào là lời nhắc, ảnh hoặc video. Flow cũng đi kèm bộ công cụ xây dựng cảnh, cho phép người dùng ghép các đoạn phim, tinh chỉnh thành đoạn nội dung và liền mạch.
Bảo Lâm tổng hợp
- 'Cơn sốt' tạo video AI bằng Google Veo 3
- Chatbot AI có thể khiến não người lười vận động
- Tác nghiệp báo chí thời AI
- Midjourney ra AI tạo video cạnh tranh Veo 3, Sora
- Đối thủ của OpenAI ra AI tạo video 'nhất quán' đầu tiên