Alibaba, ByteDance và Kuaishou đã ra mắt các mô hình AI mới – từ robot công nghệ đến tạo nội dung video cho phim.
Các ông trùm công nghệ Trung Quốc trình diễn các thuật toán AI mới
Ngữ cảnh
Tuần trước thị trường trí tuệ nhân tạo Mỹ đang tranh luận về khả năng của các mô hình Anthropic và Altruist, những mô hình ảnh hưởng đến lập trình và dịch vụ tài chính. Cùng lúc đó, các ông trùm công nghệ Trung Quốc – Alibaba, ByteDance (chủ TikTok) và Kuaishou – đã giới thiệu các mô hình AI riêng của mình, chứng minh tăng trưởng năng suất trong robot học và tạo video. Những phát triển này xác nhận rằng Trung Quốc không tụt lại phía sau đối thủ phương Tây.
Bối cảnh
Thông báo về các thuật toán mới đến sau khi Demis Hassabis (đồng sáng lập Google DeepMind) vừa công bố rằng các mô hình AI Trung Quốc đang lùi kém phương Tây vài tháng. Tuy nhiên, những công cụ được giới thiệu trong năm nay có thể cạnh tranh trực tiếp với sản phẩm của OpenAI (Sora), Nvidia và Google trong lĩnh vực tạo video và robot học.
1. RynnBrain – Trợ lý robot “thông minh” từ Alibaba
* Đây là gì?
Bộ phận nghiên cứu Alibaba DAMO đã công bố mô hình RynnBrain, được thiết kế để giúp robot nhận diện thế giới xung quanh tốt hơn và tương tác với các đối tượng.
* Demo
Trong video có một robot với móng thay vì tay, đang hái cam và đặt chúng vào giỏ. Nó cũng được trình diễn lấy sữa từ tủ lạnh.
* Đặc điểm kỹ thuật
- Cần đào tạo sâu rộng để nhận diện các vật hàng ngày.
- RynnBrain bao gồm nhận thức thời gian và không gian tích hợp: robot nhớ nơi và khi nào sự kiện xảy ra, theo dõi tiến độ công việc và có thể tiếp tục làm việc qua nhiều giai đoạn.
- Điều này nâng cao độ tin cậy và tính nhất quán trong điều kiện thực tế.
* Định vị
Alibaba đặt mục tiêu tạo “mức trí tuệ cơ bản” cho các hệ thống được triển khai, cạnh tranh với Nvidia và Google trong robot học.
2. Seedance 2.0 – Tạo video từ ByteDance
* Chức năng
Mô hình cho phép tạo ra những đoạn video thực tế dựa trên mô tả văn bản đơn giản. Thuật toán cũng có thể xử lý video và hình ảnh hiện có, kết hợp chúng thành các bố cục mới.
* Lợi thế
- Tăng tính kiểm soát, tốc độ và hiệu quả so với phiên bản trước.
- Phản hồi tích cực từ nhà nghiên cứu Hugging Face Adina Yakefu: mô hình “đánh bật sự cân bằng” của nó và mang lại kết quả chất lượng ngay lần chạy đầu tiên.
* Chi tiết kỹ thuật
Seedance 2.0 kết hợp trực quan, âm thanh và công việc quay phim thành một luồng duy nhất, tạo ra sản phẩm hoàn chỉnh thay vì nguyên mẫu thử nghiệm.
* Vấn đề và hạn chế
- Do các vấn đề bảo mật riêng tư, ByteDance tạm thời vô hiệu hóa tính năng tạo giọng nói người dựa trên ảnh tải lên.
- Quyết định này được đưa ra sau khi một blogger bày tỏ lo ngại về việc tổng hợp giọng nói trái phép.
3. Kling 3.0 – Đối thủ của Kuaishou
* Mô tả chung
Mô hình Kling 3.0 được thiết kế để tạo video và được định vị là đối thủ trực tiếp của Seedance 2.0.
* Cải tiến chính
- Tăng tính nhất quán (chi tiết không được tiết lộ trong văn bản, nhưng ngụ ý tăng đáng kể chất lượng).
Kết luận
- Các công ty Trung Quốc đang phát triển mạnh các thuật toán AI cho robot học và tạo video, trình diễn những giải pháp cạnh tranh.
- Alibaba tập trung vào “robot thông minh” với nhận thức thời gian và không gian.
- ByteDance cung cấp mô hình tiên tiến để tạo nội dung video nhưng đối mặt với vấn đề đạo đức trong tổng hợp giọng nói.
- Kuaishou tiếp tục mở rộng danh mục các mô hình sinh, cạnh tranh với ByteDance.
Những phát triển này xác nhận rằng Trung Quốc không chỉ theo kịp đổi mới phương Tây mà còn tích cực xây dựng thị trường sản phẩm AI riêng của mình.
Bình luận (0)
Chia sẻ ý kiến của bạn — vui lòng lịch sự và đúng chủ đề.
Đăng nhập để bình luận