Xiaomi đã phát triển mô hình AI với 4,7 tỷ tham số, kết hợp nhận thức thị giác, lời nói và điều khiển cho robot.
Xiaomi ra mắt thị trường robot
Công ty khổng lồ thiết bị di động và nhà thông minh Trung Quốc, được biết đến với tên gọi Xiaomi, đã công bố một bước tiến mới: phát triển mô hình trí tuệ nhân tạo riêng cho robot. Công ty giới thiệu Xiaomi‑Robotics‑0, hệ thống mã nguồn mở kết hợp nhận dạng thị giác, hiểu ngôn ngữ và điều khiển hành động thời gian thực. Mô hình có 4,7 tỷ tham số và đã thiết lập nhiều kỷ lục cả trong mô phỏng lẫn thực tế.
Cách thức hoạt động của mô hình
Robot thường trải qua chu trình “quan sát → quyết định → hành động”. Xiaomi‑Robotics‑0 cân bằng giữa hiểu biết rộng về tình huống và điều khiển chính xác nhờ kiến trúc Mixture‑of‑Transformers (MoT).
1. Mô hình thị giác-ngôn ngữ (VLM) – “bộ não” của hệ thống.
* Được đào tạo để diễn giải lệnh, ngay cả khi mơ hồ (“xin hãy gấp khăn tắm”).
* Hiểu được quan hệ không gian dựa trên hình ảnh chất lượng cao.
* Nhiệm vụ: phát hiện đối tượng, trả lời câu hỏi thị giác và suy luận logic.
2. Chuyên gia hành động (Action Expert) – bộ tạo chuyển động.
* Dựa trên mô hình biến đổi khuếch tán (DiT).
* Không sinh ra một hành động duy nhất; tạo chuỗi hành động qua việc so khớp luồng, đảm bảo tính mượt mà và chính xác.
Huấn luyện mà không mất hiểu biết
Các VLM thông thường mất phần kỹ năng nhận thức khi được huấn luyện với các nhiệm vụ vật lý. Xiaomi đã giải quyết vấn đề này bằng cách đồng thời huấn luyện mô hình với dữ liệu đa phương tiện (hình ảnh + văn bản) và dữ liệu hành động. Quá trình đào tạo bao gồm nhiều giai đoạn:
1. Đề xuất hành động – VLM dự đoán các phân phối hành động có thể trên hình ảnh, đồng bộ hóa biểu diễn nội tại với các thao tác thực tế.
2. Sau đó VLM “tắt” và DiT được huấn luyện riêng để sinh chuỗi chính xác từ nhiễu, dựa vào đặc điểm quan trọng thay vì token ngôn ngữ.
Giảm độ trễ
Để loại bỏ gián đoạn giữa dự báo của mô hình và chuyển động thực tế của robot, đã sử dụng phát hành bất đồng bộ: tính toán AI và hành động robot được tách riêng. Điều này cho phép robot di chuyển liên tục ngay cả khi cần tính toán bổ sung.
* Clean Action Prefix – phương pháp khôi phục hành động đã dự đoán trước đó, đảm bảo mượt mà không bị giật.
* Mặt nạ chú ý tập trung vào chuỗi thị giác hiện tại, bỏ qua các trạng thái trước, làm robot phản hồi nhanh hơn với những thay đổi bất ngờ trong môi trường.
Kết quả
Trong các môi trường mô phỏng LIBERO, CALVIN và SimplerEnv, Xiaomi‑Robotics‑0 đã vượt trội hơn khoảng 30 đối thủ. Trên robot thực tế có hai bộ cánh, mô hình đã thành công với các nhiệm vụ khó khăn: gấp khăn tắm, tháo lắp đồ chơi xây dựng. Robot thể hiện sự phối hợp ổn định giữa tay và mắt, thao tác hiệu quả với các vật thể trong nhiều kịch bản khác nhau.
Như vậy, Xiaomi không chỉ mở rộng danh mục sản phẩm mà còn đặt nền móng cho những nghiên cứu tiếp theo trong lĩnh vực “trí tuệ vật lý” của robot.
Bình luận (0)
Chia sẻ ý kiến của bạn — vui lòng lịch sự và đúng chủ đề.
Đăng nhập để bình luận