Apple đã huấn luyện các mô hình AI nhỏ hơn để miêu tả hình ảnh tốt hơn so với những đối thủ lớn của chúng.
Apple tiết lộ công nghệ mới “RubiCap” để mô tả hình ảnh
Nhà khoa học của Apple đã tạo ra phương pháp có tên *RubiCap*, cho phép các mô hình AI nhỏ hơn sinh ra những mô tả chính xác và chi tiết hơn về hình ảnh so với các đồng loại quy mô lớn.
Cách RubiCap hoạt động
1. Phân tích hình ảnh
Để tạo ra văn bản chi tiết, mô hình đầu tiên nhận dạng nhiều đối tượng và vùng trong khung hình. Điều này cung cấp hiểu biết sâu sắc về bố cục, thay vì chỉ miêu tả bề mặt.
2. Giá trị thực tiễn
Kỹ năng này hữu ích cho việc huấn luyện các mô hình AI con, bộ sinh hình ảnh theo văn bản và các chức năng chuyên biệt (ví dụ như cải thiện nội dung trực quan).
3. Vấn đề tài nguyên
Các phương pháp truyền thống để đào tạo hệ thống mô tả chi tiết đòi hỏi chi phí tính toán lớn cả ở giai đoạn đầu lẫn khi tiếp tục huấn luyện bằng củng cố.
Phương pháp thử nghiệm
- Lựa chọn hình ảnh – ngẫu nhiên lấy 50 000 bức tranh từ bộ *PixMoCap* và *DenseFusion‑4V‑100K*.
- Tạo mô tả – sử dụng các mô hình thị giác máy tính hiện có: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT và Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, cùng với các mô hình Apple đang được huấn luyện.
- Đánh giá chất lượng – Gemini 2.5 Pro đóng vai trò chuyên gia: nó phân tích mô tả, phát hiện sự trùng khớp và lỗi, đề ra tiêu chí đánh giá rõ ràng.
- Đánh giá của ban giám khảo – mô hình Qwen 2.5‑7B‑Instruct gán điểm cho từng tiêu chí và tạo tín hiệu phần thưởng cho mô hình đang được huấn luyện.
Kết quả
- Mô hình đang được huấn luyện nhận được phản hồi cụ thể, giúp nhanh chóng cải thiện độ chính xác của mô tả mà không cần dựa vào một câu trả lời “đúng” duy nhất.
- Cuối cùng Apple đã tạo ra ba mô hình riêng: RubiCap‑2B, RubiCap‑3B và RubiCap‑7B (tương ứng 2, 3 và 7 tỷ tham số).
- Khi thử nghiệm nhiệm vụ mô tả hình ảnh, RubiCap vượt trội hơn các đối thủ với 32 tỷ và thậm chí 72 tỷ tham số. Trong một số trường hợp RubiCap‑3B cho kết quả tốt hơn RubiCap‑7B, chứng minh rằng kích thước mô hình không luôn đảm bảo hiệu suất cao nhất.
Như vậy, công nghệ RubiCap cho thấy cách đạt được chất lượng mô tả hình ảnh cao với tài nguyên ít hơn và quá trình huấn luyện hiệu quả hơn.
Bình luận (0)
Chia sẻ ý kiến của bạn — vui lòng lịch sự và đúng chủ đề.
Đăng nhập để bình luận