Apple đã huấn luyện các mô hình AI nhỏ hơn để miêu tả hình ảnh tốt hơn so với những đối thủ lớn của chúng.

08.04.2026 18 software

Apple tiết lộ công nghệ mới “RubiCap” để mô tả hình ảnh

Nhà khoa học của Apple đã tạo ra phương pháp có tên *RubiCap*, cho phép các mô hình AI nhỏ hơn sinh ra những mô tả chính xác và chi tiết hơn về hình ảnh so với các đồng loại quy mô lớn.

Cách RubiCap hoạt động
1. Phân tích hình ảnh

Để tạo ra văn bản chi tiết, mô hình đầu tiên nhận dạng nhiều đối tượng và vùng trong khung hình. Điều này cung cấp hiểu biết sâu sắc về bố cục, thay vì chỉ miêu tả bề mặt.

2. Giá trị thực tiễn

Kỹ năng này hữu ích cho việc huấn luyện các mô hình AI con, bộ sinh hình ảnh theo văn bản và các chức năng chuyên biệt (ví dụ như cải thiện nội dung trực quan).

3. Vấn đề tài nguyên

Các phương pháp truyền thống để đào tạo hệ thống mô tả chi tiết đòi hỏi chi phí tính toán lớn cả ở giai đoạn đầu lẫn khi tiếp tục huấn luyện bằng củng cố.

Phương pháp thử nghiệm
- Lựa chọn hình ảnh – ngẫu nhiên lấy 50 000 bức tranh từ bộ *PixMoCap* và *DenseFusion‑4V‑100K*.

- Tạo mô tả – sử dụng các mô hình thị giác máy tính hiện có: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT và Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, cùng với các mô hình Apple đang được huấn luyện.

- Đánh giá chất lượng – Gemini 2.5 Pro đóng vai trò chuyên gia: nó phân tích mô tả, phát hiện sự trùng khớp và lỗi, đề ra tiêu chí đánh giá rõ ràng.

- Đánh giá của ban giám khảo – mô hình Qwen 2.5‑7B‑Instruct gán điểm cho từng tiêu chí và tạo tín hiệu phần thưởng cho mô hình đang được huấn luyện.

Kết quả
- Mô hình đang được huấn luyện nhận được phản hồi cụ thể, giúp nhanh chóng cải thiện độ chính xác của mô tả mà không cần dựa vào một câu trả lời “đúng” duy nhất.

- Cuối cùng Apple đã tạo ra ba mô hình riêng: RubiCap‑2B, RubiCap‑3B và RubiCap‑7B (tương ứng 2, 3 và 7 tỷ tham số).

- Khi thử nghiệm nhiệm vụ mô tả hình ảnh, RubiCap vượt trội hơn các đối thủ với 32 tỷ và thậm chí 72 tỷ tham số. Trong một số trường hợp RubiCap‑3B cho kết quả tốt hơn RubiCap‑7B, chứng minh rằng kích thước mô hình không luôn đảm bảo hiệu suất cao nhất.

Như vậy, công nghệ RubiCap cho thấy cách đạt được chất lượng mô tả hình ảnh cao với tài nguyên ít hơn và quá trình huấn luyện hiệu quả hơn.

Apple đã huấn luyện các mô hình AI nhỏ hơn để miêu tả hình ảnh tốt hơn so với những đối thủ lớn của chúng.

Related news

Google Gemini đã đạt được 750 triệu người dùng hoạt động hàng tháng, chỉ để lại ChatGPT ở một khoảng cách nhỏ so với nhà lãnh đạo.

Nothing đã giới thiệu phiên bản beta của Essential Apps – nền tảng để tạo mini Ứng dụng bằng trí tuệ nhân tạo

Microsoft đã giải thích lý do tại sao các tài khoản VeraCrypt và các dịch vụ mở khác bị khóa—do sự cẩu thả của những người sáng lập chúng

Ứng dụng Meta✴ AI đã chiếm vị trí thứ năm trong App Store sau khi ra mắt Muse Spark

Bình luận (0)

Đăng nhập để bình luận

Apple đã huấn luyện các mô hình AI nhỏ hơn để miêu tả hình ảnh tốt hơn so với những đối thủ lớn của chúng.

Related news

Google Gemini đã đạt được 750 triệu người dùng hoạt động hàng tháng, chỉ để lại ChatGPT ở một khoảng cách nhỏ so với nhà lãnh đạo.

Nothing đã giới thiệu phiên bản beta của Essential Apps – nền tảng để tạo mini Ứng dụng bằng trí tuệ nhân tạo

Microsoft đã giải thích lý do tại sao các tài khoản VeraCrypt và các dịch vụ mở khác bị khóa—do sự cẩu thả của những người sáng lập chúng

Ứng dụng Meta✴ AI đã chiếm vị trí thứ năm trong App Store sau khi ra mắt Muse Spark

Đăng nhập để bình luận

Ứng dụng Meta✴ AI đã chiếm vị trí thứ năm trong App Store sau khi ra mắt Muse Spark