Apple đang phát triển trợ lý AI riêng cho iPhone, có khả năng khởi chạy ứng dụng thay vì người dùng
Apple đang phát triển một tác nhân AI địa phương nhỏ gọn để làm việc với giao diện người dùng
Apple đang nghiên cứu thuật toán mới – Ferret‑UI Lite, có khả năng “hiểu” các giao diện ứng dụng và tương tác với chúng thay mặt người dùng, nhưng tất cả diễn ra ngay trên thiết bị. Mô hình có 3 triệu tham số và trong thử nghiệm cho thấy kết quả so sánh được hoặc thậm chí vượt trội hơn những mô hình lớn gấp tới 24 lần.
Nguồn gốc dự án
Vào tháng 12 năm 2023, một nhóm gồm chín nhà nghiên cứu đã công bố bài báo FERRET: Refer and Ground Anything Anywhere at Any Granularity. Trong đó được giới thiệu mô hình ngôn ngữ đa phương tiện, được huấn luyện trên các loại dữ liệu khác nhau và có khả năng liên kết mô tả văn bản với những phần cụ thể của ảnh.
Từ đó Apple đã mở rộng dòng Ferret‑models:
| Mô hình | Mục đích |
|---|---|
| Ferretv2 | Mô hình cơ sở cải tiến |
| Ferret‑UI | MLLM chuyên biệt cho giao diện di động |
| Ferret‑UI 2 | Hỗ trợ nhiều nền tảng và độ phân giải cao hơn |
Ferret‑UI đặc biệt giải quyết một trong những vấn đề của các mô hình ngôn ngữ lớn đa phương tiện (MLLM) hiện nay: chúng không nhận dạng được các yếu tố UI. Mô hình thêm “độ phân giải tùy ý” lên Ferret, tăng độ chi tiết của ảnh và sử dụng các đặc trưng thị giác cải tiến.
Thành tựu mới
Gần đây Apple đã giới thiệu hai phiên bản bổ sung:
1. Ferret‑UI Lite – mô hình nhẹ với 3 triệu tham số, tối ưu cho chạy địa phương trên thiết bị di động.
2. Ferret‑UI 2 – phiên bản mở rộng, hỗ trợ nhiều nền tảng và độ phân giải cao hơn của ảnh chụp màn hình.
Điểm khác biệt chính của Ferret‑UI Lite so với các mô hình máy chủ lớn: nó duy trì tính cạnh tranh trong khi yêu cầu tính toán thấp hơn đáng kể.
Tại sao điều này quan trọng
Hầu hết các tác nhân GUI hiện có dựa trên những mô hình cơ sở khổng lồ, vì khả năng suy luận và lập kế hoạch mạnh mẽ của chúng cho phép đạt được kết quả xuất sắc trong việc điều hướng giao diện đồ họa. Tuy nhiên, những mô hình như vậy quá to lớn để chạy trực tiếp trên thiết bị.
Ferret‑UI Lite giải quyết vấn đề này bằng cách kết hợp:
- Nhiều thành phần chính và ý tưởng từ huấn luyện các LLM nhỏ;
- Dữ liệu thực và tổng hợp từ nhiều lĩnh vực GUI khác nhau;
- Kỹ thuật cắt khung động và tối ưu chất lượng phân đoạn giao diện;
- Điều chỉnh tinh chỉnh có kiểm soát và học tăng cường.
Kết quả là một mô hình gần như bằng hoặc thậm chí vượt trội hơn các tác nhân GUI cạnh tranh lớn hơn trong các nhiệm vụ liên kết cấp thấp với các yếu tố UI, hiểu biết về những gì đang diễn ra trên màn hình, lập kế hoạch nhiều bước và tự phân tích.
Bình luận (0)
Chia sẻ ý kiến của bạn — vui lòng lịch sự và đúng chủ đề.
Đăng nhập để bình luận