Hệ thống Anthropic Claude gồm 16 tác nhân AI tự đủ tạo ra trình biên dịch C.

Trong khuôn khổ thử nghiệm, công ty Anthropic đã tập hợp một nhóm 16 tác nhân AI tự động, những người cùng nhau từ đầu tạo ra trình biên dịch ngôn ngữ C bằng Rust. Kết quả là một “phiên bản sạch”, có khả năng xây dựng nhân Linux 6.19 và biên dịch các dự án như PostgreSQL, SQLite, Redis, FFmpeg và QEMU, nhưng vẫn còn khá tụt hậu GCC về chất lượng và hiệu suất.

Cách thực hiện
Bước | Mô tả
---|---
Chuẩn bị | 16 bản sao mô hình Claude Opus 4.6 được khởi chạy trong các container Docker riêng biệt mà không có truy cập Internet. Mỗi người sẽ clone kho lưu trữ Git chung và nhận nhiệm vụ qua file lock.
Tự lập kế hoạch | Không có bộ điều phối trung tâm: mỗi tác nhân tự quyết định phần công việc “nghiêm túc” tiếp theo. Khi xảy ra xung đột, mã được hợp nhất tự động.
Phát triển | Tác nhân được giao viết trình biên dịch C hoàn toàn từ đầu. Công việc kéo dài 2 tuần và yêu cầu gần 2000 phiên Claude Code.
Kiểm thử | Để tránh “bị nhiễu” ngữ cảnh mô hình bằng các truy vấn dài, các bài kiểm tra chạy trong chế độ tóm tắt (chỉ vài dòng kết quả). Để tăng tốc, đã thêm chế độ xử lý nhanh 1–10 % bài kiểm tra.

Sản phẩm cuối cùng
* Dung lượng – khoảng 100 000 dòng mã Rust.
* Tính năng – có thể xây dựng nhân Linux 6.19 trên x86, ARM và RISC‑V; biên dịch PostgreSQL, SQLite, Redis, FFmpeg, QEMU; vượt qua ~99 % bài kiểm tra GCC.
* Hạn chế – không sinh mã máy 16-bit (để chạy Linux cần GCC), bộ hợp ngữ và liên kết có lỗi, hiệu suất của mã thấp hơn GCC. Chất lượng mã Rust gốc còn thiếu sót so với công việc của lập trình viên kinh nghiệm.

Chi phí thử nghiệm
Chỉ số | Giá trị
---|---
Tổng chi phí Token Claude API | ~\$20 000
Chi phí bổ sung (đào tạo mô hình, tổ chức dự án, bộ dữ liệu kiểm tra) | Không bao gồm trong số tiền trên

Bài học và kết luận
1. Giới hạn tự động – khi mã tăng lên ~100 000 dòng, các tác nhân bắt đầu mất khả năng hiểu toàn diện dự án; đây có vẻ là giới hạn tối đa cho AI độc lập.
2. Cần hỗ trợ – những nỗ lực mở rộng tính năng thường làm hỏng các phần mã đã hoạt động.
3. Tầm quan trọng của môi trường phát triển – việc cách ly khỏi Internet và cấu hình kiểm tra đúng đắn được chứng minh là yếu tố then chốt cho sự ổn định của các tác nhân.

Kết luận
Thử nghiệm cho thấy các mô hình AI hiện đại có thể tạo ra các hệ thống phần mềm phức tạp với mức độ giám sát tối thiểu. Tuy nhiên, chúng vẫn chưa thể thay thế hoàn toàn lập trình viên kinh nghiệm: chất lượng mã, hiệu suất và độ tin cậy còn thấp hơn so với các trình biên dịch truyền thống, và quy mô dự án bị giới hạn ở vài trăm nghìn dòng. Đây là một bước tiến quan trọng nhưng vẫn còn xa cách phát triển phần mềm tự động hoàn chỉnh.

Hệ thống Anthropic Claude gồm 16 tác nhân AI tự đủ tạo ra trình biên dịch C.

Related news

Google Gemini đã đạt được 750 triệu người dùng hoạt động hàng tháng, chỉ để lại ChatGPT ở một khoảng cách nhỏ so với nhà lãnh đạo.

Nothing đã giới thiệu phiên bản beta của Essential Apps – nền tảng để tạo mini Ứng dụng bằng trí tuệ nhân tạo

Microsoft đã giải thích lý do tại sao các tài khoản VeraCrypt và các dịch vụ mở khác bị khóa—do sự cẩu thả của những người sáng lập chúng

Ứng dụng Meta✴ AI đã chiếm vị trí thứ năm trong App Store sau khi ra mắt Muse Spark

Bình luận (0)

Đăng nhập để bình luận

Hệ thống Anthropic Claude gồm 16 tác nhân AI tự đủ tạo ra trình biên dịch C.

Related news

Google Gemini đã đạt được 750 triệu người dùng hoạt động hàng tháng, chỉ để lại ChatGPT ở một khoảng cách nhỏ so với nhà lãnh đạo.

Nothing đã giới thiệu phiên bản beta của Essential Apps – nền tảng để tạo mini Ứng dụng bằng trí tuệ nhân tạo

Microsoft đã giải thích lý do tại sao các tài khoản VeraCrypt và các dịch vụ mở khác bị khóa—do sự cẩu thả của những người sáng lập chúng

Ứng dụng Meta✴ AI đã chiếm vị trí thứ năm trong App Store sau khi ra mắt Muse Spark

Đăng nhập để bình luận

Ứng dụng Meta✴ AI đã chiếm vị trí thứ năm trong App Store sau khi ra mắt Muse Spark