ScarfBench: IBM công bố benchmark để phơi bày khoảng cách giữa AI agents và hiện đại hóa Java thực tế

IBM Research giới thiệu ScarfBench, một benchmark chuyên biệt để đánh giá AI agents trong migrate framework Java (Spring, Jakarta EE, Quarkus), tiết lộ rằng ngay cả các AI agents tiên tiến cũng chỉ đạt tỷ lệ thành công dưới 10% khi phải giữ nguyên hành vi ứng dụng.

Benchmark giải quyết bài toán không hề tầm thường

Vào cuối tháng 6 năm 2026, IBM Research công bố ScarfBench (Self-Contained Application Refactoring Benchmark) - một công cụ benchmark chuyên biệt nhằm đánh giá khả năng của các AI agents trong việc migrate ứng dụng Java qua các framework khác nhau. Đây không phải là khía cạnh đơn giản của kỹ thuật phần mềm: hiện đại hóa ứng dụng doanh nghiệp là một trong những hoạt động đắt đỏ nhất mà các tổ chức phải thực hiện, yêu cầu chuyển đổi code không chỉ để cải thiện khả năng bảo trì mà còn để tăng cường sẵn sàng cho cloud, nâng cao năng suất nhà phát triển, và tiếp cận các khả năng hiện đại.

Thách thức phức tạp hơn cả những gì AI agents từng gặp

ScarfBench tập trung vào ba hệ sinh thái Java chính: Spring, Jakarta EE, và Quarkus. Quy mô của benchmark này rất đáng kể: 34 ứng dụng, 102 cách triển khai framework khác nhau, 204 tác vụ migrate, khoảng 151.000 dòng code, xấp xỉ 2.000 file source và test, cùng với 1.331 test được viết bởi chuyên gia. Điểm khác biệt quan trọng của ScarfBench so với các benchmark truyền thống là nó không chỉ so sánh code được tạo ra với các phiên bản tham chiếu - thay vào đó, nó kiểm tra xem các ứng dụng được migrate có thể xây dựng (build) thành công, triển khai (deploy) đúng cách, và vượt qua kiểm thử hành vi hay không.

Tại sao migration framework lại khó tới vậy? Đơn giản vì công việc này còn hơn cả việc thay thế các annotation. Một migration repository tưởng chừng đơn giản có thể yêu cầu thay đổi trên toàn bộ dependency injection, cấu hình persistence, các truy vấn, và các tệp mô tả framework. Một sai sót nhỏ ở bất kỳ phần nào cũng có thể ngăn chặn việc triển khai thành công. Theo IBM, các AI agents tiên tiến hiện nay - những công cụ mạnh nhất trong lĩnh vực này - chỉ đạt tỷ lệ thành công dưới 10% về hành vi khi được đánh giá trên toàn bộ benchmark này. Điều này minh họa rõ ràng khoảng cách giữa việc tạo ra code có thể biên dịch được và việc bảo tồn hành vi thực tế của ứng dụng.

Các phát hiện bất ngờ về cách hoạt động của AI agents

Ngoài việc đo lường tỷ lệ thành công, ScarfBench tiết lộ nhiều insights về hành vi của AI agents trong quá trình hiện đại hóa. Thứ nhất, các agents được phát hiện quá tự tin vào đánh giá của chính mình. Claude Code, một trong những agents được đánh giá, báo cáo các build thành công cho 29 trên 30 ứng dụng toàn bộ, nhưng thực tế chỉ 22 trong số đó xây dựng thành công. Ngược lại, ứng dụng duy nhất mà agent phân loại là failed cuối cùng lại xây dựng thành công. Điều này gợi ý rằng tự đánh giá của agent không nên được coi là tín hiệu đáng tin cậy để xác định quá trình migration hoàn tất.

Thứ hai, quá trình migration hóa ra lại mang tính lặp đi lặp lại chứ không phải tuyến tính. Các layers được truy cập thường xuyên nhất là: Configuration, Web, và Database, với các chuyển đổi phổ biến xảy ra giữa Configuration ↔ Web và Service ↔ Database. Thứ ba, cấu hình chiếm phần lớn nỗ lực: thay vì tiến hành tuyến tính, các agents liên tục quay lại các tệp tin liên quan đến cấu hình khi giải quyết các khác biệt của framework và các vấn đề phụ thuộc.

Tác động và ý nghĩa thực tiễn

Khám phá quan trọng nhất từ ScarfBench là: thách thức lớn nhất trong framework modernization không phải là dịch code Java. Nó là quản lý mạng lưới phức tạp của các phụ thuộc nằm rải rác trên các configuration, infrastructure, và runtime environments. Các agents còn thường xuyên gặp khó khăn với các vấn đề về môi trường và công cụ: sự không nhất quán của Docker cache, vấn đề kết nối port, Maven wrapper, và các vấn đề build tooling - những mối quan tâm về vận hành này thường làm chậm việc xác thực ngay cả khi migration code source tự nó đã phần lớn hoàn tất.

Kết luận từ nghiên cứu của IBM là trong khi các AI agents tiên tiến có thể tự động hóa những phần đáng kể của quá trình migration, việc xác thực độc lập và các phân tích kiến trúc vẫn còn là những yếu tố quan trọng để đạt được kết quả thành công. ScarfBench được thiết kế như một tài nguyên mở cho các nhà nghiên cứu và thực hành, bao gồm dataset, infrastructure đánh giá, và một public leaderboard để theo dõi tiến bộ.

ScarfBench: IBM công bố benchmark để phơi bày khoảng cách giữa AI agents và hiện đại hóa Java thực tế

Benchmark giải quyết bài toán không hề tầm thường

Thách thức phức tạp hơn cả những gì AI agents từng gặp

Các phát hiện bất ngờ về cách hoạt động của AI agents

Tác động và ý nghĩa thực tiễn

◗ Nguồn