Hugging Face và Every Eval Ever thống nhất cách đánh giá mô hình AI trên toàn cầu

Hugging Face kết nối hệ thống Community Evals với Every Eval Ever, tạo kho lưu trữ chuẩn hoá với gần 230 nghìn kết quả đánh giá mô hình AI từ hơn 22 nghìn mô hình khác nhau.

Hệ thống chuẩn hóa toàn cầu cho kết quả đánh giá AI

Hugging Face vừa công bố tính năng kết nối giữa Community Evals của mình với Every Eval Ever (EEE), một dự án của EvalEval Coalition nhằm chuẩn hoá cách báo cáo kết quả đánh giá mô hình AI. Sự hợp tác này đánh dấu bước tiến quan trọng trong nỗ lực làm cho thế giới đánh giá AI trở nên minh bạch, so sánh được và đáng tin cậy hơn. Cả hai sáng kiến đều được phát động vào tháng 2 năm 2026, nhưng mãi đến nay mới hoạt động tương tác với nhau một cách liền mạch.

Kho dữ liệu khổng lồ và cách thức hoạt động

Kể từ khi ra mắt, EEE đã tích lũy khoảng 229.000 kết quả đánh giá trên hơn 22.000 mô hình AI và 2.200 bộ kiểm tra (benchmark) khác nhau, được thu thập từ 31 định dạng báo cáo khác nhau. EEE hoạt động dựa trên một JSON schema chuẩn hoá, ghi lại những thông tin quan trọng: ai chạy đánh giá, mô hình nào được dùng, cách thức truy cập, các thiết lập sinh tạo (generation settings), ý nghĩa của từng chỉ số, và một tệp JSONL tương ứng nếu có dữ liệu từng mẫu riêng lẻ. Converter mới được Hugging Face xây dựng cho phép người dùng tự động chuyển đổi kết quả từ EEE sang định dạng YAML mà Community Evals mong muốn, mà không cần phải giữ hai bản sao của cùng một kết quả. Hiện tại, converter hỗ trợ bốn bộ kiểm tra chính thức: MMLU-Pro, GPQA, HLE và GSM8K. Khi một nhà nghiên cứu hoặc tổ chức gửi dữ liệu thông qua tài khoản Hugging Face chính thức của họ, kết quả sẽ xuất hiện trên EvalEval với một dấu tích xác minh (verified checkmark), giúp người đọc biết rằng con số đó đến trực tiếp từ nguồn.

Giải quyết bài toán phân tán thông tin

Trước đây, các kết quả đánh giá mô hình AI nằm rải rác ở những nơi khác nhau: trong các bài báo khoa học, các bộ xếp hạng riêng lẻ, các bài đăng trên blog, và các log từ các công cụ kiểm tra khác nhau, mỗi nơi dùng một định dạng riêng. Điều này dẫn đến tình trạng nhầm lẫn khi cùng một mô hình trên cùng một bộ kiểm tra lại cho ra những số điểm khác nhau tùy thuộc vào ai chạy đánh giá và bằng cách nào. Một ví dụ điển hình: LLaMA 65B được báo cáo ở cả 63,7 và 48,8 trên MMLU. Những sự khác biệt này thường xuất phát từ các thiết lập đánh giá mà hiếm khi được nêu rõ trong báo cáo. EEE là giải pháp của EvalEval Coalition để giải quyết vấn đề này, với sự hỗ trợ từ các nhà nghiên cứu chính sách AI. Chi phí tái tạo các 229.000 đánh giá này từ đầu sẽ lên tới hàng trăm ngàn đô la, vì vậy việc không để dữ liệu này bị phân tán một khi đã có chi phí sinh ra nó là hợp lý.

Ảnh hưởng đến cộng đồng nghiên cứu AI

Với hệ thống này, nhà phát triển mô hình, nhà nghiên cứu độc lập, và các nhà hoạch định chính sách giờ đây có một điểm tham chiếu chung để so sánh và hiểu các mô hình AI. Khi duyệt Hugging Face Hub, người dùng thấy kết quả đánh giá với liên kết trực tiếp đến bản ghi EEE đầy đủ, nơi chứa cấu hình sinh tạo, phiên bản công cụ kiểm tra, ghi chú tái tạo, và dữ liệu cấp độ instance khác. Điều này tạo nên một tiêu chuẩn phổ quát, giúp cộng đồng AI toàn cầu, bao gồm cả Việt Nam, có thể tin tưởng và sử dụng các kết quả đánh giá này để so sánh mô hình, hiểu rõ khả năng của chúng, và đưa ra quyết định dựa trên dữ liệu thực tế.

Hugging Face và Every Eval Ever thống nhất cách đánh giá mô hình AI trên toàn cầu

Hệ thống chuẩn hóa toàn cầu cho kết quả đánh giá AI

Kho dữ liệu khổng lồ và cách thức hoạt động

Giải quyết bài toán phân tán thông tin

Ảnh hưởng đến cộng đồng nghiên cứu AI

◗ Nguồn