DiScoFormer: Transformer thống nhất ước lượng mật độ và điểm số của phân bố

Nhà nghiên cứu AI2 giới thiệu DiScoFormer, một mô hình transformer có thể ước lượng cả mật độ và điểm số của phân bố xác suất mà không cần huấn luyện lại, vượt trội hơn phương pháp KDE cổ điển rất nhiều lần trong các chiều cao.

Bước ngoặt trong ước lượng phân bố xác suất

AI2 (Allen Institute for AI) vừa công bố DiScoFormer—một mô hình transformer có khả năng ước lượng đồng thời mật độ và điểm số của một phân bố xác suất từ một tập dữ liệu bất kỳ, thực hiện trong một lượt tiến (forward pass) mà không cần huấn luyện lại. Công bố này được công khai vào ngày 29 tháng 6 năm 2026, cùng với báo cáo kỹ thuật chi tiết trên arXiv (arxiv.org/abs/2511.05924). Đây là giải pháp cho một bài toán cơ bản trong học máy và khoa học: khi có một tập hợp các điểm dữ liệu, làm thế nào để khôi phục phân bố mà chúng đến từ—những giá trị nào phổ biến, giá trị nào hiếm gặp.

Vượt qua hạn chế của phương pháp cổ điển

Theo truyền thống, các nhà khoa học phải lựa chọn giữa hai phương pháp cơ sở. Ước lượng mật độ nhân (kernel density estimation - KDE) là cách tiếp cận cổ điển: tính mật độ tại một vị trí bất kỳ từ các điểm dữ liệu xung quanh nó, với mật độ cao hơn nếu các điểm gần nhau hơn và dày đặc hơn. KDE không yêu cầu huấn luyện và áp dụng được cho bất kỳ phân bố nào, nhưng độ chính xác giảm sút đáng kể khi số chiều tăng. Mặt khác, các mô hình score-matching thần kinh được huấn luyện để dự đoán điểm số (gradient của log-density) vẫn chính xác ngay cả ở những chiều cao, nhưng mỗi mô hình phải học riêng cho một phân bố cụ thể và phải được huấn luyện lại hoàn toàn từ đầu cho một phân bố khác.

DiScoFormer đột phá bằng cách sử dụng một xương sống chia sẻ (shared backbone) với hai đầu ra riêng biệt—một cho mật độ, một cho điểm số. Điểm độc đáo: vì score là gradient của logarit mật độ, hai đầu này phải nhất quán toán học. Khoảng cách giữa chúng tạo thành một mất mát nhất quán không cần nhãn (label-free consistency loss), cho phép mô hình tự thích nghi với dữ liệu ngoài phân bố (out-of-distribution) chỉ trong vài bước gradient, mà không cần ground-truth. Kiến trúc transformer phù hợp với bài toán này vì lý do toán học: tác giả chứng minh rằng trọng số của một khối chú ý (attention head) gần như là một nhân Gaussian trên dữ liệu, tương đương với KDE—vậy nên một khối cross-attention đã có thể tái tạo lại mật độ và điểm số của KDE, rồi từ đó, mô hình học được nhiều thang đo khác nhau cùng lúc và thích nghi chúng với dữ liệu.

Hiệu suất vượt trội trong chiều cao

Kết quả thực nghiệm cho thấy DiScoFormer vượt trội hơn KDE rõ rệt ở cả ước lượng mật độ lẫn ước lượng điểm số, và chênh lệch này càng lớn ở những nơi mà KDE gặp khó khăn nhất. Ở 100 chiều—một thử thách kinh điển—so với KDE được tinh chỉnh thủ công tốt nhất, DiScoFormer giảm lỗi điểm số khoảng 6,5 lần và lỗi mật độ hơn 37 lần, đồng thời tiếp tục cải thiện khi thêm mẫu trong khi KDE sắp cạn kiệt bộ nhớ. Mô hình cũng thể hiện khả năng tổng quát hóa vượt xa dữ liệu huấn luyện: nó vẫn chính xác trên các hỗn hợp có số lượng thành phần (mode) nhiều hơn những gì từng thấy khi huấn luyện, và trên những phân bố không phải Gaussian như Laplace hay Student-t. Điểm mạnh còn lại của KDE là tốc độ, đặc biệt khi bộ dữ liệu nhỏ. Nhóm AI2 huấn luyện DiScoFormer trên Gaussian Mixture Models (GMM) vì hai lý do: GMM là xấp xỉ mật độ phổ quát—với đủ thành phần chúng khớp với gần như bất kỳ phân bố trơn nào, và GMM có dạng đóng cho mật độ và điểm số, cung cấp mục tiêu giám sát chính xác. Bằng cách sinh ra một GMM mới cho mỗi batch, mô hình nhận được các ví dụ về phân bố mục tiêu gần như vô hạn.

Ảnh hưởng rộng rãi đến nhiều lĩnh vực

Ý nghĩa của DiScoFormer vượt ra ngoài bài toán ước lượng phân bố thuần túy. Ước lượng điểm số là một nhu cầu chung được chia sẻ qua nhiều lĩnh vực: mô hình sinh tạo (công nghệ đằng sau các bộ tạo ảnh AI như Stable Diffusion và DALL-E), suy luận Bayesian, và tính toán khoa học (ví dụ mô phỏng hạt để mô hình hóa các hệ thống như plasma). Một bộ ước lượng được huấn luyện sẵn, plug-and-play, vẫn chính xác ở các chiều cao và loại bỏ nhu cầu huấn luyện lại cho mỗi bài toán, có thể giảm chi phí tính toán trên toàn bộ các lĩnh vực này—một mô hình duy nhất, được tái sử dụng ở bất cứ nơi nào mà mật độ và điểm số xuất hiện. Đây là bước tiến có ý nghĩa thực tiễn cao cho cộng đồng nghiên cứu và ứng dụng.

DiScoFormer: Transformer thống nhất ước lượng mật độ và điểm số của phân bố

Bước ngoặt trong ước lượng phân bố xác suất

Vượt qua hạn chế của phương pháp cổ điển

Hiệu suất vượt trội trong chiều cao

Ảnh hưởng rộng rãi đến nhiều lĩnh vực

◗ Nguồn