Phân loại xác suấtTrong học máy, một bộ phân loại xác suất là một bộ phân loại có khả năng dự đoán, dựa trên việc quan sát một đầu vào, một phân phối xác suất trên tập hợp các lớp thay vì chỉ đưa ra lớp có khả năng xảy ra cao nhất mà đầu vào đó thuộc về. Các bộ phân loại xác suất cung cấp kết quả phân loại không chỉ hữu ích tự thân [1] mà còn có giá trị khi được kết hợp trong các mô hình tổng hợp ensembles. Các loại phân loạiMột cách chính thức, một bộ phân loại "thông thường" là một quy tắc hoặc hàm số, gán cho một mẫu x một nhãn lớp ŷ Các mẫu dữ liệu được lấy từ một tập hợp X (ví dụ, tập hợp tất cả các tài liệu hoặc tập hợp tất cả các hình ảnh), trong khi các nhãn lớp tạo thành một tập hợp hữu hạn Y được xác định trước khi tiến hành quá trình huấn luyện. Các bộ phân loại xác suất mở rộng khái niệm này của bộ phân loại: thay vì là các hàm, chúng được biểu diễn dưới dạng các phân phối xác suất có điều kiện . Điều này có nghĩa là, đối với một giá trị đầu vào , chúng gán các xác suất cho tất cả (với tổng các xác suất này bằng 1). Việc phân loại "cứng" (hard classification) sau đó có thể được thực hiện bằng cách áp dụng quy tắc ra quyết định tối ưu[2]:39–40 Hoặc, nói cách khác, lớp được dự đoán là lớp có xác suất cao nhất. Các bộ phân loại xác suất nhị phân còn được gọi là các mô hình hồi quy nhị phân trong thống kê. Trong kinh tế lượng, phân loại xác suất nói chung được gọi là lựa chọn rời rạc (discrete choice).Một số mô hình phân loại, chẳng hạn như Naive Bayes,hồi quy logistic và perceptron nhiều lớp (khi được huấn luyện với hàm mất mát phù hợp), vốn dĩ mang tính chất xác suất. Ngược lại, các mô hình khác như máy vector hỗ trợ (SVM) không có tính chất xác suất tự nhiên, nhưng vẫn có các phương pháp để chuyển đổi chúng thành các bộ phân loại xác suất. Huấn luyện sinh và huấn luyện có điều kiệnMột số mô hình, chẳng hạn như hồi quy logistic, được huấn luyện theo cách có điều kiện: chúng tối ưu hóa trực tiếp xác suất có điều kiện trên tập dữ liệu huấn luyện (xem thêm khái niệm giảm thiểu rủi ro thực nghiệm - empirical risk minimization). Các bộ phân loại khác, chẳng hạn như Naive Bayes, được huấn luyện theo phương pháp sinh: trong quá trình huấn luyện, phân phối có điều kiện theo lớp và phân phối tiên nghiệm của lớp được tìm ra, sau đó phân phối có điều kiện được suy ra bằng cách sử dụng định lý Bayes.[2]:43 Hiệu chỉnh xác suấtKhông phải tất cả các mô hình phân loại đều mang tính xác suất tự nhiên, và một số mô hình vốn dĩ có tính xác suất, điển hình như bộ phân loại Naive Bayes, cây quyết định và các phương pháp boosting, lại sinh ra các phân phối xác suất lớp bị biến dạng[3]. Trong trường hợp của cây quyết định, nơi mà Pr(y|x) là tỷ lệ các mẫu huấn luyện có nhãn y trong lá mà x kết thúc, những biến dạng này xảy ra vì các thuật toán học máy như C4.5 hoặc CART rõ ràng nhắm đến việc tạo ra các lá đồng nhất (cung cấp các xác suất gần bằng không hoặc một, từ đó tạo ra độ chệch cao) trong khi sử dụng ít mẫu để ước lượng tỷ lệ liên quan (độ phương sai cao)[4].
Trong trường hợp nhị phân, một phương pháp phổ biến là áp dụng hiệu chỉnh Platt, phương pháp này học một mô hình hồi quy logistic trên các điểm số[6]. Một phương pháp thay thế sử dụng hồi quy isotonic[7] thường vượt trội hơn phương pháp của Platt khi có đủ dữ liệu huấn luyện[3]. Trong trường hợp [phân loại đa lớp]], có thể sử dụng phương pháp giảm bớt thành các nhiệm vụ nhị phân, sau đó thực hiện hiệu chỉnh đơn biến với một thuật toán như đã mô tả ở trên và tiếp tục áp dụng thuật toán ghép cặp theo cặp của Hastie và Tibshirani[8]. Đánh giá phân loại xác suấtCác chỉ số đánh giá thường được sử dụng để so sánh xác suất dự đoán với kết quả quan sát bao gồm log loss, điểm Brier và một loạt các lỗi hiệu chỉnh. Chỉ số log loss cũng được sử dụng như một hàm mất mát trong quá trình huấn luyện các mô hình hồi quy logistic. Các chỉ số lỗi hiệu chỉnh nhằm mục đích định lượng mức độ mà đầu ra của bộ phân loại xác suất được hiệu chỉnh tốt. Như Philip Dawid đã phát biểu, "một người dự báo được hiệu chỉnh tốt nếu, ví dụ, đối với những sự kiện mà anh ta gán xác suất 30%, tỷ lệ sự kiện thực sự xảy ra trong dài hạn là 30%."[9]. Công trình nền tảng trong lĩnh vực đo lường lỗi hiệu chỉnh là chỉ số Lỗi Hiệu Chỉnh Mong Đợi (Expected Calibration Error - ECE)[10]. Các công trình gần đây đề xuất các biến thể của ECE nhằm giải quyết các hạn chế của chỉ số ECE có thể phát sinh khi các điểm số của bộ phân loại tập trung vào một tập con hẹp của khoảng [0,1], bao gồm Lỗi Hiệu Chỉnh Thích Ứng (Adaptive Calibration Error - ACE)[11] và Lỗi Hiệu Chỉnh Dựa Trên Kiểm Tra (Test-based Calibration Error - TCE)[12] . Một phương pháp được sử dụng để gán điểm số cho các cặp xác suất dự đoán và kết quả rời rạc thực tế, nhằm so sánh các phương pháp dự đoán khác nhau, được gọi là quy tắc tính điểm (scoring rule). Các Triển Khai Phần MềmMoRPE[13] là một bộ phân loại xác suất có thể huấn luyện, sử dụng hồi quy isotonic để hiệu chỉnh xác suất. Nó giải quyết bài toán phân loại đa lớp thông qua phương pháp giảm bớt thành các nhiệm vụ nhị phân. Đây là một loại máy hạt nhân sử dụng hạt nhân đa thức không đồng nhất. Tài liệu tham khảo
|