Roc curve là gì

ROC (Receiver operating characteristic) là một trong đồ thị được thực hiện khá phổ biến trong validation các model phân loại nhị phân. Đường cong này được chế tác ra bằng cách biểu diễn phần trăm dự báo true positive rate (TPR) dựa trên phần trăm dự báo failse positive rate (FPR) tại những ngưỡng Threshold khác nhau. Trong machine learning chúng ta gọi true positive rate là độ tinh tế sensitivity có nghĩa là xác xuất dự báo đúng một sự kiện là positive. Tỷ lệ false positive rate là probability of false alarm (tỷ lệ cảnh báo sai, một sự kiện là negative nhưng lại coi nó là positive) và phần trăm này tương xứng với xác xuất mắc sai lạc loại II đã được trình diễn bên dưới. Bởi vậy ROC curve sẽ biểu thị mối quan liêu hệ, sự tiến công đổi và ý nghĩa sâu sắc lựa lựa chọn một model phù hợp của độ tinh tế và xác suất cảnh báo sai. Nhằm tạo ra một cái nhìn tổng quan tốt nhất về ROC, nội dung bài viết này sẽ giới thiệu đến bạn đọc thế làm sao là ROC, ý nghĩa sâu sắc học thuật và cách lựa chọn model dựa bên trên ROC.

Bạn đang xem: Roc curve là gì


I. Sai lạc loại I, II vào dự báo.

Xác xuất mắc sai lầm loại I và nhiều loại II trong đoán trước được nhắc đến không ít trong những tài liệu thống kê học và đấy là những loại sai trái đặc trưng cơ phiên bản trong các mã sản phẩm dự báo. Trả sử họ xét một model dự báo sự kiện với 2 kĩ năng positive (tích cực) và negative (tiêu cực). Các công dụng của model xảy ra sẽ lâm vào 4 nhóm sau:

TP: True positive, dự báo đúng sự kiện là positive trong trường hợp thực tiễn là positive.FP: False positive, dự đoán sai sự khiếu nại là positive trong trường hợp thực tế là negative.TN: True negative, dự đoán đúng sự kiện là negative trong trường hợp thực tiễn là negative.FN: False negative, đoán trước sai sự khiếu nại là negative trong trường hợp thực tiễn là positive.

TP cùng TN là các case dự báo đúng. Còn FP, FN là đầy đủ case đoán trước sai. FN tương tự với mắc sai trái loại I (Bác quăng quật sự kiện là positive và gán cho nó là negative) và FP tương đương với mắc sai lầm loại II (Chấp dấn một sự kiện là positive khi thực chất sự kiện cùng negative). Thông thường xác xuất mắc sai lầm loại II sẽ gây ra hậu quả phệ hơn. Mục tiêu chính của các model chuẩn đoán, lưu ý hay cai quản trị khủng hoảng rủi ro là cảnh báo sớm, phòng ngừa, đào thải các sự khiếu nại xấu nên việc tìm đúng chuẩn được sự kiện negative được ưu tiên rộng positive. Để hiểu hơn tại sao mức độ rủi ro của sai lầm loại II là cao hơn loại I chúng ta phân tích ví dụ thực tiễn sau.

Bệnh tiểu đường khá nguy hiểm nhưng xác xuất mắc bệnh tình của loại căn bệnh này đối với tỷ lệ dân sinh là khôn cùng thấp ví dụ điển hình 1:10000. Một người dân có các bộc lộ tiểu con đường và triển khai các xét nghiệm. Sau thời điểm xem kết quả họ giả định rằng chưng sĩ tóm lại sai. Lúc ấy có 2 năng lực xảy ra:

Loại I: phiên bản thân bệnh dịch nhân trọn vẹn bình thường, bác sĩ kết luận bệnh nhân bị tiểu đường.

Loại II: người bị bệnh bị tiểu đường nhưng bác bỏ sĩ kết luận hoàn toàn bình thường.

Rõ ràng sai lạc loại II gây ra hậu quả lớn hơn vì người mắc bệnh không phát hiện sớm bệnh của chính mình để điều trị kịp thời vẫn dẫn mang đến bệnh trở nên tân tiến xấu đi. Sai trái loại I có ảnh hưởng tới giá thành khám chữa bệnh nhưng không ảnh hưởng đến sức mạnh và kết quả là ít rất lớn hơn.

Căn cứ vào khoảng độ khủng hoảng rủi ro này song khi chúng ta sẽ lựa chọn mã sản phẩm dựa trên tiêu chuẩn mức độ thiệt hại mang lại là thấp tuyệt nhất mà không hẳn là các chỉ số đo lường và tính toán sức mạnh khỏe của model như AUC, Gini, Accuracy rate. Ví dụ như nếu một model dự báo nợ xấu khách hàng có xác xuất dự báo đúng mực tốt hơn tuy nhiên khi áp dụng mã sản phẩm giá trị nợ xấu sút thiểu của chính nó thấp rộng một mã sản phẩm khác tất cả xác xuất dự báo đúng chuẩn kém hơn nữa thì vẫn lựa chọn model thứ 2 bởi mặc dù dự báo hèn hơn về tổng thể (bao có cả ngôi trường hợp dự báo đúng quý khách vỡ nợ với không đổ vỡ nợ) nhưng phần trăm dự báo đúng mực các đúng theo đồng tan vỡ nợ của nó cao hơn. Vậy nên nếu coi xác xuất dự báo và đúng là cố định thì luôn luôn có sự đánh đổi giữa các việc dự báo đúng những trường hợp giỏi và dự đoán đúng nguy cơ xấu. Hay nói theo một cách khác khi tỷ lệ đúng chuẩn dự báo nguy cơ tiềm ẩn xấu tạo thêm thì xác suất dự báo đúng chuẩn trường hợp giỏi giảm xuống. Bởi mức độ đặc biệt của việc lựa chọn phương châm mô hình là triệu tập vào dự báo nguy cơ tiềm ẩn xấu hay xuất sắc mà những thống kê học chỉ dẫn một vài ba tham số giám sát các xác suất dự báo như sensitivity, specificity.


II. Sensitivity, Specitivity và False positive rate

1.Độ nhạy model (sensitivity):

Độ tinh tế model còn gọi là TPR(True positive rate) cho thấy thêm mức độ dự báo đúng đắn trong nhóm sự kiện positive.

Sensitivity = số lượng sự khiếu nại positive được dự báo và đúng là positive/Số lượng sự khiếu nại positive.

2.Độ sệt hiệu (Specificity):

Trái lại cùng với Sensitivity là Specificity được định nghĩa là xác suất dự báo đúng mực trong team sự khiếu nại negative.

Specificity = con số sự khiếu nại negative được dự báo đúng là negative/số lượng sự khiếu nại negative.

3.Xác xuất mắc sai lầm loại II (False positive rate):

False positive rate kí hiệu là FPR có công thức:

FPR = 1-Specificity.

Xem thêm: Cách Làm Món Rau Má Xào Trứng, Cách Làm Món Rau Má Xào Tỏi Thơm Ngon

Cho biết mức độ đoán trước sai một sự kiện lúc nó là negative nhưng tóm lại là positive. False positive rate chính là tỷ lệ mắc sai trái loại II cùng là kim chỉ nam để các model quản trị khủng hoảng tối thiểu hóa nó. Bảng bên dưới sẽ cho chúng ta hình dung rõ hơn về kiểu cách tính cùng mối tương tác của những chỉ số này.