NAIVE BAYES LÀ GÌ

bộ phân lớp Bayes là một trong giải thuật ở trong lớp giải mã thống kê, nó có thể dự đoán xác suất của 1 phần tử tài liệu thuộc vào một trong những lớp là bao nhiêu. Phân lớp Bayes được dựa trên định lý Bayes (định lý được đặt theo tên tác giả của nó là Thomas Bayes)

1. Định lý Bayes

Gọi A, B là hai đổi mới cố


*

*

trong các số ấy ta hotline A là 1 trong những chứng cứ (evidence) (trong bài toán phân lớp A sẽ là 1 phần tử dữ liệu), B là một trong giả thiết nào để cho A ở trong về một lớp C như thế nào đó. Trong việc phân lớp bọn họ muốn xác minh giá trị P(B/A) là tỷ lệ để giả thiết B là đúng với chứng cứ A ở trong vào lớp C với đk ra đã biết các thông tin biểu hiện A. P(B|A) là một xác suất hậu nghiệm (posterior probability hay posteriori probability) của B với đk A. Giả sử tập tài liệu liệu quý khách hàng của bọn họ được diễn tả bởi những thuộc tính tuổi và thu nhập, và một khách hàng X gồm tuổi là 25 và thu nhập cá nhân là 2000$. Trả sử H là trả thiết người sử dụng đõ sẽ sở hữu máy tính, thì P(H|X) đề đạt xác xuất người dùng X đang mua máy tính với đk ta biết tuổi và thu nhập cá nhân của người đó. Ngược lại P(H) là xác suất tiền nghiệm (prior probability tốt priori probability) của H. Trong ví dụ trên, nó là tỷ lệ một quý khách hàng sẽ mua máy vi tính mà không cần biết các tin tức về tuổi hay các khoản thu nhập của họ. Tuyệt nói phương pháp khác, tỷ lệ này không phụ thuộc vào yếu tố X. Tương tự, P(X|H) là xác suất của X với đk H (likelihood), nó là một tỷ lệ hậu nghiệm. VÍ dụ, nó là xác suất người tiêu dùng X (có tuổi là 25 và các khoản thu nhập là $200) đang mua máy tính xách tay với đk ta đang biết người này sẽ mua đồ vật tính. Sau cùng P(X) là tỷ lệ tiền nghiệm của X. Trong lấy ví dụ như trên, nó se là xác xuất một fan trong tập dữ liệu sẽ sở hữu được tuổi 25 và các khoản thu nhập $2000.

Bạn đang xem: Naive bayes là gì

Posterior = Likelihood * Prior / Evidence

2. Phân lớp Naive Bayes

bộ phân lớp Naive bayes hay bộ phân lớp Bayes (simple byes classifier) vận động như sau:

Gọi D là tập tài liệu huấn luyện, trong các số đó mỗi bộ phận dữ liệu X được màn biểu diễn bằng một vector đựng n cực hiếm thuộc tính A1, A2,...,An = x1,x2,...,xnGiả sử có m lớp C1, C2,..,Cm. Cho một trong những phần tử dữ liệu X, cỗ phân lớp đang gán nhãn mang đến X là lớp có phần trăm hậu nghiệm béo nhất. Nạm thể, bộ phân lớp Bayes sẽ dự đoán X trực thuộc vào lớp Ci nếu và chỉ nếu:P(Ci|X) > P(Cj|X) (1 cực hiếm này vẫn tính dựa vào định lý Bayes.Để tìm tỷ lệ lớn nhất, ta phân biệt các cực hiếm P(X) là tương tự nhau với đa số lớp đề nghị không đề nghị tính. Cho nên ta chỉ cần tìm giá chỉ trị lớn số 1 của P(X|Ci) * P(Ci). Chú ý rằng P(Ci) được cầu lượng bởi |Di|/|D|, trong các số đó Di là tập các thành phần dữ liệu nằm trong lớp Ci. Nếu phần trăm tiền nghiệm P(Ci) cũng không xác định được thì ta coi chúng đều nhau P(C1) = P(C2) = ... = P(Cm), khi ấy ta chỉ việc tìm quý giá P(X|Ci) lớn nhất.Khi số lượng các trực thuộc tính tế bào tả dữ liệu là lớn thì ngân sách chi tiêu tính toàn P(X|Ci) là vô cùng lớn, dó đó rất có thể giảm độ phức hợp của thuật toán Naive Bayes trả thiết những thuộc tính độc lập nhau. Khi ấy ta có thể tính:P(X|Ci) = P(x1|Ci)...P(xn|Ci)

Ví dụ 1:

Phân những bệnh nhân thành 2 lớp ung thư cùng không ung thư. Giả sử phần trăm để một fan bị ung thư là 0.008 tức là P(cancer) = 0.008; cùng P(nocancer) = 0.992. Phần trăm để người mắc bệnh ung thư có hiệu quả xét nghiệm dương tính là 0.98 và tỷ lệ để người bệnh không ung thư có hiệu quả dương tính là 0.03 có nghĩa là P(+/cancer) = 0.98, P(+/nocancer) = 0.03. Hiện nay giả sử một người bệnh có công dụng xét nghiệm dương tính. Ta có:P(+/canncer)P(cancer) = 0.98 * 0.008 = 0.0078P(+/nocancer)P(nocancer) = 0.03 * 0.992 = 0.0298Như vậy, P(+/nocancer)P(nocancer) >> P(+/cancer)P(cancer).Do đó ta xét đoán rằng, người bệnh là không ung thư.

Ví dụ 2:

Cơ sở dữ liệu khách hàng:

IDTuổiThu nhậpSính viênĐánh giá tín dụngMua đồ vật tính
1youthhighnofairno
2youthhighnoexcellentno
3middlehighnofairyes
4seniormediumnofairyes
5seniorlowyesfairyes
6seniorlowyesexcellentno
7middlelowyesexcellentyes
8youthmedumnofairyes
9youthlowyesfairyes
10seniormediumyesfairyes
11youthmediumyesexcellentyes
12middlemediumnoexcellentyes
13middlehighyesfairyes
14seniormediumnoexcellentno

trả sử ta gồm một quý khách hàng mới X có những thuộc tínhX = (age = youth, income = medium, student = yes, credit_rating = fair)Bây giớ cần xác định xem người tiêu dùng X có thuộc lớp Cyes (mua sản phẩm tính) tốt không, ta đo lường và thống kê như sau:P(Cyes) = 9/14 = 0.357Các xác suất thành phần: P(age = youth|Cyes) = 2/9 = 0.222P(age = youth|Cno) = 3/5 = 0.6P(income = medium|Cyes) = 4/9 = 0.444P(income = medium|Cno) = 2/5 = 0.4P(student = yes|Cyes) = 6/9 = 0.667P(student = yes|Cno) = 1 tháng 5 = 0.2P(credit_rating = fair|Cyes) = 6/9 = 0.667P(credit_rating = fair|Cno) = 2/5 = 0.2Cuối cùng:P(X|Cyes) = 0.222 * 0.444 * 0.667 * 0.667 = 0.044P(X|Cno) = 0.60.4 * 0.2 * 0.4 = 0.019P(X|Cyes)*P(Cyes) = 0.044 * 0.643P(X|Cno)*P(Cno) =0.019 * 0.357 = 0.007

Từ kết quả này ta thấy P(X |Cyes)P(Cyes) có giá trị to nhất, vì thế thuật toán Bayes sẽ kết luận là khách hàng X sẽ cài máy tính.

3. Hạn chế và khắc phục vấn đề tỷ lệ điều kiện bằng zero

Nếu trong dữ liệu đào tạo và giảng dạy không có đối tượng X nào gồm thuộc tính lớp ông xã có ở trong tính Fi thừa nhận một giá trị cụ thể vij, xác suất điều khiếu nại P(Fi = xij | Ck) sẽ bởi 0.Khi phân lớp, nếu có một đối tượng nào với thuộc tính này thì tỷ lệ phân vào lớp ông chồng luôn bởi 0.Khắc phục bằng cách ước lượng theo công thức sau:


*

4. Ưu điểm

Giả định độc lập: hoạt động tốt cho nhiều bài bác toán/miền sữ liệu với ứng dụng.Đơn giản dẫu vậy đủ xuất sắc để xử lý nhiều việc như phân lớp văn bản, lọc spam,..Cho phép phối hợp tri thức chi phí nghiệm (prior knowledge) và dữ liệu quan tiếp giáp được (obserwed data). tốt khi gồm sự chệnh lệch số lượng giữa các lớp phân loại.Huấn luyện mô hình (ước lượng tham số) dễ và nhanh.

Xem thêm: Thu Ngân Tiếng Anh Là Gì, Từ Vựng Cho Nhân Viên Thu Ngân, Tiếng Anh Dành Cho Nhân Viên Thu Ngân Nhà Hàng

5. Nhược điểm

Giả định hòa bình (ưu điểm cũng đó là nhược điểm) hầu như các trường hợp thực tế trong kia có những thuộc tính vào các đối tượng thường phụ thuộc vào lẫn nhau.Vấn đề zero (đã nêu cách giải quyết và xử lý ở phía trên)Mô hình không được huẩn luyện bởi phượng pháp buổi tối ưu bạo dạn và chặt chẽ.Tham số mủa quy mô là những ước lượng tỷ lệ điều kiện đối chọi lẻ.Không tính tới sự tương tác giữa những ước lượng này.

6. Ứng mức sử dụng thể

6.1. Phân lớp văn bạn dạng (document classification)

6.2. Thanh lọc spam (Spam filtering)

Tham khảo: Bayesian spam filtering http://en.wikipedia.org/wiki/Bayesian_spam_filteringhttp://en.wikipedia.org/wiki/Naive_Bayes_classifierhttp://en.wikipedia.org/wiki/Email_filtering

Bài viết xem thêm từ cuốn "Giáo trình khai thác dữ liệu" của thầy Hà quang Thụy - Nguyễn Hà phái nam - Nguyễn Trí Thành

*