Cross-entropy loss — Những loss function thường gặp (phần 2)
Tham khảo phần 1:
https://medium.com/@cleverduck/nh%E1%BB%AFng-loss-function-th%C6%B0%E1%BB%9Dng-g%E1%BA%B7p-ph%E1%BA%A7n-1-334af09b767c
Hi các bạn, như đã nói ở phần trước thì phần này mình sẽ chỉ nói về cross-entropy loss. Vậy nó là gì mà sao được ưu ái đến vậy?. Bạn hãy đọc hết bài này rồi đánh giá xem nó có xứng đáng không nhé 😂.
Information
Trong Information Theory(Lý thuyết thông tin), self-information được định nghĩa là lượng thông tin của một ‘thông điệp’ nhất định có thể bổ sung vào kiến thức tổng thể.
Ví dụ, với một thông điệp ‘Nước biển hôm nay mặn’ thì chắc hẳn chẳng mang lại lượng thông tin gì.
Một ví dụ thông điệp khác: ‘ Tung 1 đồng xu lần đầu xuất hiện là mặt ngửa’, rõ ràng xác suất xuất hiện mặt ngửa là 0.5, Dẫn đến ta cần một độ đo để định lượng lượng thông tin trong mỗi thông điệp.
Trong nghiên cứu của Claude Shannon về Information Theory, ông đã đưa ra hàm tính toán phù hợp để định lượng thông tin:
Trong đó:
I(E): hàm lượng thông tin của một thông điệp với một biến cố E.
P(x): xác suất xuất hiện của x.
b: cơ số đơn vị ( nếu là bits thì b=2)
Quay lại ví dụ ban đầu, áp dụng công thức của Shannon, ta có thể tính lượng thông tin trong mỗi thông điệp như sau:
‘Nước biển hôm nay mặn’ (probability = 1) | Information = -log2(1) = 0
‘Tung 1 đồng xu lần đầu xuất hiện là mặt ngửa’ (probability = 0.5)| Information = -log2(0.5) = 1 bit
Entropy
Vậy với một chuỗi biến cố (event) thì sao?
Entropy chính là trung bình thông tin của biến ngẫu nhiên rời rạc (Discrete random variable).
Entropy H của của một phân phối xác suất (probability distribution) của một biến ngẫu nhiên rời rạc được định nghĩa:
Với pi = 0, log_b(0) không xác định. Tuy nhiên ta có:
Vậy với các trường hợp xác suất bằng 0, ta quy ước 0*log_b(0) = 0.
Ví dụ: Có 10 quả cầu trong thùng, 7 quả trắng và 3 quả đen. Chọn ngẫu nhiên 1 quả cầu trong thùng. Áp dụng công thức trên ta có:
Entropy là độ đo bất xác định khi dự đoán trạng thái của một biến ngẫu nhiên X. Entropy thông tin của biến ngẫu nhiên X càng cao (càng nhiều thông tin chứa trong thông điệp) thì càng khó dự đoán.
Cross-Entropy
Cross Entropy là độ đo giữa hai phân bốp và q để đo lượng trung bình thông tin khi dùng mã hóa thông tin của phân bố q thay cho mã hóa thông tin phân bố p.
Khi qi=pi với ∀i, thì Cross Entropy bằng với Entropy hay nói cách khác H(p,q)=H(p).
Cross-Entropy Loss
Nói luyên thuyên nãy giờ, lấy ví dụ trong machine learning, ta sẽ dùng cross-entropy như là 1 loss function. Xem P là phân phối đúng (true distribution), Q là phân phối hiện tại. Từ công thức trên ra rút ra các nhận xét sau:
* Hàm loss đạt giá trị nhỏ nhất khi P=Q. Loss = 0
* Hàm này phạt rất nặng khi xác suất p_i lớn nhưng q_i lại nhỏ, lý do là do hàm −logb(x) tăng rất nhanh khi x càng nhỏ và tiến về 0.