Không có gian lận. Không có lỗi tính toán. Chỉ có thống kê.
Đó là Nghịch lý Simpson.
Nghịch lý Simpson là gì?
Nghịch lý Simpson xảy ra khi một xu hướng xuất hiện trong từng nhóm dữ liệu riêng lẻ, nhưng biến mất hoặc đảo ngược khi các nhóm đó được gộp lại.
Nói cách khác:
- Dữ liệu chi tiết nói một câu chuyện.
- Dữ liệu tổng hợp kể một câu chuyện hoàn toàn khác.
Và cả hai đều đúng theo mặt toán học.
Một ví dụ đơn giản
Giả sử hai sinh viên cùng nộp đơn vào hai khoa khác nhau.
Ở từng khoa:
- Sinh viên A có tỷ lệ trúng tuyển cao hơn.
- Sinh viên B có tỷ lệ trúng tuyển thấp hơn.
Nhưng nếu sinh viên A chủ yếu nộp vào khoa khó, còn sinh viên B nộp vào khoa dễ, thì khi gộp lại:
Sinh viên B lại có tỷ lệ trúng tuyển cao hơn.
Không ai gian lận.
Chỉ là bối cảnh đã thay đổi cách dữ liệu được hiểu.
Vì sao nghịch lý này nguy hiểm?
Nghịch lý Simpson cho thấy rằng số liệu có thể đánh lừa ngay cả khi chúng hoàn toàn chính xác.
Nếu chỉ nhìn vào kết quả tổng thể, ta có thể đi đến kết luận sai.
Điều này đặc biệt nguy hiểm trong:
- Nghiên cứu y học
- Phân tích dữ liệu
- Chính sách công
- Quyết định kinh doanh
Một quyết định dựa trên dữ liệu sai cách có thể dẫn đến hậu quả rất thật.
Nguyên nhân gốc rễ của nghịch lý Simpson
Vấn đề nằm ở các biến ẩn.
Khi gộp dữ liệu, ta vô tình trộn lẫn những nhóm có đặc điểm khác nhau.
Các yếu tố như:
- Độ khó
- Quy mô mẫu
- Phân bố không đồng đều
có thể làm đảo ngược xu hướng tổng thể.
Dữ liệu không tự nói lên sự thật. Cách ta nhóm dữ liệu mới là điều quyết định.
Nghịch lý Simpson nói gì về tư duy con người?
Con người thích những con số đơn giản và kết luận rõ ràng.
Chúng ta có xu hướng tin vào:
- Tỷ lệ tổng
- Con số trung bình
- Bảng xếp hạng
Nghịch lý Simpson nhắc nhở rằng bối cảnh quan trọng không kém con số.
Một biểu đồ đẹp có thể che giấu một sự thật xấu.
Làm sao để tránh bị nghịch lý Simpson đánh lừa?
Không có công thức tuyệt đối, nhưng có một số nguyên tắc:
- Luôn xem dữ liệu ở nhiều mức độ.
- Tìm kiếm các biến có thể ảnh hưởng đến kết quả.
- Đặt câu hỏi về cách dữ liệu được gộp lại.
Thống kê không chỉ là tính toán, mà là tư duy.
Kết luận
Nghịch lý Simpson cho thấy rằng dữ liệu có thể hoàn toàn đúng, nhưng kết luận lại hoàn toàn sai.
Trong một thế giới ngập tràn biểu đồ và con số, khả năng đặt câu hỏi quan trọng hơn bao giờ hết.
Bởi vì đôi khi, điều nguy hiểm nhất không phải là thiếu dữ liệu, mà là tin dữ liệu quá nhanh.

Người Qua Đường
5 tháng trước
Làm data mà không để ý mấy cái này chắc ra quyết định sai hoài. Bài này đọc xong thấy nhìn số liệu phải cẩn thận hơn nhiều.