Simpson Paradoksu, istatistikteki gruplandırma etkisinden kaynaklanan ve verilerin bütün halinde ile parçalara ayrıldığında tam tersi sonuçlar verebilmesini ifade eden bir fenomendir. İlk kez 1951’de Edward H. Simpson tarafından tanımlanmış, ancak daha önceki istatistik çalışmalarında da gözlemlenmiştir.
Temel Mantık:
Veriler gruplara ayrıldığında bir trend gösterirken, birleştirildiğinde bu trendin tersine dönmesidir. Bu paradoks, yanlış yorumlamalara ve hatalı kararlara yol açabilir.
Ünlü Örneklerle Açıklama
1. Berkeley Üniversitesi Cinsiyet Ayrımcılığı Örneği (1973)
- Sorun: Kadınların üniversiteye kabul oranı (%35) erkeklerden (%44) daha düşüktü. Bu, cinsiyet ayrımcılığı şüphesi yarattı.
- Paradoksun Ortaya Çıkışı:
- Bölümlere göre ayrı ayrı bakıldığında, çoğu bölümde kadınların kabul oranı erkeklerden yüksekti.
- Ancak kadınlar, yüksek başvuru sayısına sahip düşük kabul oranlı bölümlere daha fazla başvurmuştu.
- Sonuç: Genel oranlar yanıltıcıydı; aslında sistematik bir ayrımcılık yoktu.
2. Tıbbi Tedavi Örneği
- Senaryo: İki farklı tedavi yöntemi (A ve B) karşılaştırılsın.
Grup | Tedavi A (Başarı/Yapılan) | Tedavi B (Başarı/Yapılan) | Başarı Oranı |
---|---|---|---|
Hafif Vakalar | 200/300 | 30/100 | A: %67 > B: %30 |
Ağır Vakalar | 10/100 | 50/300 | A: %10 < B: %17 |
Toplam | 210/400 (%52.5) | 80/400 (%20) | A > B |
- Paradoks:
- Hafif ve ağır vakalarda Tedavi B daha başarısız görünürken, toplamda Tedavi A daha iyi çıkar.
- Sebep: Tedavi B, ağır vakalarda daha sık kullanılmış ve genel ortalamayı düşürmüştür.
Paradoksun Nedenleri
- Grupların Heterojenliği:
- Veriler, gizli bir değişkenle (örneğin, hastalık şiddeti) gruplanmış olabilir.
- Örneklem Dengesizliği:
- Grupların büyüklükleri farklıysa (örneğin, 300 vs. 100), oranlar yanıltıcı olabilir.
- Yanlış Toplama:
- Ortalamaların ortalaması alınırken, ağırlıklandırma hataları yapılabilir.
Gerçek Hayattan Örnekler
- Spor İstatistikleri:
- Bir basketbolcu, maçları tek tek daha yüksek şut yüzdesiyle bitirse de, sezon genelinde daha düşük ortalamaya sahip olabilir.
- Ekonometri:
- Gelir ve eğitim ilişkisi, ülkeler bazında farklıyken, global veride tersi çıkabilir.
Nasıl Önlenir?
- Veriyi Doğru Parçala:
- Gizli değişkenleri (yaş, cinsiyet, coğrafya) kontrol et.
- Ağırlıklandırma Yap:
- Grup büyüklüklerini dengelemek için standartlaştırma uygula.
- Sebep-Sonuç İlişkisini İncele:
- Korelasyon, nedensellik değildir!
Önemli Uyarılar
- “Lüks Araba Kullananlar Daha Az Kazaya Karışır” gibi bir veri, aslında yaş veya deneyim gibi faktörlerden kaynaklanıyor olabilir.
- İlaç Denemelerinde, hasta gruplarının profili (yaş, cinsiyet) sonucu çarpıtabilir.
Popüler Kültürde Simpson Paradoksu
- Freakonomics Kitabı: Veri analizindeki yanıltıcı örüntüleri örnekler.
- The Simpsons: “Lisa’nın İstatistik Dersi” bölümünde benzer mantık hataları işlenir.
Sonuç: Neden Önemli?
- Yanlış kararlar (tıp, politika, iş stratejileri) verebilirsiniz.
- Veri okuryazarlığı, günümüzün en kritik becerilerindendir.
Sizce, “Kadınların iyileşme oranı daha yüksek” diyen bir istatistik, Simpson Paradoksu’nu gizliyor olabilir mi?