19  Pi Çarpım Notasyonu

Σ’nın çarpım kardeşi — olabilirliğin dili

Toplam sembolü Σ terimleri topluyordu. Büyük pi (\(\Pi\)) ise aynı yapıyla terimleri çarpar. Σ’nın çarpım kardeşidir — ve makine öğrenmesinde olabilirliğin (likelihood) dilidir; log-loss’un neden var olduğunu da bu sembol açıklar.

19.1 Π ne demek?

\[\prod_{i=1}^{n} a_i = a_1 \cdot a_2 \cdot a_3 \cdots a_n\]

Anatomisi Σ ile birebir aynıdır (indis, alt sınır, üst sınır, terim) — tek fark, işlemin çarpma olmasıdır.

19.2 Nasıl hesaplanır?

İndise sırayla değer ver, sonuçları çarp:

\[\prod_{i=1}^{4} i = 1 \cdot 2 \cdot 3 \cdot 4 = 24\] \[\prod_{i=1}^{3} 2 = 2 \cdot 2 \cdot 2 = 8 \quad (\text{sabit terim: } 2^n)\]

19.3 Faktöriyel bir çarpımdır

İleride göreceğin Faktöriyel ve Sayma dersindeki faktöriyel, aslında tam olarak bir Π’dir:

\[n! = \prod_{i=1}^{n} i\]

Yani \(4! = \prod_{i=1}^{4} i = 24\). Çarpım notasyonu, faktöriyeli kısa ve kesin yazmanın yoludur.

19.4 Π → log → Σ

Π’nin ML’deki asıl önemi şu zincirde: olasılıkların çarpımı çok hızlı küçülür.

Şekil 19.1: Olasılıkların çarpımı hızla küçülür: her biri 0.7 olan 15 olasılık çarpılınca sonuç ~0.005’e iner; çok terimde sayısal olarak sıfıra çöker. Bu yüzden logaritma alıp toplamaya döneriz.

Çözüm logaritmadır (Logaritma dersi): logaritma çarpımı toplamaya çevirdiği için, çarpım yerine logaritmaların toplamını kullanırız:

\[\log\!\left(\prod_{i=1}^{n} p_i\right) = \sum_{i=1}^{n} \log p_i\]

Sağ taraf sayısal olarak kararlıdır — küçük sayıların çarpımı sıfıra çökerken, logaritmalarının toplamı çökmez.

ÖnemliΠ çarpar, Σ toplar

\(\prod\) terimleri çarpar, \(\sum\) toplar — anatomileri aynı, işlemleri farklı. Faktöriyel bir çarpımdır: \(n! = \prod_{i=1}^{n} i\). Ve olasılık çarpımları, logaritma alınca toplama dönüşür.

Uyarıİki tuzak
  • Π’de sabit terim \(c^n\)’dir (\(n\) kez çarpılır), \(nc\) değil — Σ’daki \(nc\) ile karıştırma.
  • Çok sayıda küçük sayının çarpımı sayısal olarak sıfıra çöker (underflow); pratikte bu yüzden çarpım yerine log-toplam kullanılır.

19.5 Örnek

Örnek 1. \(\displaystyle\prod_{i=1}^{3} i = 1 \cdot 2 \cdot 3 = 6\) (yani \(3!\)).

Örnek 2. \(\displaystyle\prod_{i=1}^{3} (i + 1) = 2 \cdot 3 \cdot 4 = 24\).

İpucuML köprüsü

Bir modelin olabilirliği (likelihood), tüm veri noktalarının olasılıklarının çarpımıdır (bağımsızlık varsayımıyla):

\[L = \prod_{i=1}^{n} p_i\]

Bu çarpım çok terimde sıfıra çöktüğü için, ML modelleri bunun yerine log-olabilirliği kullanır: \(\log L = \sum_{i=1}^{n} \log p_i\). Maksimize edilen şey log-olabilirlik, minimize edilen kayıp ise log-loss’tur. Yani Π (bu ders) + logaritma (Logaritma dersi) + Σ (Toplam Sembolü dersi), neden log aldığımızın tam açıklamasıdır.

19.6 Alıştırmalar

  1. \(\displaystyle\prod_{i=1}^{3} i = ?\)
  2. \(\displaystyle\prod_{i=1}^{4} i = ?\) (hangi tanıdık sayı?)
  3. \(\displaystyle\prod_{i=1}^{3} 2 = ?\)
  4. \(n!\)’i çarpım notasyonuyla nasıl yazarsın?
  5. \(\displaystyle\prod_{i=1}^{3} (i + 1) = ?\)
  6. Olabilirlik \(L = p_1 \cdot p_2 \cdot p_3\)’ü Π ile yaz.
  1. \(1 \cdot 2 \cdot 3 = 6\)
  2. \(1 \cdot 2 \cdot 3 \cdot 4 = 24\) (yani \(4!\))
  3. \(2 \cdot 2 \cdot 2 = 8\)
  4. \(n! = \displaystyle\prod_{i=1}^{n} i\)
  5. \(2 \cdot 3 \cdot 4 = 24\)
  6. \(L = \displaystyle\prod_{i=1}^{3} p_i\)

Sonraki ders: Seriler.