26 Machine Learning Bağlantısı
Temelden modele — tüm parçaların birleştiği yer
Bu kursun finali. Her derste bir “ML köprüsü” gördün; burada onları tek resimde birleştiriyoruz: kurduğun temel, nasıl çalışan bir makine öğrenmesi modeline dönüşür? Yeni alıştırma yok — büyük harita.
26.1 Model bir fonksiyondur
Bir model, girdi alır (özellikler bir vektör \(\vec{x}\)) ve çıktı üretir (tahmin \(\hat{y}\)). Yani model, sonuçta bir fonksiyondur (Bölüm 2). Eğitmek, veriye en iyi uyan fonksiyonu bulmaktır.
26.2 Bir nöron: dört bölümün buluştuğu nokta
Tek bir yapay nöronun hesabı, bütün foundation’ı tek satırda toplar:
\[\hat{y} = f(\vec{w} \cdot \vec{x} + b)\]
Parçalara ayır:
- \(\vec{x}\) → girdi vektörü (Bölüm 4).
- \(\vec{w} \cdot \vec{x}\) → iç çarpım \(= \sum_i w_i x_i\) (Bölüm 3 Σ + Bölüm 4 iç çarpım).
- \(+\,b\) → bias, yani \(wx + b\)’deki kesişim (Bölüm 2 doğrusal fonksiyon).
- \(f(\cdot)\) → aktivasyon, çoğu zaman \(e^{-x}\) içeren sigmoid (Bölüm 2 üstel).
Yani tek bir nöron, dört bölümün de kavramını kullanır.
26.3 Öğrenme: hatayı azaltmak
- Kayıp (loss): modelin ne kadar yanıldığı. MSE \(= \frac{1}{n}\sum_i (y_i - \hat{y}_i)^2\) — kare hataların ortalaması (Σ + kare).
- Doğrusal regresyonda (aktivasyonsuz, \(\hat{y} = \vec{w} \cdot \vec{x} + b\)) kayıp, ağırlıkların konveks bir çukurudur (parabol); en dipte tek bir en iyi parametre durur. Nöronda sigmoid gibi doğrusal-olmayan bir aktivasyon olunca yüzey genelde konveks değildir, ama fikir aynı: en düşük kayba inmek.
- Gradyan inişi: \(\vec{w} \leftarrow \vec{w} - \eta\,\nabla L\) — gradyanı skalerle çarp, ağırlıktan çıkar (Bölüm 4 skaler çarpım + vektör çıkarma). Adım adım çukurun dibine yuvarlanır.
- Olabilirlik: olasılıkların çarpımıdır (\(\prod\)); logaritma alınca toplama döner (\(\sum \log\)), sayısal olarak kararlı log-olabilirlik / log-loss çıkar (çarpım notasyonu + logaritma + Σ).
26.4 Derin ağ: fonksiyon bileşkesi
Bir sinir ağı katmanları üst üste bindirir: \(\text{çıktı} = f_n(\dots f_1(\vec{x}))\) — fonksiyon bileşkesi (Bölüm 2). Eğitimdeki geri yayılım (backprop), bu bileşkenin türevini zincir kuralıyla alır.
26.5 Benzerlik ve getirme: embedding / RAG
- Bir embedding, anlamı kodlayan yüksek boyutlu bir vektördür (Bölüm 4).
- Kosinüs benzerliği \(\frac{\vec{u} \cdot \vec{v}}{|\vec{u}|\,|\vec{v}|}\) iki embedding’in ne kadar ilgili olduğunu sıralar (norm + iç çarpım).
- Bir RAG sistemi (örneğin senin Qdrant tabanın) tam olarak bunu yapar: sorgu ve belgeleri vektöre çevirip kosinüs benzerliğiyle en yakınları getirir.
26.6 Foundation → ML haritası
| Temel konu | ML’deki karşılığı |
|---|---|
| Değişken / denklem (bilinmeyeni izole etme) | parametre öğrenme, optimizasyon |
| Doğrusal fonksiyon \(wx + b\) | lineer regresyon, tek nöron |
| Üstel / logaritma | sigmoid, softmax, log-loss |
| Parabol (konveks çukur) | kayıp yüzeyi, minimuma iniş |
| Toplam sembolü \(\sum\) | ortalama, MSE, iç çarpım |
| Çarpım \(\prod\) + logaritma | olabilirlik → log-olabilirlik |
| Fonksiyon bileşkesi | derin ağ katmanları, backprop |
| Diziler / sayma | veri indeksleme, olasılık temeli |
| Vektör + iç çarpım | embedding, nöron hesabı \(\vec{w} \cdot \vec{x}\) |
| Norm + kosinüs benzerliği | embedding araması, RAG getirme |
Bir model bir fonksiyondur; eğitim, onun parametrelerini optimize etmektir. Bu kursta öğrendiğin her parça, o mozaiğin bir taşı — ve hepsi tek bir nöronun \(\hat{y} = f(\vec{w} \cdot \vec{x} + b)\) satırında buluşuyor.
Üç sütun bu temelin üstüne kurulur ve her parçayı derinleştirir:
- Lineer cebir — vektörlerden matrislere; bir katman = matris-vektör çarpımı.
- Kalkülüs — türev ve gradyan; gradyan inişinin ve zincir kuralının motoru.
- Olasılık ve istatistik — sayma ve dağılımlar; kaybın ve belirsizliğin dili.
Artık bu sütunları okuyacak temelin var.
26.7 Alıştırmalar
- Bir nöronun \(\vec{w} \cdot \vec{x}\) hesabı hangi iki temel konuyu birleştirir?
- Sigmoid aktivasyonu hangi temel fonksiyonu içerir?
- Gradyan inişi güncellemesi \(\vec{w} \leftarrow \vec{w} - \eta\nabla L\) hangi iki vektör işlemini kullanır?
- Doğrusal regresyonda MSE kaybı neden parabol biçimindedir ve bu optimizasyona ne kazandırır?
- Bir RAG sisteminde belgeler sorguya göre neye bakılarak sıralanır?
- Toplam sembolü Σ ile vektör iç çarpımı (\(\vec{w} \cdot \vec{x} = \sum_i w_i x_i\)).
- Üstel fonksiyonu — \(\sigma(x) = \frac{1}{1 + e^{-x}}\).
- Skaler çarpım (\(\eta \cdot \nabla L\)) ve vektör çıkarma.
- Doğrusal regresyonda kayıp konveks (tek minimumlu) bir çukur olur; bu, tek bir en iyi noktaya inmeyi ve optimizasyonu kolaylaştırır. (Aktivasyonlu/derin modellerde yüzey konveks olmayabilir, ama gradyan inişi sezgisi geçerli kalır.)
- Kosinüs benzerliğine göre (sorgu ve belge embedding vektörleri arasında).
Phase 0 — Temel Matematik tamamen tamamlandı. Sıradaki: lineer cebir, kalkülüs ve olasılık sütunları.