26  Machine Learning Bağlantısı

Temelden modele — tüm parçaların birleştiği yer

Bu kursun finali. Her derste bir “ML köprüsü” gördün; burada onları tek resimde birleştiriyoruz: kurduğun temel, nasıl çalışan bir makine öğrenmesi modeline dönüşür? Yeni alıştırma yok — büyük harita.

26.1 Model bir fonksiyondur

Bir model, girdi alır (özellikler bir vektör \(\vec{x}\)) ve çıktı üretir (tahmin \(\hat{y}\)). Yani model, sonuçta bir fonksiyondur (Bölüm 2). Eğitmek, veriye en iyi uyan fonksiyonu bulmaktır.

26.2 Bir nöron: dört bölümün buluştuğu nokta

Tek bir yapay nöronun hesabı, bütün foundation’ı tek satırda toplar:

\[\hat{y} = f(\vec{w} \cdot \vec{x} + b)\]

Parçalara ayır:

  • \(\vec{x}\) → girdi vektörü (Bölüm 4).
  • \(\vec{w} \cdot \vec{x}\)iç çarpım \(= \sum_i w_i x_i\) (Bölüm 3 Σ + Bölüm 4 iç çarpım).
  • \(+\,b\) → bias, yani \(wx + b\)’deki kesişim (Bölüm 2 doğrusal fonksiyon).
  • \(f(\cdot)\) → aktivasyon, çoğu zaman \(e^{-x}\) içeren sigmoid (Bölüm 2 üstel).

Yani tek bir nöron, dört bölümün de kavramını kullanır.

26.3 Öğrenme: hatayı azaltmak

  • Kayıp (loss): modelin ne kadar yanıldığı. MSE \(= \frac{1}{n}\sum_i (y_i - \hat{y}_i)^2\) — kare hataların ortalaması (Σ + kare).
  • Doğrusal regresyonda (aktivasyonsuz, \(\hat{y} = \vec{w} \cdot \vec{x} + b\)) kayıp, ağırlıkların konveks bir çukurudur (parabol); en dipte tek bir en iyi parametre durur. Nöronda sigmoid gibi doğrusal-olmayan bir aktivasyon olunca yüzey genelde konveks değildir, ama fikir aynı: en düşük kayba inmek.
  • Gradyan inişi: \(\vec{w} \leftarrow \vec{w} - \eta\,\nabla L\) — gradyanı skalerle çarp, ağırlıktan çıkar (Bölüm 4 skaler çarpım + vektör çıkarma). Adım adım çukurun dibine yuvarlanır.
  • Olabilirlik: olasılıkların çarpımıdır (\(\prod\)); logaritma alınca toplama döner (\(\sum \log\)), sayısal olarak kararlı log-olabilirlik / log-loss çıkar (çarpım notasyonu + logaritma + Σ).

26.4 Derin ağ: fonksiyon bileşkesi

Bir sinir ağı katmanları üst üste bindirir: \(\text{çıktı} = f_n(\dots f_1(\vec{x}))\)fonksiyon bileşkesi (Bölüm 2). Eğitimdeki geri yayılım (backprop), bu bileşkenin türevini zincir kuralıyla alır.

26.5 Benzerlik ve getirme: embedding / RAG

  • Bir embedding, anlamı kodlayan yüksek boyutlu bir vektördür (Bölüm 4).
  • Kosinüs benzerliği \(\frac{\vec{u} \cdot \vec{v}}{|\vec{u}|\,|\vec{v}|}\) iki embedding’in ne kadar ilgili olduğunu sıralar (norm + iç çarpım).
  • Bir RAG sistemi (örneğin senin Qdrant tabanın) tam olarak bunu yapar: sorgu ve belgeleri vektöre çevirip kosinüs benzerliğiyle en yakınları getirir.

26.6 Foundation → ML haritası

Temel konu ML’deki karşılığı
Değişken / denklem (bilinmeyeni izole etme) parametre öğrenme, optimizasyon
Doğrusal fonksiyon \(wx + b\) lineer regresyon, tek nöron
Üstel / logaritma sigmoid, softmax, log-loss
Parabol (konveks çukur) kayıp yüzeyi, minimuma iniş
Toplam sembolü \(\sum\) ortalama, MSE, iç çarpım
Çarpım \(\prod\) + logaritma olabilirlik → log-olabilirlik
Fonksiyon bileşkesi derin ağ katmanları, backprop
Diziler / sayma veri indeksleme, olasılık temeli
Vektör + iç çarpım embedding, nöron hesabı \(\vec{w} \cdot \vec{x}\)
Norm + kosinüs benzerliği embedding araması, RAG getirme
ÖnemliTek cümlede

Bir model bir fonksiyondur; eğitim, onun parametrelerini optimize etmektir. Bu kursta öğrendiğin her parça, o mozaiğin bir taşı — ve hepsi tek bir nöronun \(\hat{y} = f(\vec{w} \cdot \vec{x} + b)\) satırında buluşuyor.

İpucuBuradan sonra

Üç sütun bu temelin üstüne kurulur ve her parçayı derinleştirir:

  • Lineer cebir — vektörlerden matrislere; bir katman = matris-vektör çarpımı.
  • Kalkülüs — türev ve gradyan; gradyan inişinin ve zincir kuralının motoru.
  • Olasılık ve istatistik — sayma ve dağılımlar; kaybın ve belirsizliğin dili.

Artık bu sütunları okuyacak temelin var.

26.7 Alıştırmalar

  1. Bir nöronun \(\vec{w} \cdot \vec{x}\) hesabı hangi iki temel konuyu birleştirir?
  2. Sigmoid aktivasyonu hangi temel fonksiyonu içerir?
  3. Gradyan inişi güncellemesi \(\vec{w} \leftarrow \vec{w} - \eta\nabla L\) hangi iki vektör işlemini kullanır?
  4. Doğrusal regresyonda MSE kaybı neden parabol biçimindedir ve bu optimizasyona ne kazandırır?
  5. Bir RAG sisteminde belgeler sorguya göre neye bakılarak sıralanır?
  1. Toplam sembolü Σ ile vektör iç çarpımı (\(\vec{w} \cdot \vec{x} = \sum_i w_i x_i\)).
  2. Üstel fonksiyonu — \(\sigma(x) = \frac{1}{1 + e^{-x}}\).
  3. Skaler çarpım (\(\eta \cdot \nabla L\)) ve vektör çıkarma.
  4. Doğrusal regresyonda kayıp konveks (tek minimumlu) bir çukur olur; bu, tek bir en iyi noktaya inmeyi ve optimizasyonu kolaylaştırır. (Aktivasyonlu/derin modellerde yüzey konveks olmayabilir, ama gradyan inişi sezgisi geçerli kalır.)
  5. Kosinüs benzerliğine göre (sorgu ve belge embedding vektörleri arasında).

Phase 0 — Temel Matematik tamamen tamamlandı. Sıradaki: lineer cebir, kalkülüs ve olasılık sütunları.