26 Machine Learning Bağlantısı

Temelden modele — tüm parçaların birleştiği yer

Bu kursun finali. Her derste bir “ML köprüsü” gördün; burada onları tek resimde birleştiriyoruz: kurduğun temel, nasıl çalışan bir makine öğrenmesi modeline dönüşür? Yeni alıştırma yok — büyük harita.

26.1 Model bir fonksiyondur

Bir model, girdi alır (özellikler bir vektör $\vec{x}$) ve çıktı üretir (tahmin $\hat{y}$). Yani model, sonuçta bir fonksiyondur (Bölüm 2). Eğitmek, veriye en iyi uyan fonksiyonu bulmaktır.

26.2 Bir nöron: dört bölümün buluştuğu nokta

Tek bir yapay nöronun hesabı, bütün foundation’ı tek satırda toplar:

\[\hat{y} = f(\vec{w} \cdot \vec{x} + b)\]

Parçalara ayır:

$\vec{x}$ → girdi vektörü (Bölüm 4).
$\vec{w} \cdot \vec{x}$ → iç çarpım $= \sum_i w_i x_i$ (Bölüm 3 Σ + Bölüm 4 iç çarpım).
$+\,b$ → bias, yani $wx + b$’deki kesişim (Bölüm 2 doğrusal fonksiyon).
$f(\cdot)$ → aktivasyon, çoğu zaman $e^{-x}$ içeren sigmoid (Bölüm 2 üstel).

Yani tek bir nöron, dört bölümün de kavramını kullanır.

26.3 Öğrenme: hatayı azaltmak

Kayıp (loss): modelin ne kadar yanıldığı. MSE $= \frac{1}{n}\sum_i (y_i - \hat{y}_i)^2$ — kare hataların ortalaması (Σ + kare).
Doğrusal regresyonda (aktivasyonsuz, $\hat{y} = \vec{w} \cdot \vec{x} + b$) kayıp, ağırlıkların konveks bir çukurudur (parabol); en dipte tek bir en iyi parametre durur. Nöronda sigmoid gibi doğrusal-olmayan bir aktivasyon olunca yüzey genelde konveks değildir, ama fikir aynı: en düşük kayba inmek.
Gradyan inişi: $\vec{w} \leftarrow \vec{w} - \eta\,\nabla L$ — gradyanı skalerle çarp, ağırlıktan çıkar (Bölüm 4 skaler çarpım + vektör çıkarma). Adım adım çukurun dibine yuvarlanır.
Olabilirlik: olasılıkların çarpımıdır ($\prod$); logaritma alınca toplama döner ($\sum \log$), sayısal olarak kararlı log-olabilirlik / log-loss çıkar (çarpım notasyonu + logaritma + Σ).

26.4 Derin ağ: fonksiyon bileşkesi

Bir sinir ağı katmanları üst üste bindirir: $\text{çıktı} = f_n(\dots f_1(\vec{x}))$ — fonksiyon bileşkesi (Bölüm 2). Eğitimdeki geri yayılım (backprop), bu bileşkenin türevini zincir kuralıyla alır.

26.5 Benzerlik ve getirme: embedding / RAG

Bir embedding, anlamı kodlayan yüksek boyutlu bir vektördür (Bölüm 4).
Kosinüs benzerliği $\frac{\vec{u} \cdot \vec{v}}{|\vec{u}|\,|\vec{v}|}$ iki embedding’in ne kadar ilgili olduğunu sıralar (norm + iç çarpım).
Bir RAG sistemi (örneğin senin Qdrant tabanın) tam olarak bunu yapar: sorgu ve belgeleri vektöre çevirip kosinüs benzerliğiyle en yakınları getirir.

26.6 Foundation → ML haritası

Temel konu	ML’deki karşılığı
Değişken / denklem (bilinmeyeni izole etme)	parametre öğrenme, optimizasyon
Doğrusal fonksiyon $wx + b$	lineer regresyon, tek nöron
Üstel / logaritma	sigmoid, softmax, log-loss
Parabol (konveks çukur)	kayıp yüzeyi, minimuma iniş
Toplam sembolü $\sum$	ortalama, MSE, iç çarpım
Çarpım $\prod$ + logaritma	olabilirlik → log-olabilirlik
Fonksiyon bileşkesi	derin ağ katmanları, backprop
Diziler / sayma	veri indeksleme, olasılık temeli
Vektör + iç çarpım	embedding, nöron hesabı $\vec{w} \cdot \vec{x}$
Norm + kosinüs benzerliği	embedding araması, RAG getirme

Tek cümlede

Bir model bir fonksiyondur; eğitim, onun parametrelerini optimize etmektir. Bu kursta öğrendiğin her parça, o mozaiğin bir taşı — ve hepsi tek bir nöronun $\hat{y} = f(\vec{w} \cdot \vec{x} + b)$ satırında buluşuyor.

Buradan sonra

Üç sütun bu temelin üstüne kurulur ve her parçayı derinleştirir:

Lineer cebir — vektörlerden matrislere; bir katman = matris-vektör çarpımı.
Kalkülüs — türev ve gradyan; gradyan inişinin ve zincir kuralının motoru.
Olasılık ve istatistik — sayma ve dağılımlar; kaybın ve belirsizliğin dili.

Artık bu sütunları okuyacak temelin var.

26.7 Alıştırmalar

Bir nöronun $\vec{w} \cdot \vec{x}$ hesabı hangi iki temel konuyu birleştirir?
Sigmoid aktivasyonu hangi temel fonksiyonu içerir?
Gradyan inişi güncellemesi $\vec{w} \leftarrow \vec{w} - \eta\nabla L$ hangi iki vektör işlemini kullanır?
Doğrusal regresyonda MSE kaybı neden parabol biçimindedir ve bu optimizasyona ne kazandırır?
Bir RAG sisteminde belgeler sorguya göre neye bakılarak sıralanır?

Çözümler (önce kendin dene, sonra aç)

Toplam sembolü Σ ile vektör iç çarpımı ($\vec{w} \cdot \vec{x} = \sum_i w_i x_i$).
Üstel fonksiyonu — $\sigma(x) = \frac{1}{1 + e^{-x}}$.
Skaler çarpım ($\eta \cdot \nabla L$) ve vektör çıkarma.
Doğrusal regresyonda kayıp konveks (tek minimumlu) bir çukur olur; bu, tek bir en iyi noktaya inmeyi ve optimizasyonu kolaylaştırır. (Aktivasyonlu/derin modellerde yüzey konveks olmayabilir, ama gradyan inişi sezgisi geçerli kalır.)
Kosinüs benzerliğine göre (sorgu ve belge embedding vektörleri arasında).

Phase 0 — Temel Matematik tamamen tamamlandı. Sıradaki: lineer cebir, kalkülüs ve olasılık sütunları.

--- title: "Machine Learning Bağlantısı" subtitle: "Temelden modele — tüm parçaların birleştiği yer" --- Bu kursun finali. Her derste bir "ML köprüsü" gördün; burada onları tek resimde birleştiriyoruz: kurduğun temel, nasıl çalışan bir makine öğrenmesi modeline dönüşür? Yeni alıştırma yok — büyük harita. ## Model bir fonksiyondur Bir model, girdi alır (özellikler bir vektör $\vec{x}$) ve çıktı üretir (tahmin $\hat{y}$). Yani model, sonuçta bir **fonksiyondur** (Bölüm 2). Eğitmek, veriye en iyi uyan fonksiyonu bulmaktır. ## Bir nöron: dört bölümün buluştuğu nokta Tek bir yapay nöronun hesabı, bütün foundation'ı tek satırda toplar: $$\hat{y} = f(\vec{w} \cdot \vec{x} + b)$$ Parçalara ayır: - $\vec{x}$ → girdi **vektörü** (Bölüm 4). - $\vec{w} \cdot \vec{x}$ → **iç çarpım** $= \sum_i w_i x_i$ (Bölüm 3 Σ + Bölüm 4 iç çarpım). - $+\,b$ → bias, yani $wx + b$'deki **kesişim** (Bölüm 2 doğrusal fonksiyon). - $f(\cdot)$ → aktivasyon, çoğu zaman $e^{-x}$ içeren **sigmoid** (Bölüm 2 üstel). Yani tek bir nöron, dört bölümün de kavramını kullanır. ## Öğrenme: hatayı azaltmak - **Kayıp (loss):** modelin ne kadar yanıldığı. MSE $= \frac{1}{n}\sum_i (y_i - \hat{y}_i)^2$ — kare hataların ortalaması (Σ + kare). - Doğrusal regresyonda (aktivasyonsuz, $\hat{y} = \vec{w} \cdot \vec{x} + b$) kayıp, ağırlıkların **konveks bir çukurudur** (parabol); en dipte tek bir en iyi parametre durur. Nöronda sigmoid gibi doğrusal-olmayan bir aktivasyon olunca yüzey genelde konveks değildir, ama fikir aynı: en düşük kayba inmek. - **Gradyan inişi:** $\vec{w} \leftarrow \vec{w} - \eta\,\nabla L$ — gradyanı skalerle çarp, ağırlıktan çıkar (Bölüm 4 skaler çarpım + vektör çıkarma). Adım adım çukurun dibine yuvarlanır. - **Olabilirlik:** olasılıkların **çarpımıdır** ($\prod$); logaritma alınca toplama döner ($\sum \log$), sayısal olarak kararlı log-olabilirlik / log-loss çıkar (çarpım notasyonu + logaritma + Σ). ## Derin ağ: fonksiyon bileşkesi Bir sinir ağı katmanları üst üste bindirir: $\text{çıktı} = f_n(\dots f_1(\vec{x}))$ — **fonksiyon bileşkesi** (Bölüm 2). Eğitimdeki geri yayılım (backprop), bu bileşkenin türevini **zincir kuralıyla** alır. ## Benzerlik ve getirme: embedding / RAG - Bir **embedding**, anlamı kodlayan yüksek boyutlu bir **vektördür** (Bölüm 4). - **Kosinüs benzerliği** $\frac{\vec{u} \cdot \vec{v}}{|\vec{u}|\,|\vec{v}|}$ iki embedding'in ne kadar ilgili olduğunu sıralar (norm + iç çarpım). - Bir RAG sistemi (örneğin senin Qdrant tabanın) tam olarak bunu yapar: sorgu ve belgeleri vektöre çevirip kosinüs benzerliğiyle en yakınları getirir. ## Foundation → ML haritası | Temel konu | ML'deki karşılığı | |:---|:---| | Değişken / denklem (bilinmeyeni izole etme) | parametre öğrenme, optimizasyon | | Doğrusal fonksiyon $wx + b$ | lineer regresyon, tek nöron | | Üstel / logaritma | sigmoid, softmax, log-loss | | Parabol (konveks çukur) | kayıp yüzeyi, minimuma iniş | | Toplam sembolü $\sum$ | ortalama, MSE, iç çarpım | | Çarpım $\prod$ + logaritma | olabilirlik → log-olabilirlik | | Fonksiyon bileşkesi | derin ağ katmanları, backprop | | Diziler / sayma | veri indeksleme, olasılık temeli | | Vektör + iç çarpım | embedding, nöron hesabı $\vec{w} \cdot \vec{x}$ | | Norm + kosinüs benzerliği | embedding araması, RAG getirme | ::: {.callout-important title="Tek cümlede"} Bir model bir fonksiyondur; eğitim, onun parametrelerini optimize etmektir. Bu kursta öğrendiğin her parça, o mozaiğin bir taşı — ve hepsi tek bir nöronun $\hat{y} = f(\vec{w} \cdot \vec{x} + b)$ satırında buluşuyor. ::: ::: {.callout-tip title="Buradan sonra"} Üç sütun bu temelin üstüne kurulur ve her parçayı derinleştirir: - **Lineer cebir** — vektörlerden matrislere; bir katman = matris-vektör çarpımı. - **Kalkülüs** — türev ve gradyan; gradyan inişinin ve zincir kuralının motoru. - **Olasılık ve istatistik** — sayma ve dağılımlar; kaybın ve belirsizliğin dili. Artık bu sütunları okuyacak temelin var. ::: ## Alıştırmalar 1. Bir nöronun $\vec{w} \cdot \vec{x}$ hesabı hangi iki temel konuyu birleştirir? 2. Sigmoid aktivasyonu hangi temel fonksiyonu içerir? 3. Gradyan inişi güncellemesi $\vec{w} \leftarrow \vec{w} - \eta\nabla L$ hangi iki vektör işlemini kullanır? 4. Doğrusal regresyonda MSE kaybı neden parabol biçimindedir ve bu optimizasyona ne kazandırır? 5. Bir RAG sisteminde belgeler sorguya göre neye bakılarak sıralanır? ::: {.callout-note collapse="true" title="Çözümler (önce kendin dene, sonra aç)"} 1. Toplam sembolü Σ ile vektör iç çarpımı ($\vec{w} \cdot \vec{x} = \sum_i w_i x_i$). 2. Üstel fonksiyonu — $\sigma(x) = \frac{1}{1 + e^{-x}}$. 3. Skaler çarpım ($\eta \cdot \nabla L$) ve vektör çıkarma. 4. Doğrusal regresyonda kayıp konveks (tek minimumlu) bir çukur olur; bu, tek bir en iyi noktaya inmeyi ve optimizasyonu kolaylaştırır. (Aktivasyonlu/derin modellerde yüzey konveks olmayabilir, ama gradyan inişi sezgisi geçerli kalır.) 5. Kosinüs benzerliğine göre (sorgu ve belge embedding vektörleri arasında). ::: --- *Phase 0 — Temel Matematik tamamen tamamlandı. Sıradaki: lineer cebir, kalkülüs ve olasılık sütunları.*