12  Aktivasyon/Kayıp Fonksiyonları ve PPUU

İki parçalı hafta — Yann LeCun (Lecture) aktivasyon ve kayıp fonksiyonlarının sistematik turunu yapar ve kritik olarak kayıpları EBM çerçevesinde (enerji manzarasını şekillendirme) toparlar: bir kayıp fonksiyonu seçmek aslında doğru cevabın enerjisini bastırırken yanlışları bir marjla yukarı iten bir enerji manzarası tasarlamaktır, marj yoksa sistem çöker (her cevaba aynı enerji); aktivasyon tarafında ise tek-kıvrımlı (ReLU türü) fonksiyonlar ölçeğe duyarsız oldukları için derin ağlarda normalleştirmeyle uyumludur, sigmoid/tanh ise gömülü bir ölçek taşır ve doyumda gradyanı yok eder. Ardından Alfredo Canziani (Practicum) Hafta 9-10’un dünya modelini sonuna kadar götürüp PPUU’yu (belirsizlik düzenlileştirmeli öngörülü politika öğrenme) — yoğun trafikte otonom sürüş — baştan sona kurar: deterministik MSE dünya modeli çoklu-geleceği ortalamaya indirip bulanıklaşır, latent değişken eksik bilgiyi taşıyıp keskin çoklu-gelecek üretir, latent dropout eylem-körlüğü sızıntısını keser ve belirsizlik düzenlileştirmesi (varyans cezası) politikayı güvenli eğitim manifoldunda tutar.

NotBölüm bilgisi

12.1 Bu Derste Ne Var?

Bu hafta iki parça: Yann LeCun (Lecture) aktivasyon ve kayıp fonksiyonlarının sistematik turunu yapıyor — ve kritik olarak kayıpları EBM çerçevesinde (enerjiyi şekillendirme) toparlıyor; Alfredo Canziani (Practicum) ise Hafta 9-10’da tanıttığı dünya modelini sonuna kadar götürüp PPUU’yu (belirsizlik düzenlileştirmeli öngörülü politika öğrenme) — yoğun trafikte sürüş — baştan sona kuruyor.

LeCun’un büyük fikri: bir kayıp fonksiyonu seçmek, aslında enerji manzarasını nasıl şekillendireceğini seçmektir. “İyi” bir kayıp, doğru cevabın enerjisini bastırırken yanlışları bir marjla yukarı iter; marj yoksa sistem çöker (her cevaba aynı enerjiyi verir). Canziani ise Hafta 7-9’un EBM/latent-değişken fikirlerinin gerçek bir mühendislik probleminde (otonom sürüş) nasıl birleştiğini gösterir.

Bu haftanın üç ana fikri:

  1. Aktivasyon = ölçek-değişmezliği. Tek-kıvrımlı (ReLU türü) fonksiyonlar derin ağlarda daha iyidir çünkü ölçeğe duyarsızdır; çok-kıvrımlı/yumuşak (sigmoid) fonksiyonlar gömülü bir ölçek taşır ve normalleştirmeyle çatışır.
  2. Kayıp = enerji şekillendirme. Her kayıp (MSE, L1, cross-entropy, hinge) doğru cevabı aşağı iter; “iyi” olanlar yanlışları marjla yukarı da iter — yoksa enerji çöker (Hafta 8-9 collapse problemi).
  3. PPUU: dünya modeli + politika + belirsizlik düzenlileştirmesi; latent değişken çoklu-geleceğin bulanıklığını çözer, varyans cezası politikayı eğitim manifoldunda tutar.

flowchart TB
    Hafta["Hafta 11 = iki parça<br/>(LeCun: aktivasyon/kayıp · Canziani: PPUU)"]

    subgraph A["(A) Aktivasyon + Kayıp = Enerji — LeCun"]
        direction TB
        Aktivasyon["Aktivasyon = ÖLÇEK-değişmezliği<br/>(tek-kıvrım iyi · sigmoid gömülü ölçek)"]
        Kayip["Kayıp = ENERJİ şekillendirme<br/>(MSE bulanık · CE=logsoftmax+NLL · hinge=marj)"]
        Collapse["Collapse vs Margin<br/>(marjsız enerji ÇÖKER · hinge marj ZORLAR)"]
        Negatif["Negatif (ȳ) seçimi<br/>(sürekli uzayda ZOR · MoCo vs SimCLR)"]
        Post["post-2020 (BYOL/VICReg/JEPA)<br/>— KURSTA YOK —"]
        Aktivasyon --> Kayip
        Kayip --> Collapse
        Collapse --> Negatif
        Negatif --> Post
    end

    subgraph B["(B) PPUU — Canziani"]
        direction TB
        Dunya["Dünya modeli<br/>(NGSIM trafik · sₜ=(pₜ,vₜ,iₜ))"]
        Latent["+ Latent z (çoklu-gelecek)<br/>(MSE bulanıklığını çözer · Hafta 8 VAE)"]
        Belirsizlik["+ Belirsizlik 'U'<br/>(varyans minimize → güvenli manifold)"]
        Dunya --> Latent
        Latent --> Belirsizlik
    end

    Hafta --> Aktivasyon
    Hafta --> Dunya

İpucuBuilder Notu — İki Parça, Tek Çatı: Enerjiyi Doğru Verinin Etrafında Şekillendir

Geriye (önkoşul + kurs):

  • Aktivasyon ölçeği → Hafta 2-3 ağırlık matrisleri + normalleştirme (BatchNorm).
  • EBM kayıpları → Hafta 7 (EBM), Hafta 8 (contrastive push-down/up), Hafta 9 (collapse’ı önle).
  • PPUU → Hafta 9 dünya modeli + Hafta 10 PPUU girişi (emulator/controller); latent+KL = Hafta 8 VAE.

İleriye (production / research):

  • Kayıp seçimi = enerji tasarımı → modern temsil öğrenmenin tasarım dili.
  • PPUU belirsizlik + dünya modeli → LeCun’un JEPA programı (post-2020, Bölüm 4).

Tek cümleyle: Bir kayıp fonksiyonu seçmek, doğru cevabı bastırıp yanlışları marjla iten bir enerji manzarası tasarlamaktır (LeCun); PPUU ise bir dünya modeli öğrenip latent değişkenle çoklu-geleceği, belirsizlik cezasıyla da güvenli sürüşü çözerek bu fikirleri otonom sürüşe döker (Canziani).

12.2 (LeCun) Aktivasyon Fonksiyonları Zoo’su ve Ölçek-Değişmezliği

LeCun PyTorch’taki aktivasyon fonksiyonlarının “menajerisini” geziyor: ReLU ve varyantları (leaky/PReLU/RReLU — alt kısma negatif eğim vererek ölü ReLU’nun gradyan almasını sağlar), softplus (ReLU’nun yumuşak, β-ölçekli hâli), ELU/SELU (negatife inerek çıkışı sıfır-ortalamalı yapar → daha hızlı yakınsama), sigmoid/tanh (doyuma girince gradyan kaybolur; tanh sıfır-merkezli olduğu için daha iyi), hardtanh (basit rampa, küçük ağırlıklarla şaşırtıcı iyi çalışır), softshrink/hardshrink (sparse coding’in ISTA adımı — L1 gradyan adımı). Şekil 12.1 bu altı fonksiyonu ve türevlerini yan yana koyar: sağ panel doyum bölgesinde sigmoid/tanh türevinin nasıl sıfıra çöktüğünü (gradyan kaybı = Hafta 6 LSTM sorunu) doğrudan gösterir.

En derin içgörü ölçek-değişmezliği: tek keskin kıvrımlı bir fonksiyonda girişi 2 ile çarparsan çıkış da 2 ile çarpılır (yapı değişmez); ama yumuşak/çift-kıvrımlı fonksiyonda gömülü bir ölçek vardır — girişi büyütünce fonksiyonun davranışı tamamen değişir.

“if you have a non-linearity that does care about scale, then your network doesn’t have a choice of what size weight matrix it can use in the first layer, because that will completely change the behavior.” — LeCun, 27:04

Bu yüzden tek-kıvrımlı fonksiyonlar derin ağlarda daha iyidir ve grup/batch normalleştirmeyle uyumsuzdur: normalleştirme ölçeği sabitlerse, sigmoid’in hangi bölgesinin kullanılacağı seçimi kaybolur. Şekil 12.2 bu iki rejimi karşılaştırır: ReLU üç ölçek için çakışırken (ölçeğe duyarsız) softplus β büyüdükçe şekil değiştirir (gömülü ölçek). Softmax sıcaklığı β bir ters sıcaklıktır (annealing: düşük β yumuşak → yüksek β sert kararlar; mixture-of-experts/attention’da işe yarar).

Şekil 12.1: Aktivasyon zoo (Hafta 11): altı aktivasyon fonksiyonu f(x) ve türevleri f’(x). Sol panel fonksiyonları, sağ panel türevleri (gradyan akışını belirleyen kısım) gösterir. Sigmoid ve tanh doygunluk bölgesinde türevleri sıfıra çöker (gold bant) — geriye yayılımda gradyan kaybolur (Hafta 6 LSTM sorununun kökeni). ReLU türevi 0/1 basamak fonksiyonudur; Leaky ReLU negatif tarafta 0.1 eğimle gradyanı canlı tutar; softplus ve ELU yumuşak geçişlerle ReLU’nun ölü-nöron sorununu hafifletir.
Şekil 12.2: Ölçek-değişmezliği: ReLU vs softplus. SOL — ReLU(c·x)/c üç farklı ölçek (c=1, 2, 0.5) için üst üste çakışır: tek-kıvrımlı, parçalı-lineer fonksiyon ölçeğe duyarsızdır (pozitif homojenlik). SAĞ — β-ölçekli softplus β=1, 3, 10 için şekil değiştirir; β büyüdükçe geçiş bölgesi keskinleşir ve fonksiyon ReLU limitine yaklaşır. Yumuşak aktivasyon gömülü bir ölçek (β) taşır, bu da normalizasyon katmanlarıyla (BatchNorm) çatışabilir; ReLU’nun ölçek-değişmezliği derin ağlarda normalizasyonla uyumludur.
İpucuBuilder Notu — Aktivasyon = Ölçek

Geriye (Hafta 2-3): Ölçek-değişmezliği = ağırlık matrislerini serbestçe yeniden ölçekleyebilme (lineer katman ikiliği); normalleştirme = Hafta 3 BatchNorm. Doyum/gradyan kaybolması = Hafta 6’da LSTM’in çözdüğü sorun.

İleriye: “Hangi aktivasyon?” sorusunun genel cevabı yoktur (LeCun); ama tek-kıvrım + normalleştirme, derin ağ tasarımının fiilî standardıdır.

12.3 (LeCun) Kayıp Fonksiyonları I: MSE Neden Bulanıklaştırır, Cross-Entropy Neden Birleştirilir

LeCun kayıplara geçiyor ve hemen mühendislik sezgisi veriyor. MSE (L2) doğru cevabı ortalamaya çeker; bir girişe karşılık birden çok olası çıkış varsa, sistem hepsinin ortalamasını üretir — ve görüntülerin ortalaması bulanık bir görüntüdür.

“the average of a bunch of images is a blurry image, okay, that’s why you get those blur effects.” — LeCun, 37:50

L1 (mutlak değer) ise medyanı verir (bulanık değil) ve aykırı değerlere dayanıklıdır, ama tabanda türevlenemez (softshrink ile çözülür). Huber/SmoothL1 ikisini birleştirir (uzakta L1, yakında L2; Fast R-CNN). Şekil 12.3 bu farkı sayısal olarak gösterir: {1, 2, 2, 10} verisinde MSE minimumu ortalamaya (3,75) düşerken L1 minimumu medyanda (2) kalıp aykırı değeri görmezden gelir — ve aynı “ortalama = bulanık” sezgisi sağ panelde çoklu-gelecek olarak resmedilir.

Sınıflandırmada NLL doğru sınıfın skorunu büyütür. Cross-entropy = logsoftmax + NLL birleşik modülüdür — ve birleştirmenin sebebi sayısal kararlılıktır: ayrı ayrı hesaplanırsa ara gradyanlar sonsuza gidip kararsızlık yaratır.

“you don’t want to separate log and softmax, you want to do logsoftmax in one go… it makes the whole thing much more stable numerically.” — LeCun, 47:22

Cross-entropy aslında sistemin dağılımı ile one-hot hedef dağılım arasındaki KL ıraksamasıdır. (LeCun ayrıca pratik bir uyarı veriyor: dengesiz sınıflarda ağırlık vermek yerine örnekleme frekansını eşitle — tıp fakültesi analojisi: nadir hastalıkları da eşit çalış ki öznitelikleri öğrenesin, frekansı en sona düzelt.)

Şekil 12.3: MSE vs L1 kayıpları: neden L1 daha keskin tahmin verir. SOL panel — veri {1, 2, 2, 10} üzerinde MSE kaybı Σ(y−t)² bir parabol çizer ve minimumu ortalamadadır (3,75; violet kesikli çizgi), L1 kaybı Σ|y−t| ise bir ‘V’ çizer ve minimumu medyandadır (2; gold çizgi). L1 minimumu 10 değerindeki aykırı noktayı görmezden gelerek 2’de kalır, MSE ise aykırı nokta tarafından 3,75’e çekilir. SAĞ panel — çoklu-gelecek sezgisi: birbirinden ayrı üç olası gelecek modu (gold) varken MSE tek bir tahmin olarak bunların ortalamasını üretir (violet); bu ortalama hiçbir moda denk gelmez, ortada ve BULANIK kalır. Sezgi: MSE → ortalama (görüntü/gelecek ortalaması = bulanık), L1 → medyan (keskin, aykırıya dayanıklı).
İpucuBuilder Notu — MSE Bulanıklaştırır

Geriye (Hafta 2): Cross-entropy = Hafta 2’nin temel sınıflandırma kaybı; softmax = enerji yorumuyla (eksi işaret → skorlar enerji olur) Hafta 7 EBM’e köprü. KL = dağılımlar arası fark.

İleriye: MSE bulanıklığı, üretici modellerin (görüntü/video tahmini) merkezî sorunudur — ve bu hafta Canziani’nin latent-değişkenle çözdüğü tam problemdir.

12.4 (LeCun) Kayıp Fonksiyonları II: Margin, Hinge ve EBM Kayıpları

Asıl hafta burada Hafta 7-9 EBM omurgasına bağlanıyor. LeCun kayıpları genel bir kayıp fonksiyoneli olarak kuruyor: amaç, doğru cevabın enerjisini küçük, yanlışlarınkini büyük yapmak. Ama nasıl?

Enerji kaybı (sadece doğru cevabı aşağı it) tehlikelidir — yanlışları yukarı itmediği için enerji her yerde düzleşip çökebilir:

“you’re just trying to make the energy of the correct answer small, you’re not telling the system the energy of everything else should be higher, and so the system might just collapse.” — LeCun, 1:20:13

Bu, tam olarak Hafta 8-9’un collapse problemidir. Perceptron kaybı doğru cevabı aşağı, en-düşük-enerjili cevabı yukarı iter ama marj içermez → sistem her cevaba aynı enerjiyi verebilir (yalnız lineer modellerde iyi). Çözüm marjlı kayıplar (hinge):

“as long as your objective function ensures that the energy of the correct answer is smaller than the energy of the most offending incorrect answer by at least a nonzero margin, then your loss function is good.” — LeCun, 1:25:47

“En çok suç işleyen yanlış cevap” (most offending incorrect answer, ȳ) = yanlış olduğu hâlde en düşük enerjili cevap. Hinge bu farkı bir marja zorlar:

\[ L = \max(0,\; m + E(x, y) - E(x, \bar{y})) \]

Şekil 12.4 bu üç kaybı tek bir enerji-farkı ekseninde (Δ = E(ȳ) − E(y)) yan yana koyar: hinge Δ ≥ m olunca sıfırlanır (marj zorunlu), perceptron yalnızca Δ ≥ 0 ister (marjsız), marjsız enerji kaybı ise perceptron’la aynı biçimi paylaşıp collapse’a açıktır. Soft-hinge (sonsuz marj, üstel sönüm), square-square (Siamese ağlar, DeepFace yüz tanıma) bu ailenin üyeleridir. Kritik nüans: ȳ’yi seçmek sınıflandırmada kolay, ama sürekli/yüksek-boyutlu uzayda zordur — negatif örnekleme problemi:

“that’s why what makes the difference between MoCo [and] SimCLR etc is how you pick those negative samples.” — LeCun, 1:36:09

Yani Hafta 8’in contrastive yöntemi ile Hafta 10’un SSL’i, aynı “negatif nasıl seçilir?” sorusunun farklı cevaplarıdır.

Şekil 12.4: EBM kayıpları ve marj: doğru cevabın enerjisi, yanlış cevap ȳ’nin enerjisinden en az bir MARJ (m) kadar düşük olmalıdır. Yatay eksen enerji farkı Δ = E(ȳ) − E(y) (pozitif = doğru cevap daha düşük enerjili). Hinge kaybı (violet, max(0, m−Δ)) Δ≥m olunca sıfırlanır — pozitif marj zorunlu kılar. Perceptron kaybı (gold, max(0, −Δ)) yalnızca Δ≥0 ister; marjsızdır. Marjsız enerji kaybı (kesik violet) ile perceptron aynı biçimi paylaşır ve enerji manzarasının düz çökmesine (collapse, Hafta 8–9) açıktır. Gölgeli bölge 0<Δ<m marj aralığını gösterir. Genel EBM kaybı L = max(0, m + E(y) − E(ȳ)).
İpucuBuilder Notu — Collapse vs Hinge

Geriye (Hafta 7-8-9): Enerji kaybı collapse’ı = Hafta 8-9 (yanlışları itmezsen enerji düzleşir); margin/hinge = Hafta 8 contrastive push-down/up; ȳ seçimi = Hafta 8 NCE + Hafta 10 hard-negative.

İleriye: “Kayıp = enerji şekillendirme + marj” çerçevesi, contrastive/non-contrastive tüm temsil öğrenmenin ortak dilidir.

12.5 (İleriye Köprü) Negatif Seçiminden Non-Contrastive’e ve JEPA — KURSTA YOK

LeCun’un “ȳ’yi (negatifi) seçmek zordur” tespiti ve Canziani’nin birazdan göreceğimiz belirsizlik düzenlileştirmesi, DLSP20’den sonra olgunlaşan bir programa işaret eder. Şekil 12.5 bu evrimi şematize eder: “negatif seçimi zor” kutusundan iki yol (contrastive vs non-contrastive) çıkar ve ikisi de JEPA’da buluşur. Aşağıdakiler bu kursta YOKTUR (yalnızca ileriye köprü):

Uyarı⚠️ İleriye Köprü Notu (post-2020 — KURSTA YOK)
  • BYOL (Haz 2020), VICReg (2021) — negatif örneksiz (non-contrastive) SSL: LeCun’un “negatif seçmek zor” sorununu, negatifleri tamamen atıp enerji hacmini başka yolla sınırlayarak çözer. Canziani’nin varyans/belirsizlik cezası bu fikrin erken bir akrabasıdır.
  • JEPA / I-JEPA / V-JEPA (LeCun grubu, 2022-2024) — joint-embedding predictive architecture: PPUU’nun “dünya modeli öğren + belirsizlikle planla” fikrinin bugünkü zirvesi; gözlemi piksel yerine temsil uzayında öngörür (MSE bulanıklığından tamamen kaçar).

Bunlar kurs terimi gibi eklenmez; Hafta 7-11’de kurulan EBM + dünya-modeli temelinin nereye evrildiğini göstermek için anılır.

Şekil 12.5: Post-2020 köprü: negatif örnek seçiminden JEPA’ya. ‘Negatif (ȳ) seçimi zor (LeCun)’ kutusundan iki yol çıkar: (a) Contrastive (MoCo/SimCLR — kursta MoCo, violet düz çizgi) negatifi seçer; (b) NON-CONTRASTIVE (BYOL/VICReg — kursta yok, gold kesikli) negatifi atlar ve hacmi başka yolla sınırlar. Her iki yol da JEPA’ya (LeCun grubu, kursta yok, kesikli) varır: temsil-uzayında tahmin yaparak MSE bulanıklığından kaçar. Bu şema Hafta 7–11 temelinin (EBM, belirsizlik, contrastive/non-contrastive) post-2020 evrimine ileriye köprüdür.
İpucuBuilder Notu — Negatif Seçimi

Geriye (Hafta 8-9-11): Non-contrastive = Hafta 9 “düşük-enerji hacmini sınırla” + bu haftanın “marjsız enerji kaybı collapse eder” uyarısının çözümü.

İleriye: JEPA, LeCun’un tüm kurs boyunca tohumladığı (EBM + world model + non-contrastive) fikirlerin sentezidir.

12.6 Geçiş: LeCun’dan Canziani’ye

LeCun kayıpların enerji manzarasını nasıl şekillendirdiğini anlattı ve “çoklu-gelecek varsa MSE bulanıklaştırır” tespitini bıraktı. Şimdi Canziani tam bu sorunu gerçek bir sistemde — yoğun trafikte otonom sürüş — çözüyor: Hafta 9-10’un dünya modelini latent değişken ve belirsizlik düzenlileştirmesiyle tamamlayarak PPUU’yu baştan sona kuruyor.

12.7 (Canziani) PPUU: Dünya Modeli, Maliyet ve Model-Free’nin Sorunu

Canziani problemi koyuyor: bir aracı yoğun trafikte sürmeyi öğret. Model-free RL kaza yaparak öğrenir — kötü fikir:

“you have to die a few times before actually learning not to die, but that’s arguably not the way you learn how to drive.” — Canziani, 1:43

Bunun yerine bir dünya modeli öğrenip onun içinde planla (yemek yaparken elini yakmadan önce zihninde dene). Veri: NGSIM I-80 otoyolu — bir binanın tepesindeki kameralardan tepeden-görünüm, bounding box + takip. Her araç için durum sₜ = (pₜ konum, vₜ hız, iₜ bağlam görüntüsü). Görüntü iₜ bir doluluk ızgarasıdır (mavi=ben, kırmızı=şerit, yeşil=diğerleri) — değişken sayıda aracı sabit boyutlu temsille kodlamanın “şirin” yolu. Eylemler, kinematiği tersine çevirerek kurtarılır (düzgün doğrusal hareketten sapma = eylem).

Maliyet = şerit maliyeti (şeritten çıkma) + yakınlık maliyeti (hıza göre uzayan boylamsal potansiyel × enlemsel potansiyel) — ikisi de türevlenebilir, böylece çarpışmayı azaltmak için gradyan akıtılabilir.

İpucuBuilder Notu — Dünya Modeli + Maliyet

Geriye (Hafta 9-10): Dünya modeli = Hafta 9; emulator/controller ayrımı = Hafta 10 PPUU girişi. Doluluk ızgarası = değişken-uzunluk problemini görüntüyle çözmek (attention’a alternatif).

İleriye: “Önce dünya modeli, sonra içinde planla” = model-based RL ve MPC’nin (model predictive control) çekirdeği.

12.8 (Canziani) MSE Bulanıklığı ve Latent Değişken Çözümü

İlk deneme deterministik dünya modeli: predictor (geçmiş → geleceğin gizli temsili) + decoder (gizli → gerçek gelecek), MSE ile eğit. Başarısız — tahminler 3-5 saniye sonra bulanıklaşır. Sebep tam olarak LeCun’un dediği: çoklu-gelecek varken MSE ortalamayı üretir. Şekil 12.6 iki yolu yan yana koyar: üstte deterministik (MSE) yol bulanık gelecek, altta +latent z (VAE) yolu keskin çoklu-gelecek üretir. Canziani’nin düşen-kalem örneği:

“the average final location is like the pen never fell, and it’s really wrong.” — Canziani, 28:59

Çözüm: düşük-boyutlu (16-boyutlu) bir latent değişken zₜ ekle. zₜ, MSE’yi sıfırlayacak şekilde ya çıkarımla (latent uzayda gradyan inişi) ya da geleceği gören bir variational encoder ile (ortalama+varyans, örnekle) bulunur. KL terimi posterior’u N(0, I) prior’a yaklaştırır; böylece test anında prior’dan örnekleyerek gelecek üretebilirsin (Hafta 8 VAE = non-contrastive EBM):

“you add latent variables in order to provide the missing information that would be required for you to make a proper prediction.” — Canziani, 1:10:47

İncelikli tuzak — action insensitivity (bilgi sızıntısı): encoder geleceği gördüğü için “döndük” bilgisini latent’e sızdırır → forward model direksiyonu (eylemi) yok sayar. Çözüm latent dropout: bazı zamanlar zₜ’yi encoder yerine prior’dan örnekle, böylece dönme latent’e kodlanamaz ve ağ eylemi kullanmak zorunda kalır.

“we fix this problem by simply dropping out this latent and sampling from the prior… in this way you can’t encode the rotation anymore in the latent variable.” — Canziani, 52:52

Şekil 12.6: PPUU dünya modeli ve latent değişken: üstte deterministik (MSE) yol geçmiş → PREDICTOR → DECODER zinciriyle 3-5 saniye sonrası için bulanık (ortalama) gelecek üretir; altta +Latent z (VAE) yolu encoder μ,σ’dan örneklenen (ya da prior’dan gelen) z’yi DECODER’a enjekte ederek keskin, çoklu-gelecek tahmini sağlar. Sağda NGSIM doluluk ızgarası ikonu (violet=ben, gold=şerit, orta-violet=diğer araçlar). Deterministik MSE çoklu-gelecek belirsizliğini ortalamaya indirip bulanıklaşırken latent z eksik bilgiyi taşır (Hafta 8 VAE bağı) ve latent dropout action insensitivity sorununu düzeltir.
İpucuBuilder Notu — Latent = Eksik Bilgi

Geriye (Hafta 8 + 2): MSE-ortalama = bu haftanın LeCun bulanıklık tespiti; latent+KL = Hafta 8 VAE; “missing info” latent = Hafta 8 gizli değişken yorumu. Latent dropout = bilgi sızıntısını kesen düzenlileştirme.

İleriye: Çoklu-geleceği latent’le modelleme = koşullu üretici modellerin (CVAE, diffusion) temel kalıbı; piksel-MSE’den kaçış → JEPA (temsil uzayında tahmin).

12.9 (Canziani) Belirsizlik Düzenlileştirmesi — PPUU’nun “U”su

Politikayı eğitmek: politika(durum) → eylem → dünya modeli → tahmin → maliyet (yakınlık+şerit), zinciri açıp backprop ile politikayı eğit (dünya modeli donuk). Başarısız — politika hile yapıp manifold dışına çıkar (her şeyi siyah/sıfır-maliyet tahmin ettirir → yola çıkar, çarpışır).

Birinci yama uzman düzenleyici (taklit öğrenme — politikayı uzman eylemine yaklaştır) işe yarar. Asıl fikir ikinci yama, belirsizlik düzenlileştirmesi (“U”): eğitim bölgesi dışında dünya modelinin varyansı artar; varyans türevlenebilir, öyleyse onu minimize et — politika güvenli, eğitim manifolduna yakın eylemler seçsin. Şekil 12.7 bu varyans-proxy’sini gösterir: eğitim noktalarına yakın çukurlaşır (~0), uzakta doygunluğa (~1) ulaşır; yeşil bant düşük-belirsizlik (güvenli) bölgesini işaretler.

“as you go away from the training interval the variance will increase… your variance now is your loss, you do gradient descent in action space for variance minimization.” — Canziani, 1:18:00

Birden çok tahmin için çıkarımda dropout açık bırakılır (varyansı ölçmek için). Nihai kayıp = görev maliyeti + λ·belirsizlik. Sonuç: araç yoğun trafikte hayatta kalır. Bu, Hafta 9’un “düşük-enerji hacmini sınırla” non-contrastive ilkesinin somut bir mühendislik hâlidir — varyans cezası, enerjiyi eğitim verisinin etrafında tutan bir düzenleyicidir.

Şekil 12.7: Belirsizlik düzenlileştirmesi (‘U’ — PPUU, Hafta 11): epistemik varyans proxy’si eğitim noktalarına (gold dikey işaretler, x=-2,0,2,3) yakın çukurlaşır (~0), eğitim manifoldundan uzaklaştıkça doygunluğa (~1) ulaşır. Yeşil gölgeli güvenli bölge (u<0.3) eğitim manifoldunu işaretler. PPUU’da kayıp = görev maliyeti + λ·varyans olarak kurulur; varyansı minimize etmek politikayı düşük-belirsizlik (gözlenmiş) bölgesinde tutar — Hafta 9’un ‘hacmi sınırla’ EBM ilkesinin kontrol karşılığı.
İpucuBuilder Notu — Belirsizlik ’U’su

Geriye (Hafta 5-6-9): Zincir-backprop = Hafta 5 autograd + Hafta 6 BPTT; belirsizlik cezası = Hafta 9 non-contrastive “hacmi sınırla”; manifold-dışı çökme = Hafta 9 collapse’ın politika hâli.

İleriye: Belirsizlik-bilinçli planlama = model-based RL’in güvenlik anahtarı; epistemik belirsizlik (ensemble/dropout varyansı) tüm risk-duyarlı kontrolün temeli.

12.10 Bu Dersin Özeti

  1. Aktivasyon = ölçek-değişmezliği (LeCun): tek-kıvrımlı (ReLU) fonksiyonlar derin ağlarda daha iyi, normalleştirmeyle uyumlu; sigmoid/tanh gömülü ölçek taşır + doyumda gradyan kaybolur.
  2. MSE → bulanık (LeCun/Canziani): çoklu-gelecekte MSE ortalama üretir (görüntü ortalaması = bulanık); L1 → medyan (keskin, dayanıklı).
  3. Cross-entropy = logsoftmax + NLL: sayısal kararlılık için birleşik; KL ıraksaması (sistem dağılımı vs one-hot).
  4. Kayıp = enerji şekillendirme + marj (LeCun): enerji kaybı marjsız → collapse; hinge/margin doğru cevabı yanlıştan marjla ayırır → iyi; ȳ (negatif) seçimi sürekli uzayda zor (MoCo vs SimCLR).
  5. PPUU (Canziani): dünya modeli + latent değişken (çoklu-gelecek) + KL + latent dropout (action insensitivity) + belirsizlik düzenlileştirmesi (varyans minimizasyonu = güvenli manifold).
  6. Post-2020 (KURSTA YOK): non-contrastive (BYOL/VICReg) = negatif seçimini atlar; JEPA = PPUU + temsil-uzayı tahmini.
ÖnemliTek Bir Cümle

Bir kayıp fonksiyonu seçmek, doğru cevabın enerjisini bastırıp yanlışları bir marjla iten bir enerji manzarası tasarlamaktır — marj yoksa enerji çöker (LeCun); ve PPUU, Hafta 9-10’un dünya modelini latent değişkenle (çoklu-geleceğin bulanıklığını çözer) ve belirsizlik düzenlileştirmesiyle (politikayı güvenli manifoldda tutar) tamamlayarak EBM/world-model fikirlerini otonom sürüşe döker (Canziani).

12.11 Kontrol Soruları

Cevap: Tek keskin kıvrımlı bir fonksiyon ölçeğe duyarsızdır: girişi 2 ile çarparsan çıkış da 2 ile çarpılır, davranış (kıvrımın yeri) değişmez. Sigmoid/softplus gibi yumuşak fonksiyonlarda gömülü bir ölçek vardır — girişi büyütünce fonksiyonun “sert mi yumuşak mı” davranışı değişir. Derin ağda ardışık katmanların ağırlık ölçeği serbestçe yeniden dağıtılabildiği için (LeCun 27:04), ölçeğe duyarlı bir aktivasyon ağı kısıtlar ve doyuma sokup gradyan kaybına yol açar. Ayrıca sigmoid, batch/grup normalleştirmeyle uyumsuzdur: normalleştirme ölçeği sabitlerse, sigmoid’in hangi bölgesinin kullanılacağı seçimi kaybolur.

Cevap: Bir girişe karşılık birden çok olası çıkış varsa, MSE’yi minimize eden değer hepsinin ortalamasıdır; görüntülerin ortalaması bulanıktır (LeCun 37:50). Düşen-kalem örneği: kalemin düşeceği yönlerin ortalaması “kalem hiç düşmedi” konumudur — yanlış (Canziani 28:59). L1 ise medyanı verir (bulanık değil) ve aykırı değerlere dayanıklıdır, ama tabanda türevlenemez. PPUU’da deterministik dünya modeli tam bu yüzden 3-5 saniye sonra bulanıklaşır; çözüm, çoklu-geleceği yakalayan bir latent değişkendir.

Cevap: Sadece doğru cevabın enerjisini bastıran enerji kaybı, yanlışları yukarı itmediği için enerjiyi her yerde düzleştirebilir — sistem çöker (LeCun 1:20:13; Hafta 8-9 collapse). İyi bir kayıp, doğru cevabın enerjisini en-çok-suç-işleyen yanlış cevabın (ȳ: yanlış olduğu hâlde en düşük enerjili) enerjisinden en az bir marj kadar küçük tutar (LeCun 1:25:47):

\[ L = \max(0,\; m + E(x, y) - E(x, \bar{y})) \]

ȳ’yi seçmek sınıflandırmada kolay, sürekli/yüksek-boyutlu uzayda zordur — “negatif nasıl seçilir?” sorusu MoCo ile SimCLR’ı ayıran şeydir (LeCun 1:36:09).

Cevap: Variational encoder geleceği gördüğü için “döndük” bilgisini latent değişkene sızdırır; o zaman forward model direksiyonu (eylemi) yok sayar — küçük bir direksiyon değişikliği büyük bir MSE değişikliği yarattığından, ağ bu bilgiyi eylem yerine latent’ten alır. Çözüm latent dropout: eğitimin bir kısmında zₜ’yi encoder yerine prior’dan örnekle (Canziani 52:52). Böylece dönme latent’e kodlanamaz (bazen yok olur), ağ eylemi kullanmak zorunda kalır → eylem-gelecek bağı kurulur.

Cevap: Politika tek başına dünya modelini “kandırıp” manifold dışına çıkar (sıfır-maliyet hayalleri görür). Dünya modelinin varyansı eğitim bölgesi dışında artar (ensemble/dropout ile ölçülür); varyans türevlenebilir, böylece onu da minimize edersin (Canziani 1:18:00). Nihai kayıp = görev maliyeti + λ·varyans. Bu, politikayı eğitim verisinin etrafında (güvenli) tutar — Hafta 9’un “düşük-enerji hacmini sınırla” non-contrastive ilkesinin mühendislik hâlidir.

12.12 Egzersizler

Egzersiz 1 (Aktivasyon ölçeği). Tek-kıvrımlı (ReLU) ve yumuşak (softplus, β=1 ve β=10) bir fonksiyonu çiz. Girişi 0.1, 1, 10 ile ölçekleyince ReLU’nun şeklinin değişmediğini ama softplus’ın “sertleştiğini” göster. Bu, neden derin ağlarda ReLU + BatchNorm’un tercih edildiğini nasıl açıklar?

import numpy as np

# ReLU OLCEK-DEGISMEZ: relu(c*x)/c hep ayni sekil (pozitif homojenlik).
# softplus OLCEK-BAGIMLI: beta buyudukce sekil degisir (gomulu olcek).
def relu(x):
    return np.maximum(0.0, x)

def softplus_scaled(x, beta=1.0):
    # (1/beta) * log(1 + e^(beta*x)) -> beta buyuk: ReLU'ya yaklasir
    return (1.0 / beta) * np.log1p(np.exp(-np.abs(beta * x))) + np.maximum(x, 0.0)

x = np.linspace(-3, 3, 7)
for c in [0.1, 1.0, 10.0]:
    print(f"ReLU(c*x)/c, c={c:>4}: {np.round(relu(c * x) / c, 2)}")   # AYNI sekil
for beta in [1.0, 10.0]:
    print(f"softplus beta={beta:>4}:   {np.round(softplus_scaled(x, beta), 2)}")  # DEGISIR
# ReLU normalizasyonla uyumlu (olcek serbest); softplus gomulu olcek tasir -> catisir

Egzersiz 2 (MSE vs L1). Tek bir x için y değerleri {1, 2, 2, 10} (bir aykırı) gözlemlensin. MSE’yi minimize eden tahmin (ortalama = 3.75) ile L1’i minimize edeni (medyan = 2) karşılaştır. Görüntü tahmininde bu fark neden “bulanık vs keskin”e dönüşür?

import numpy as np

# MSE-min = ORTALAMA (aykiri tarafindan cekilir, "bulanik");
# L1-min  = MEDYAN  (aykiriyi gormezden gelir, "keskin").
veri = np.array([1.0, 2.0, 2.0, 10.0])
print(f"MSE minimumu (ortalama) = {veri.mean():.2f}")    # 3.75 <- 10 aykirisi ceker
print(f"L1  minimumu (medyan)   = {np.median(veri):.2f}") # 2.00 <- aykiri etkisiz

# Goruntude: cok-gelecek varsa MSE hepsinin ORTALAMASINI cizer -> bulanik;
# L1 medyani sectigi icin tek bir keskin moda yakin kalir.
for t in [2.0, 3.75]:
    mse = np.sum((veri - t) ** 2)
    l1 = np.sum(np.abs(veri - t))
    print(f"t={t:>4}: MSE={mse:6.2f}  L1={l1:5.2f}")
# MSE t=3.75'te minimum, L1 t=2'de minimum -> farkli "en iyi tahmin"

Egzersiz 3 (EBM kaybı tasarla). İki skor (doğru, yanlış) veren bir model için (a) enerji kaybı, (b) perceptron kaybı, (c) hinge (marj m) kaybını yaz. Hangisi collapse’a açıktır, neden? Marj m’yi büyütmek/küçültmek ne yapar (ipucu: son katman ağırlıklarının ölçeği)?

import numpy as np

# E_pos = dogru cevabin enerjisi (DUSUK olmali);
# E_neg = en-cok-suc-isleyen yanlis (ybar) enerjisi (YUKSEK olmali).
def energy_loss(E_pos, E_neg):
    return E_pos                       # (a) sadece dogruyu bas -> COLLAPSE riski
def perceptron_loss(E_pos, E_neg):
    return np.maximum(0.0, E_pos - E_neg)        # (b) marjsiz -> collapse'a acik
def hinge_loss(E_pos, E_neg, m=1.0):
    return np.maximum(0.0, m + E_pos - E_neg)    # (c) marj m ZORLAR -> iyi

E_pos, E_neg = 0.2, 1.5
print(f"enerji    = {energy_loss(E_pos, E_neg):.2f}  (yanlisi itmez -> COLLAPSE)")
print(f"perceptron= {perceptron_loss(E_pos, E_neg):.2f}  (marjsiz)")
for m in [0.5, 1.0, 2.0]:
    print(f"hinge m={m}: {hinge_loss(E_pos, E_neg, m):.2f}")
# (a) ve (b) collapse'a acik (marj yok); m buyumesi daha buyuk enerji-farki
# (dolayli olarak son katman agirligi olcegi) zorlar -> daha guclu ayrim

Egzersiz 4 (PPUU latent dropout). Bir koşullu predictor’da encoder’dan gelen latent’i %50 olasılıkla prior örneğiyle değiştir. “Eğitim sırasında her zaman görülen tek sinyal eylemdir” cümlesini bu mekanizmayla açıkla. Latent dropout olmazsa hangi yanlış kestirme (shortcut) öğrenilir?

import numpy as np

# Latent dropout: bazi adimlarda z'yi ENCODER yerine PRIOR'dan ornekle.
# Boylece "donme/gelecek" bilgisi latent'e GUVENILIR sekilde kodlanamaz
# -> ag bu bilgiyi EYLEM'den almak ZORUNDA kalir (action insensitivity fix).
def sample_latent(encoder_mu, encoder_sigma, p_drop=0.5, rng=None):
    rng = rng or np.random.default_rng(0)
    if rng.random() < p_drop:
        return rng.normal(0.0, 1.0, size=encoder_mu.shape)   # PRIOR (bilgi yok)
    return encoder_mu + encoder_sigma * rng.normal(0.0, 1.0, size=encoder_mu.shape)

rng = np.random.default_rng(0)
mu, sigma = np.zeros(4), np.ones(4)
drops = [np.allclose(sample_latent(mu, sigma, 0.5, rng), 0, atol=5) for _ in range(6)]
print("bazi adimlarda latent = prior (bilgi tasimaz):", "evet" if any(drops) else "hayir")
# Latent dropout YOKSA: encoder gelecegi latent'e sizdirir -> forward model
# direksiyonu (eylemi) YOK SAYAR (shortcut). Tek tutarli sinyal = eylem.

Egzersiz 5 (Hafta 12 habercisi — NLP & Transformer). Hafta 12’de konuk Mike Lewis (FAIR) NLP/seq2seq/decoding’i anlatacak; Canziani attention ve Transformer’ı kuracak. (a) Bu haftaki softmax tartışmasını (β sıcaklık, “0’a yakın katsayı için giriş −∞ olmalı”) attention katsayılarıyla nasıl ilişkilendirirsin? (b) Hafta 6’nın attention/seq2seq’i ile Transformer’ın “set→set” görüşü arasında ne fark beklersin?

import numpy as np

# (a) softmax sicakligi beta = "ters sicaklik": dusuk beta -> yumusak/duz dagilim,
#     yuksek beta -> sert/odakli (tek anahtara yaklasir). Attention katsayilari
#     da softmax(skor/sqrt(d))'dir -> ayni "0'a yakin agirlik icin skor -> -inf".
def softmax(z, beta=1.0):
    z = beta * (z - z.max())
    e = np.exp(z)
    return e / e.sum()

skorlar = np.array([2.0, 1.0, 0.1])
for beta in [0.3, 1.0, 5.0]:
    w = softmax(skorlar, beta)
    print(f"beta={beta}: attention agirliklari = {np.round(w, 3)}")  # beta buyur -> odak
# (b) Hafta 6: seq2seq = TEKRARLAMALI (zaman zinciri); Transformer = set->set
#     (tum konumlar paralel, recurrence YOK) -> Hafta 12'de Canziani kuracak.

12.13 Sonraki Ders İçin Hazırlık

UyarıSonraki Hafta — H12: NLP, Decoding ve Attention/Transformer (Konuk: Mike Lewis)

Kayıp = enerji çerçevesini dile taşıyoruz. Bu hafta aktivasyonları (ölçek-değişmezliği), kayıpları (MSE bulanık, cross-entropy = logsoftmax+NLL, hinge = marj), EBM collapse vs margin’i ve PPUU’yu (dünya modeli + latent + belirsizlik) kapattık. Hafta 12’de konuk Mike Lewis (FAIR) NLP/seq2seq/decoding’i (beam search) anlatacak; Canziani attention’ı ve Transformer’ı (“sets to sets”) kuracak. Egzersiz 3 (EBM kaybı) ve Egzersiz 5 (softmax → attention) tam bu derse hazırlar.

Hafta 12: NLP, Decoding ve Attention/Transformer — Mike Lewis (Konuk Lecture) + Canziani (Practicum)

Hafta 12’de konuk Mike Lewis (FAIR) doğal dil işleme, seq2seq, decoding (beam search) ve çeviriyi; Canziani ise attention’ı ve Transformer’ı (“sets to sets”) anlatacak.

Hafta 12 öncesi yapılacak:

  • Egzersiz 3 (EBM kaybı) ve Egzersiz 5 (softmax → attention) çöz.
  • “Kayıp = enerji + marj” ve “latent = eksik bilgi” cümlelerini kendi sözcüklerinle yaz.
  • Hafta 6 attention/seq2seq’i hatırla — Transformer onun “tekrarlamasız” hâlidir.

12.14 Anahtar Kavramlar (Cheat Sheet)

Kavram Tanım Hoca / timestamp
Ölçek-değişmezliği Tek-kıvrım: giriş×2 → çıkış×2 (şekil sabit); derin ağda iyi LeCun 27m04
Softmax sıcaklığı β Ters sıcaklık; annealing (yumuşak→sert), mixture-of-experts LeCun 29m45
MSE → bulanık Çoklu-gelecekte ortalama; görüntü ortalaması = bulanık LeCun 37m50
L1 → medyan Keskin, aykırıya dayanıklı; tabanda türevsiz LeCun 38m06
Cross-entropy = logsoftmax+NLL Sayısal kararlılık; KL ıraksaması (sistem vs one-hot) LeCun 47m22
Enerji kaybı → collapse Marjsız → enerji düzleşir; tehlikeli LeCun 1h20
Margin/hinge kaybı Doğru < yanlış (ȳ) − marj; “iyi” kayıp LeCun 1h25
ȳ (most offending) En düşük enerjili yanlış cevap; seçimi sürekli uzayda zor LeCun 1h36
PPUU dünya modeli sₜ=(pₜ,vₜ,iₜ); doluluk ızgarası; kinematik tersi=eylem Canziani 8m26
Latent + KL 16-boyut z; çoklu-gelecek; prior’dan örnekle (VAE) Canziani 35m22
Action insensitivity / latent dropout Sızıntıyı kes; ağ eylemi kullansın Canziani 52m52
Belirsizlik düzenlileştirmesi (U) Varyans minimizasyonu → güvenli manifold Canziani 1h18

12.15 ML Builder Bağlantıları

Geriye köprüler (önkoşul + kurs):

  1. Aktivasyon ölçeği → Hafta 2-3 ağırlık ölçeği + BatchNorm.
  2. Cross-entropy / softmax → Hafta 2 sınıflandırma + Hafta 7 enerji yorumu.
  3. EBM kayıpları (collapse, margin, ȳ) → Hafta 7 EBM + Hafta 8 contrastive + Hafta 9 collapse/non-contrastive + Hafta 10 hard-negative.
  4. PPUU dünya modeli → Hafta 9 (world model) + Hafta 10 (emulator/controller).
  5. Latent + KL + zincir-backprop → Hafta 8 VAE + Hafta 5 autograd + Hafta 6 BPTT.

İleriye köprüler (production / research):

  1. Kayıp = enerji tasarımı → contrastive/non-contrastive temsil öğrenmenin dili.
  2. Negatif seçimi → MoCo/SimCLR → non-contrastive BYOL/VICReg (post-2020, KURSTA YOK).
  3. PPUU + belirsizlik + dünya modeli → model-based RL, MPC, JEPA (post-2020).
  4. Latent çoklu-gelecek → CVAE, diffusion, koşullu üretici modeller.
ÖnemliBu dersten tek bir şey alıp gideceksen

Bir kayıp fonksiyonu seçmek aslında bir enerji manzarası tasarlamaktır — doğru cevabı aşağı itip yanlışları bir marjla yukarı it; marj yoksa enerji çöker (LeCun’un enerji-kaybı uyarısı = Hafta 8-9 collapse). Ve PPUU, Hafta 9-10’un dünya modelini üç ekle tamamlar: latent değişken (çoklu-geleceğin bulanıklığını çözer, Hafta 8 VAE), latent dropout (eylem-körlüğü sızıntısını keser) ve belirsizlik düzenlileştirmesi (varyansı minimize ederek politikayı güvenli manifoldda tutar — Hafta 9’un “hacmi sınırla” ilkesi). İkisi de aynı temele oturur: enerjiyi/belirsizliği doğru verinin etrafında şekillendirmek — ve bu temelin post-2020 zirvesi (non-contrastive SSL, JEPA) kursta yoktur ama LeCun’un bugünkü programının doğrudan devamıdır.