07 - 乜嘢係「正則化」?點解咁巴閉?
喺機器學習世界,最頭痕嘅事就係 過擬合:模型喺訓練數據威到盡,一去到新數據就「跪低」。好似學生死背答案——老師改題目,即刻交白卷。正則化 (Regularization) 就係幫模型戒「死背」嘅良方,目的係收斂啲、唔好學得太過火,令佢喺陌生環境都依然交到貨。
⚖️ 原理:罰大隻仔,獎小清新
訓練時我哋會最小化一個 成本函數 (Cost/Loss)。加咗正則化之後,Loss 變成:
原始誤差 + λ × 懲罰項
懲罰項專針對「太大」嘅權重。點解?因為權重大代表模型死緊咬住某啲特徵,十分易背錯書。罰佢,就迫模型 平均分心,提升泛化力。
📐 兩大主流:L1 vs. L2
L1 正則化 (Lasso) | L2 正則化 (Ridge) | |
懲罰公式 | ∑‖w‖ | ∑w² |
效果 | 推到 0,造就稀疏模型 | 整體縮細,但極少變 0 |
例子 | 自動篩問題銀行 ID,只留最關鍵欄位 | CNN 圖像分類預設都開 L2 |
類比 | 斷捨離:唔要嘅衫即刻扔 | 斷糖份:全部甜品少甜三分 |
🔁 正則化融入神經網絡點做?
原本 Loss:CrossEntropy/MSE ……
加 L2:Loss += λ * Σ‖W_l‖²
反向傳播時,梯度變做:dW_l := dW_l + λ * W_l
→ Weight Decay,每次更新順手削細權重。
結果:模型一邊追求準確度,一邊自動 remind 自己「收斂啲收斂啲」。
📌 λ(Lambda)=收緊定放縱嘅旋鈕
λ 太細 → 形同冇開,過擬合照爆。
λ 太大 → 欠擬合,模型學唔掂。
做法:
用驗證集 Grid Search / Random Search。
逐級對數尺度試:1e-5 → 1e-4 → … → 1e-1。
🧰 實戰點用?
網購推介系統
過擬合跡象:模型只推薦近 7 日爆紅單品,冷門好貨永遠唔出現。
打救:開 L2 + Dropout,迫網絡唔好淨係背「近期點擊量」。
信用卡詐騙偵測
過擬合:模型記住某幾張卡號 pattern,換一批新卡即出事。
打救:L1 令雜訊特徵權重跌到 0,只留「跨國、凌晨、高額」等硬指標。
自動駕駛影像辨識
過擬合:只識得公司測試路線啲招牌,去到新城市亂認。
打救:大量 Data Augmentation + L2,連同「雨天、夜間、高速」畫面一齊訓練。
健身姿勢偵測 App
過擬合:用同一批教練影片訓練,普通用戶角度一變就判斷錯。
打救:加 Dropout、加 λ,同時邀請唔同體型用戶拍片擴資料。
🔧 常見正則化配菜
Dropout每次 forward 隨機「熄燈」部分神經元,好似叫學生每題只准用 9 成筆記,避免死背。
Batch Normalization雖然主要為穩定梯度,但副作用亦有少少正則化味道。
Early Stopping驗證 Loss 一升就停止,等於「讀書讀到 8 成就收手」,免得鑽牛角尖。
Data Augmentation從源頭增加多樣性,好似背書前先換晒口音、場景再讀。
✅ 小總結
正則化=勒住模型唔好亂飛。
L1:掃走冇用特徵;L2:壓細全部權重。
λ 係音量旋鈕,過大欠擬合,過細冇用。
淨係加懲罰唔夠,可搭配 Dropout、Early Stop、Augmentation。
毋忘驗證集——調 λ、觀察泛化,先至真正「補中裝甲」。
掌握呢把「安全索」,無論影像、語音、表格數據,都可以放心加深網絡而唔怕背書背到爆炸。💪