top of page

07 - 乜嘢係「正則化」？點解咁巴閉？

喺機器學習世界，最頭痕嘅事就係 過擬合：模型喺訓練數據威到盡，一去到新數據就「跪低」。好似學生死背答案——老師改題目，即刻交白卷。正則化 (Regularization) 就係幫模型戒「死背」嘅良方，目的係收斂啲、唔好學得太過火，令佢喺陌生環境都依然交到貨。

⚖️ 原理：罰大隻仔，獎小清新

訓練時我哋會最小化一個 成本函數 (Cost/Loss)。加咗正則化之後，Loss 變成：

原始誤差＋ λ × 懲罰項

懲罰項專針對「太大」嘅權重。點解？因為權重大代表模型死緊咬住某啲特徵，十分易背錯書。罰佢，就迫模型 平均分心，提升泛化力。

📐 兩大主流：L1 vs. L2

	L1 正則化 (Lasso)	L2 正則化 (Ridge)
懲罰公式	∑‖w‖	∑w²
效果	推到 0，造就稀疏模型	整體縮細，但極少變 0
例子	自動篩問題銀行 ID，只留最關鍵欄位	CNN 圖像分類預設都開 L2
類比	斷捨離：唔要嘅衫即刻扔	斷糖份：全部甜品少甜三分

🔁 正則化融入神經網絡點做？

原本 Loss：CrossEntropy／MSE ……
加 L2：Loss += λ * Σ‖W_l‖²
反向傳播時，梯度變做：dW_l := dW_l + λ * W_l

→ Weight Decay，每次更新順手削細權重。

結果：模型一邊追求準確度，一邊自動 remind 自己「收斂啲收斂啲」。

📌 λ（Lambda）＝收緊定放縱嘅旋鈕

λ 太細 → 形同冇開，過擬合照爆。
λ 太大 → 欠擬合，模型學唔掂。
做法：
1. 用驗證集 Grid Search / Random Search。
2. 逐級對數尺度試：1e-5 → 1e-4 → … → 1e-1。

🧰 實戰點用？

網購推介系統

過擬合跡象：模型只推薦近 7 日爆紅單品，冷門好貨永遠唔出現。
打救：開 L2 + Dropout，迫網絡唔好淨係背「近期點擊量」。

信用卡詐騙偵測

過擬合：模型記住某幾張卡號 pattern，換一批新卡即出事。
打救：L1 令雜訊特徵權重跌到 0，只留「跨國、凌晨、高額」等硬指標。

自動駕駛影像辨識

過擬合：只識得公司測試路線啲招牌，去到新城市亂認。
打救：大量 Data Augmentation + L2，連同「雨天、夜間、高速」畫面一齊訓練。

健身姿勢偵測 App

過擬合：用同一批教練影片訓練，普通用戶角度一變就判斷錯。
打救：加 Dropout、加 λ，同時邀請唔同體型用戶拍片擴資料。

🔧 常見正則化配菜

Dropout每次 forward 隨機「熄燈」部分神經元，好似叫學生每題只准用 9 成筆記，避免死背。
Batch Normalization雖然主要為穩定梯度，但副作用亦有少少正則化味道。
Early Stopping驗證 Loss 一升就停止，等於「讀書讀到 8 成就收手」，免得鑽牛角尖。
Data Augmentation從源頭增加多樣性，好似背書前先換晒口音、場景再讀。

✅ 小總結

正則化＝勒住模型唔好亂飛。
L1：掃走冇用特徵；L2：壓細全部權重。
λ 係音量旋鈕，過大欠擬合，過細冇用。
淨係加懲罰唔夠，可搭配 Dropout、Early Stop、Augmentation。
毋忘驗證集——調 λ、觀察泛化，先至真正「補中裝甲」。

掌握呢把「安全索」，無論影像、語音、表格數據，都可以放心加深網絡而唔怕背書背到爆炸。💪

互動Apps探索：正規化

bottom of page