top of page

08 - 正則化點樣幫手收乾「過擬合」？

喺深度學習世界，過擬合 (overfitting) 就似補習天王死背題庫：模擬考 100 分，一到正式考試換少少字眼就全軍覆沒。正則化＝老師箍住學生唔畀照抄，迫佢真正理解。以下用兩個直覺，加埋一堆貼地例子，同你拆解個中奧祕。

✨ 直覺一：箍細權重，等模型「克制啲」

權重大＝食重鹽‣ 神經網絡入面，每條邊都有個 weight。‣ Weight 愈大，代表模型好依賴嗰條路徑，好易「鹹到漏」。
L2 正則化 = 每餐限鹽‣ 在 Loss 加 λ‖W‖²，更新時自動扣少少 weight。‣ Weight 全體縮水，模型逼住平均使用多啲特徵。
λ（lambda）好似鹹淡水閘‣ λ 高到爆：所有 weight 壓到近 0 → 模型變超簡單，似線性回歸。‣ λ 適中：只削走最離譜嗰批 weight → 模型仍有表現力，但唔會背書。
貼地例子‣ 股票預測：模型猛咬住「昨收價」，忽視成交量 → 加正則化逼佢分心睇多幾指標。‣ 語音轉文字：錄音室聲軌好靚，去到街頭嘈吵就跪 → L2 減重「高質音」特徵，增加對雜音嘅容忍度。‣ 網店推薦：模型只睇「點擊量」推貨，冷門寶藏永遠見唔到 → 正則化拉低熱門特徵權重，增加多元推薦。

📉 直覺二：收窄 z 值，令激活函數近線性

激活函數嘅飽和區‣ Sigmoid / tanh 兩邊尾位會「平頂」，梯度幾乎 0。‣ Weight 大 → z = w·x + b 大 → 經常落入飽和 → 梯度爆炸或消失，模型學埋啲怪 Pattern。
Weight 細 = z 細 = 落在線性帶‣ 正則化壓細 weight，z 值多數停喺 0 左右，Sigmoid/Tanh 呢段幾乎線性。‣ 全網絡行為變溫和，好似把越野車鎖到市區模式，唔會一下油門就衝落山。
貼地例子‣ 手寫字辨識：唔同人寫「8」有窄有肥，激活太靈敏會記晒每條筆畫粗幼；線性化後集中睇整體形狀。‣ 醫療影像：MRI 噪聲高，如果激活過份非線性會對粒粒 Noise 過度反應，線性區則只理真病灶。

🧪 點驗證正則化真有料？

學習曲線 (Learning Curve)‣ 畫 Train Loss 同 Val Loss 隨 epoch 變化。‣ 無正則化：Train 落到底，Val 反而掉頭上升。‣ 有正則化：兩條曲線齊齊向下並趨近，Gap 細好多。
權重分佈圖‣ Plot 直方圖觀察 weight 大小。‣ 正則化後 High-Magnitude 區域顯著收細。
現場測試‣ 拎真實新數據、或者加雜訊／隨機遮擋嘅圖片去試。‣ 有正則化嘅模型命中率通常高出 5–20 個百分點。

🌍 更多實戰場景

行業	過擬合現象	正則化做法	效果
保險理賠	模型記住舊颱風事件日期	L1 + Early Stop	新災害一樣識斷真假
智慧農業	溫室感測器數值超乾淨，戶外即亂跳	L2 + Dropout	室內室外同樣穩定
電商定價	only 依賴「點擊率」壓價	L2 + 增特徵	考慮庫存、競品，利潤提高
聊天機械人	記住訓練語料特定措辭	Label smoothing + Weight Decay	面對新用戶措辭照樣答到

✅ 總結：正則化 = 模型嘅自律機制

箍細權重 → 模型唔會溺愛某幾個特徵。
令激活落在線性區 → 行為收斂，冇咁嬲冇咁貪。
λ 係旋鈕：細咗冇力，太大焗到欠擬合；用驗證集揸掣。
配合其他招式：Dropout、Data Augmentation、BatchNorm、Early Stopping，同時上陣效果更穩。

記住：正則化唔係要模型「學少啲」，而係「學得精」。用得好，AI 就會由死背書嘅書呆子，進化成真正識活學活用嘅學霸！🚀

bottom of page