top of page

10 - 除咗 L2 同 Dropout,仲有咩招可以防過擬合?


機器學習就似補習社,學生(模型)最易出兩個極端:

  1. 唔識讀書 → 偏差高

  2. 背到滾瓜爛熟 → 變異高/過擬合

L2 罰權重、Dropout 輪流請假都係常用藥方。不過,仲有幾味「中成藥」一樣好用,而且同前面兩招可以同場加映。以下用廣東話慢慢講,實例多多方便入腦。


📸 資料增強(Data Augmentation)──「自己整份新題目」


概念: 唔係出去搜集新數據,而係用現有數據「變」出千姿百態嘅版本,令模型見過更多花款。

影像世界最常見:

  • 左右翻轉、上下翻轉

  • 隨機旋轉、裁剪、平移

  • 加高斯雜訊、模糊、亮度/對比度調節

  • Cutout / Mixup / CutMix:直接遮塊/拼圖,迫模型睇全局

真實場景:

  1. 手機相簿分類

    • 夜拍、逆光、鏡頭髒都搞掂,因為訓練時早就用雜訊 + 亮度變化「毒打」過。

  2. 超市收銀條碼掃描

    • 把商品圖像隨機轉 10°、加 motion blur,模型連顧客手震都識讀。

  3. 語音助理

    • 把乾淨錄音混入咖啡店、地鐵背景音,Siri/Alexa 去到旺角街頭都聽得到。

  4. 信用卡詐騙(表格數據)

    • 用 SMOTE 合成少數類別交易,平衡樣本防止模型「忘記」稀有詐騙樣式。

優勢: 成本低、效果快見;特別係資料少或收集難嘅行業(醫療影像、衛星圖)。


⏳ 提早停止(Early Stopping)──「見好就收」


概念: 訓練過程中同時監控驗證集,如果發現 Val Loss 開始回升,就即刻 Break,並存低當時最好嘅權重。

操作步驟:

  1. 設定 patience(容忍期),例如連續 5 個 epoch Val Loss 冇再跌就停。

  2. 每次改善就 Save Checkpoint,最終輸出最好嗰個。

生活比喻:

  • 考試溫書:讀到凌晨 3 點已經腦袋漲,繼續硬背反而事倍功半,呢刻瞓覺反而第二日發揮更好。

  • 運動減肥:跑步過度會拉傷肌肉,適時收步 + 休息先至長期保持。

實務例子:

  1. 電影推薦系統

    • 連續 3 個 epoch Val AUC 下跌 → 早停;免得模型背住最新上映大片,結果舊片推介全滅。

  2. 醫學影像分割

    • 早停可避免模型記住某幾部 MRI 機嘅噪聲紋理。

  3. AI 作曲

    • 生成音樂若訓練過久會重複訓練集旋律,早停保持創新度。

優點: 零額外計算,連 λ 都唔洗 tune。缺點: 有時同「Loss 最小化」目標拉扯;一旦 val set 太細,噪聲會令早停時機失準。


🤝 模型集成(Model Ensemble)──「十個師傅勝一個狀元」


概念: 訓練多個獨立模型,再用平均 / 投票 / 加權融合,抵消單一模型嘅偏差同雜訊。

常見做法:

  • Bagging(Bootstrap Aggregating):隨機抽子樣本 + 子特徵,代表作 Random Forest。

  • Boosting:弱模型逐個上陣,後一個針對前一個錯誤補漏,代表作 XGBoost、LightGBM。

  • Snapshot Ensemble:同一次訓練,用 Cosine Annealing 每隔一段保存一次權重,最後集成。

  • Stacking / Blending:用另一隻「元模型」學埋各子模型輸出。


實務例子:

  1. 天氣預報

    • 歐洲 ECMWF、日本 JMA、美國 GFS 多路模型集成,預測路徑比單一模型少 10% 誤差。

  2. 金融風險評估

    • NN + Gradient Boosting + Logistic Regression,三家投票;遇到黑天鵝事件都唔易全軍覆沒。

  3. 圖像分類大賽(ImageNet/Kaggle)

    • 頭部隊伍動輒 5–30 個 CNN/ViT 做 Ensemble,最後多榨 1–2% Top-1 accuracy。

  4. 醫療診斷

    • 結合皮膚科醫生標註嘅樹模型、CNN、Transformer,降低誤診率。

成本: 準確率 Up,計算資源亦 Up;移動裝置部署要考慮壓縮如 Knowledge Distillation、量化。


🛠️ 其他 bonus 招式(一樣係正則化思維)


方法

一句解釋

例子

Label Smoothing

把 one-hot 標籤改成 0.9/0.1,免得模型過度自信

NLP 翻譯、語音識別

Mixup / CutMix

兩張圖混埋再混標籤

無人機農田病斑偵測

Batch Normalization

穩定分佈兼帶輕微正則化效果

所有 CNN 幾乎必用

Weight Sharing / Parameter Tying

多層共用同組參數

RNN、Transformers


✅ 總結:自己揀藥材,煲出最啱嘅湯


  1. 資料增強:等於加大題庫,最平易近人。

  2. 提早停止:見好即收,零成本又安全。

  3. 模型集成:多師傅保駕,效果最好但最食資源。


佢哋同 L2、Dropout 互唔排斥,可以自由組合:

  • 影像專案:Augmentation + Dropout + Early Stop

  • Tabular 信用評分:L2 + Bagging + SMOTE

  • 語音辨識:Noise Augmentation + Label Smoothing + Snapshot Ensemble


選得啱,用得巧,你嘅模型就能又精又穩,面對真實世界照樣打唔死!🚀

翱翔醫療 (2).png

Tsim Sha Tsui H Zentre Clinic

Suite 813, 8/F, H Zentre

15 Middle Road, TST

Phone: 28133700

​Whatsapp:+852 95096276

Central Printing House Clinic

Room 303A & 305,

3/F, Printing House,

6 Duddell Street, Central

Phone: 28716733 / 28716788

Whatsapp:+852 62084539

TKO Maritime Bay Clinic

UG18, UG/F,

Maritime Bay Shopping Centre
Hang Hau, Tseung Kwan O
Tel: 98852916; Whatsapp: 98852916

​Phone:98852916

Whatsapp:+852 98852916

Mong Kok T.O.P. Clinic

Room 2001, 20/F,
700 Nathan Road, Mong Kok

​(Going above from the the 3/F elevator of T.O.P. Mall)

Phone:28710277

Whatsapp:+852 98893911

bottom of page