20 - 「卡喺壞局部最小值」係真定假？

1. 舊世界 vs. 新世界

早十幾年嘅細模型（十隻神經元、幾百條參數）確實好易跌入「壞谷底」：

不過而家嘅深度網絡動輒 百萬／十億 參數，情況完全唔同。近年理論＋實驗都指出：

在高維空間，要同時喺所有方向都係低點嘅壞局部最小值幾乎唔存在。

諗吓你喺旺角行路：

喺數學上，局部最小值要滿足「所有方向二階導數 ≥ 0」。維度愈多，要同時滿足條件愈難，相對地 鞍點（部分方向向上、部分向下）數量暴增。

馬鞍形地形：

模型一到鞍點，梯度縮到好細，優化器以為冇得落，行極唔郁。

真例子：

草原咁平：梯度≈0，模型冇方向感。

真例子：

武器	比喻	點幫手
Momentum / Nesterov	滑板加速	之前速度推你越過鞍點
RMSprop	智慧減震鞋	梯度細方向放大步，快啲走出平台
Adam	全自動導航	Momentum＋RMSprop＋偏差修正，一條龍
Learning-rate Decay / Cosine Restart	跑步先快後慢	早期衝刺，後期細步精修
隨機噪聲 (Dropout / Gradient Noise)	喺沙地踢波，反彈唔可預計	小震盪幫你跳離平坦面
Skip Connection (ResNet)	加條直達電梯	梯度繞路返前層，避免 0
Batch / LayerNorm	自動調味	穩定分佈，減慢停滯

ImageNet ResNet-152
- 無 skip connection → 第 60 層開始梯度 1e-6，Loss 冇再跌。
- 加返 skip，配 Adam，24h 內 top-1 由 40% 跌到 22%。
Transformer 語音到文字
- LR 設 1e-4 無 warm-up：第 3 epoch 鞍點停住。
- 用 4,000 step warm-up + cosine decay → CER 由 13% 降至 7%。
自駕車路徑規劃
- SGD + 固定 LR 卡平台；歸零再起動仍卡。
- 改用 RMSprop，β=0.95，5 小時內收斂，平均轉彎誤差 < 20 cm。

學識呢套思維，下次訓練卡關，你就唔會怪「壞局部最小值」，而係對症下藥，快狠準衝出困境！🚀