top of page
20 - 「卡喺壞局部最小值」係真定假?
1. 舊世界 vs. 新世界
早十幾年嘅細模型(十隻神經元、幾百條參數)確實好易跌入「壞谷底」:
一落去 Loss 高、準確率低;
點郁都郁唔返上嚟。
不過而家嘅深度網絡動輒 百萬/十億 參數,情況完全唔同。近年理論+實驗都指出:
在高維空間,要同時喺所有方向都係低點嘅壞局部最小值幾乎唔存在。
2. 高維度點解難撞死胡同?
諗吓你喺旺角行路:
2D 平面:一條巷封咗就過唔到,易死胡同。
10,000D:等於有一萬條橫街窄巷;就算前面 9,999 條封咗,只要有 1 條得,你都行得過。
喺數學上,局部最小值要滿足「所有方向二階導數 ≥ 0」。維度愈多,要同時滿足條件愈難, 相對地 鞍點(部分方向向上、部分向下)數量暴增。
3. 真正令訓練卡住嘅兩大魔王
3.1 鞍點 (Saddle Point)
馬鞍形地形:
左右望係落斜 → 似谷底
前後望係上斜 → 其實未到低谷
模型一到鞍點,梯度縮到好細,優化器以為冇得落,行極唔郁。
真例子:
Reinforcement Learning 玩 Atari,早期 policy network 會喺鞍點停 200K step,分數唔升。
3.2 平台區 (Plateau)
草原咁平:梯度≈0,模型冇方向感。
真例子:
100 層 LSTM 做語音辨識,Loss 平 10 epoch;加 LayerNorm 後即刻跌落去。
4. 更多貼地比喻
場景 | 鞍點 | 平台區 |
行山 | 去到山脊鞍部,上落都係 | 落到河谷後嘅大草原 |
開車 | 前後斜,左右平,GPS 亂指 |
