11 - 乜嘢叫「輸入正規化」？

喺深度學習世界，你將原始數據直接塞入網絡，好多時就等於叫一班身高由 150cm 到 250cm 嘅學生排隊做體操——動作肯定唔齊。輸入正規化 (Input Normalization) 就係幫佢哋着同一對波鞋、企返同一條起跑線：

公式：

x_norm = (x - μ_train) / σ_train

（μ_train、σ_train 只用訓練集計！）

🧪 點解要搞咁多野？

梯度方向易行‣ 未正規化：Loss 山谷又窄又歪，好似喺羊腸小徑踩單車。‣ 正規化後：山谷近圓形，SGD 可以開快車，學習率調高都冇事。
防止某條 feature「搶戲」‣ 屋價預測：面積由 300–2 000，但電梯有冇只係 0/1。‣ 未縮放時，梯度大部分時間都幫面積，細特徵學唔到嘢。
收斂更穩定‣ 你會見到 Loss 曲線少左「鋸齒」，早啲貼近平穩下降。

Min-Max 同 Standardize 點揀？
- Min-Max 0–1：影像輸入尤其常用，保留邊界資訊。
- Standardize：大多數情況照用，對極端值冇咁敏感。
類別型特徵要唔要？One-hot 本身已經 0/1，通常唔洗再縮放。
時間序列可以用未來 μ/σ 嗎？絕對唔可以！只用過去窗口嘅統計，否則「洩漏時間」。
BatchNorm 係咪取代咗輸入正規化？佢更似 layer-wise 動態標準化，兩者可同時存在，效果疊加。
學習率可以調幾多？正規化後，往往由 1e-4 拉到 1e-3、甚至 1e-2 都穩。

搞掂呢步，你嘅網絡就好似換咗條又直又寬嘅跑道——可以放心踩油門，加速衝向更靚嘅結果！🚀