04 - 乜嘢係深層神經網絡？

諗吓一間大公司處理客訴：前線客服接電話、專員分類、經理判斷、最後高層拍板。同一套流程搬去 AI 世界，就係 深層神經網絡 (Deep Neural Network, DNN)——由三層、五層甚至幾十層「神經元部門」組成。層數越多，代表佢哋可以將資訊「逐層提煉」，由粗到細、由具體到抽象，最後交出一個高質答案。

1️⃣ 前線到高層：層層有工做

‐ 第一層（輸入層）：好似客服抄低客人投訴內容——像素、聲波、數字通通照單全收。‐ 中間幾層（隱藏層）：各部門逐級分析。愈高層就愈抽象，好似由「投訴主題」再拆「服務流程」再到「企業文化」。‐ 最後一層（輸出層）：CEO 落最後決定——退款？補償？抑或拒絕？

日常對應：• 智能音箱聽你講「開燈」，第一層拆語音頻譜；中途層識別字詞；最後層確認「Smart-Lamp」並呼叫開關。• 銀行風控系統：輸入刷卡紀錄 → 隱藏層看時間、地點、金額 → 輸出層決定是否凍結卡。

2️⃣ 前向傳播：數據行完整條流水線

每層先做 線性轉換：Z = W·A + b
再過 激活函數：A = g(Z)
把 A 當新材料，送去下一層。

類比睇相：‐ 第一眼只感受到光暗（像素）。‐ 再睇到輪廓同顏色塊（邊緣）。‐ 再辨到眼耳口鼻（局部組件）。‐ 最後認人：「原來係阿媽！」

3️⃣ 點解要咁多層？

層多≠盲目堆砌，而係逐層抽象：

層次	圖像辨識例子	語音助理例子	理財 App 例子
Layer 1	邊緣、紋理	高低頻能量	消費金額、時間
Layer 2	小圓形、直線	音素 “t / k / a”	類別：餐飲 / 交通
Layer 3	眼睛、車輪	單字 “take / bus”	月度支出結構
Output	「Tesla Model 3」	「替我 call 的士」	「下月可能透支」

無論影像、語音還是表格，只要資料夠、層夠，DNN 就能由碎料煉成洞見。

4️⃣ 學習機制：反向傳播 = GPS 回程

做完預測，系統同「正解」對比 ➡️ 算 誤差 (Loss)。反向傳播好似 GPS 叫你回頭：

從輸出層開始計梯度，知道「踩大油門撞牆」錯幾多。
鏈式法則一路倒推到最前層，找出邊個參數出錯最多。
用 梯度下降 微調權重，步伐大小由 學習率 (learning rate) 決定。

現實例子：‐ 你練投籃，教練話「手腕角度太平」，下次投就稍為翹高。‐ 外賣平台估計送達時間太樂觀，用戶投訴後模型回溯修正「雨天 + 尖峰」權重。

5️⃣ 參數 vs. 超參數：廚師同菜單

‐ 參數 (Weights, Biases)：模型自己練出嚟，好似廚師控制火候。‐ 超參數 (Layer 數、每層神經元、學習率、激活函數)：你事先設定，好似餐廳老闆寫菜單。

調超參數嘅技巧：• 少量特徵 → 層數淺；圖像語音 → 可加到十層以上。• 學習率先大後細：猶如先用大火煮滾，再細火慢燉。• 激活函數大多隱藏層用 ReLU，輸出視任務揀 Sigmoid / Softmax / Linear。

6️⃣ 非線性激活函數：直路變山路

只堆線性層 = 一條直路，永遠過唔到複雜彎位。加 ReLU、Sigmoid、Tanh 等非線性，好似在高速公路加匝道，模型先轉得過「這隻狗半遮面」「這句話帶諷刺」呢啲彎。

7️⃣ 隨機初始化：打破對稱

若全部權重 = 0，層層計完仍係 0 → 大腦癱瘓。用細小隨機值好比讓每位新員工帶唔同背景入職，團隊先有創意。偏差 b 可設 0，唔影響多樣性。

8️⃣ 維度對唔對？Debug 第一關

常見錯誤：

W 行列同 A 對唔上 = 無法相乘。
Mini-batch 次數同 b 廣播失敗 = 形狀錯。

習慣畫表格：W[L] (n[L], n[L-1])、A[L] (n[L], m)。紙筆比 print(shape) 更直觀。

9️⃣ 深網絡落地：越複雜越見功夫

健身鏡：鏡頭 + DNN 即時評分「深蹲角度」、提醒調 posture。
智慧電表：分析過去三年用電曲線，提前 24h 預警「今晚可能跳掣」。
語音換聲：將你把聲即時轉成明星聲線，直播零延遲。
自動影片剪輯：AI 幫你揀 highlight、配樂、加字幕。
金融量化：DNN 吃新聞標題、技術指標，輸出多空信號；對沖基金用嚟做高頻交易。

✅ 小結：深度 = 抽象力

深層神經網絡靠「多層 → 多抽象 → 多能力」贏世界。掌握：

前向傳播流程
反向傳播 + 梯度下降
非線性激活、隨機初始化
參數 vs. 超參數調校

就好似你有一隊分工細緻嘅跨國專家團隊，影像、聲音、數據邊個來都處理得掂。