04 - 乜嘢係深層神經網絡?
諗吓一間大公司處理客訴:前線客服接電話、專員分類、經理判斷、最後高層拍板。同一套流程搬去 AI 世界,就係 深層神經網絡 (Deep Neural Network, DNN)——由三層、五層甚至幾十層「神經元部門」組成。層 數越多,代表佢哋可以將資訊「逐層提煉」,由粗到細、由具體到抽象,最後交出一個高質答案。
1️⃣ 前線到高層:層層有工做
‐ 第一層(輸入層):好似客服抄低客人投訴內容——像素、聲波、數字通通照單全收。‐ 中間幾層(隱藏層):各部門逐級分析。愈高層就愈抽象,好似由「投訴主題」再拆「服務流程」再到「企業文化」。‐ 最後一層(輸出層):CEO 落最後決定——退款?補償?抑或拒絕?
日常對應:• 智能音箱聽你講「開燈」,第一層拆語音頻譜;中途層識別字詞;最後層確認「Smart-Lamp」並呼叫開關。• 銀行風控系統:輸入刷卡紀錄 → 隱藏層看時間、地點、金額 → 輸出層決定是否凍結卡。
2️⃣ 前向傳播:數據行完整條流水線
每層先做 線性轉換:Z = W·A + b
再過 激活函數:A = g(Z)
把 A 當新材料,送去下一層。
類比睇相:‐ 第一眼只感受到光暗(像素)。‐ 再睇到輪廓同顏色塊(邊緣)。‐ 再辨到眼耳口鼻(局部組件)。‐ 最後認人:「原來係阿媽!」
3️⃣ 點解要咁多層?
層多≠盲目堆砌,而係逐層抽象:
層次 | 圖像辨識例子 | 語音助理例子 | 理財 App 例子 |
Layer 1 | 邊緣、紋理 | 高低頻能量 | 消費金額、時間 |
Layer 2 | 小圓形、直線 | 音素 “t / k / a” | 類別:餐飲 / 交通 |
Layer 3 | 眼睛、車輪 | 單字 “take / bus” | 月度支出結構 |
Output | 「Tesla Model 3」 | 「替我 call 的士」 | 「下月可能透支」 |
無論影像、語音還是表格,只要資料夠、層夠,DNN 就能由碎料煉成洞見。
4️⃣ 學習機制:反向傳播 = GPS 回程
做完預測,系統同「正解」對比 ➡️ 算 誤差 (Loss)。反向傳播好似 GPS 叫你回頭:
從輸出層開始計梯度,知道「踩大油門撞牆」錯幾多。
鏈式法則一路倒推到最前層,找出邊個參數出錯最多。
用 梯度 下降 微調權重,步伐大小由 學習率 (learning rate) 決定。
現實例子:‐ 你練投籃,教練話「手腕角度太平」,下次投就稍為翹高。‐ 外賣平台估計送達時間太樂觀,用戶投訴後模型回溯修正「雨天 + 尖峰」權重。
5️⃣ 參數 vs. 超參數:廚師同菜單
‐ 參數 (Weights, Biases):模型自己練出嚟,好似廚師控制火候。‐ 超參數 (Layer 數、每層神經元、學習率、激活函數):你事先設定,好似餐廳老闆寫菜單。
調超參數嘅技巧:• 少量特徵 → 層數淺;圖像語音 → 可加到十層以上。• 學習率先大後細:猶如先用大火煮滾,再細火慢燉。• 激活函數大多隱藏層用 ReLU,輸出視任務揀 Sigmoid / Softmax / Linear。
6️⃣ 非線性激活函數:直路變山路
只堆線性層 = 一條直路,永遠過唔到複雜彎位。加 ReLU、Sigmoid、Tanh 等非線性,好似在高速公路加匝道,模型先轉得過「這隻狗半遮面」「這句話帶諷刺」呢啲彎。
7️⃣ 隨機初始化:打破對稱
若全部權重 = 0,層層計完仍係 0 → 大腦癱瘓。用細小隨機值好比讓每位新員工帶唔同背景入職,團隊先有創意。偏差 b 可設 0,唔影響多樣性。
8️⃣ 維度對唔對?Debug 第一關
常見錯誤:
W 行列 同 A 對唔上 = 無法相乘。
Mini-batch 次數同 b 廣播失敗 = 形狀錯。
習慣畫表格:W[L] (n[L], n[L-1])、A[L] (n[L], m)。紙筆比 print(shape) 更直觀。
9️⃣ 深網絡落地:越複雜越見功夫
健身鏡:鏡頭 + DNN 即時評分「深蹲角度」、提醒調 posture。
智慧電表:分析過去三年用電曲線,提前 24h 預警「今晚可能跳掣」。
語音換聲:將你把聲即時轉成明星聲線,直播零延遲。
自動影片剪輯:AI 幫你揀 highlight、配樂、加字幕。
金融量化:DNN 吃新聞標題、技術指標,輸出多空信號;對沖基金用嚟做高頻交易。
✅ 小結:深度 = 抽象力
深層神經網絡靠「多層 → 多抽象 → 多能力」贏世界。掌握:
前向傳播流程
反向傳播 + 梯度下降
非線性激活、隨機初始化
參數 vs. 超參數調校
就好似你有一隊分工細緻嘅跨國專家團隊,影像、聲音、數據邊個來都處理得掂。