03 - 淺層神經網絡係乜東東？

起步第一堂：踩水先，先敢游泳

學深度學習，好似學游水——唔係一落水就游蝶，而係先學踩水保命。淺層神經網絡就係呢個「踩水」階段：只有一層隱藏層，結構簡單得嚟夠你感受整個 AI 流程。缺咗呢一步，你直接跳去十幾層嘅卷積網絡，十居其九會溺水。

別睇佢「淺」，佢可以處理大量日常 mini-task：

邏輯迴歸只有輸入→輸出，一條通道，好似單鏡頭拍照。一旦場景複雜——例如同一張合照入面有逆光、有背光——單鏡頭就會過曝或欠曝。淺層網絡多咗隱藏層，相當於手機開埋「智能 HDR」：

日常例子：

輸入層（Input Layer）扮演資料入口：手機鏡頭像素、智能手環心跳、地鐵閘口刷卡金額……全部原汁原味送入網絡。
隱藏層（Hidden Layer）好似廚房總廚，將材料切粒再炒。佢會：
- 乘權重 → 評估每個特徵重要度
- 加偏差 → 微調整體味道
- 過激活函數 → 加香料，令菜式唔再死板
輸出層（Output Layer）侍應最後端菜畀客：「有冇貓？」「要唔要增壓？」「交易係咪詐騙？」

注意：行內講「兩層網絡」指嘅係 1 隱藏 + 1 輸出，輸入層默認唔計。

想像你早上買杯手沖咖啡：

前向傳播就係呢條 Flow。若然咖啡店一次沖 50 杯，就會一次過秤 50 份豆、50 隻杯——呢個批量處理就叫 向量化。

線性組合只會畫直線，解唔到「貓」呢種曲線邊界。激活函數就係轉向把手。

大多數淺層網絡：隱藏層用 ReLU，輸出層按任務揀 Sigmoid 或 Softmax。

網絡做完預測，好似學生交作文。老師先算總分（Loss），再喺每段旁邊批註（梯度），最後學生根據批註重寫（更新權重）。

打比方：你用導航去新餐廳，走錯路（Loss 高），GPS 會話你回頭 100 米再轉左（梯度方向），但唔會叫你一次兜三公里（學習率太大）。

斜路踩波牛，波段太高一踩就「哐」衝過頭；波段太低又慢到瞓着。現代優化器例如 Adam 會根據坡度自動轉波，同時帶減震，防止左右搖。

如果所有神經元都以 0 開局，就等於全班同學開學第一日全部抄同一份標準答案——老師永遠分唔到誰是誰。加入隨機細數值，好似派唔同主題嘅 Project，大家走唔同方向，班房先有火花，網絡亦能探索更多方案。

在 Python 用 for 逐筆數據運算，好似手洗一大籮衫。用 NumPy/ PyTorch 將 1,000 筆組成矩陣，一行矩陣乘法算晒——洗衣機一次過轆。配合 GPU 平行處理，速度可以快百倍以上。

而家你知道：

踩穩呢塊「淺水板」，下次就可以挑戰 CNN、Transformer 呢啲深水區。