iPAS 考前閱讀｜科目1 體系知識圖

🧭 A. 基礎與分類 AI 定義／治理倫理／功能分類／法規分級 6 節

A1 人工智慧（AI）的定義與範疇 ★★★★★

Artificial Intelligence (AI)

L11101 K01, K09 ⭐ ×2

📝 核心要點

瞭解人工智慧的基本定義、核心目標與發展演進。
AI 技術涵蓋的主要領域包含機器學習、深度學習、自然語言處理、電腦視覺等。
能依任務本質區分強 AI / 弱 AI，並理解符號主義到連接主義的歷史脈絡。

💡 一句話比喻

把人類大腦的「看、聽、說、想」拆成程式可以做的小任務，整套加起來就叫 AI。

A2 AI 治理與倫理概念 ★★★★★

AI Governance & Ethics

L11101L11102 K10, K12, K13, S02, S03 🔥 高頻 ×5

📝 核心要點

理解 AI 在隱私、安全性、倫理層面可能面臨的挑戰。
AI Governance 包含倫理原則、偏見防範、透明度、可解釋性等議題。
建立問責機制（Accountability）、滾動式審查、生命週期監管。

💡 一句話比喻

給 AI 訂一套「行為守則」——就像給新進員工的員工手冊，規定哪些事可以做、哪些不行、出事誰負責。

A3 AI 功能分類：分析型／預測型／生成型 ★★★★☆

Analytical / Predictive / Generative AI

L11101 K01, K02 考過 1 題

📝 核心要點

依功能將 AI 分為：分析型（描述歷史現象、找出模式）、預測型（基於資料預測未來）、生成型（依分布生成新內容）。
題目常考三者對應的「典型任務」，避免顛倒：分析≠預測、生成≠分類。

💡 一句話比喻

看 AI 在做什麼動作分三類：分析型像偵探（找線索）、預測型像氣象主播（猜未來）、生成型像作家（寫新東西）。

A4 AI 發展歷史與里程碑 ★★☆☆☆

History of AI

L11101 K01

📝 核心要點

從 1956 年 Dartmouth Workshop 起步。
符號主義 → 連接主義（神經網路）。
深度學習 2012 年 ImageNet AlexNet 突破，2017 年 Transformer 問世，2022 年 ChatGPT 引爆生成式 AI。

💡 一句話比喻

AI 的歷史像漫長的爬山——1956 年起步、1970-80 年困在邏輯規則、2010 年代深度學習加 GPU 才爆發。

A5 我國 AI 評測制度與可信任 AI（AI 產品與系統評測中心） ★★★★☆

Taiwan AI Evaluation Center / Trusted AI

L11102 K10, K12 ⭐ ×3

📝 核心要點

數位發展部「AI 產品與系統評測中心」推動可信任 AI 環境。
評測重點：倫理、品質、可解釋、安全、公平性。
不評「擴展性（Scalability）」這類純效能指標。
題目常以「下列何者不屬於評測項目」考。

💡 一句話比喻

台灣的「AI 駕照考場」——數位部成立評測中心，幫 AI 做品質檢查（會不會偏差、能不能解釋）。

A6 歐盟人工智慧法案（EU AI Act）風險分級 ★★★★★

EU AI Act Risk-based Classification

L11102 K10, K15 ⭐ ×4

📝 核心要點

EU AI Act 採風險分級：不可接受（禁用，如社會評分）、高風險（醫療診斷、招聘、信用評估，需嚴格合規）、有限風險（透明度義務）、低風險。
求職者心理狀態判斷屬高風險。

💡 一句話比喻

歐盟給 AI 分四個風險等級——像食品安全等級：不可吃（禁用）、嚴格管（高風險）、要標示（有限）、隨便吃（低風險）。

📊 B. 資料資料品質／清洗／編碼／隱私 13 節

B1 資料基本概念（定義與分類） ★★★★★

Data Basics: Structured / Unstructured

L11101L11201 K04, K11 ⭐ ×2

📝 核心要點

資料定義、來源、類型（結構化／半結構化／非結構化）與特性（Volume、Velocity、Variety）。
3V/5V 大數據特性是常考觀念。

💡 一句話比喻

資料就像食材：結構化（已洗好切好的牛排）、半結構化（有包裝的速食）、非結構化（一整桶生鮮）。

B2 資料處理基本方法（清洗/轉換/整合） ★★★★★

Data Cleansing / Transformation / Integration

L11101L11202 K11, S08 🔥 高頻 ×7

📝 核心要點

資料處理流程：收集 → 清洗（缺值、雜訊、離群值）→ 轉換（標準化、編碼）→ 整合（去重、欄位對齊）。
整合三件事＝統一格式、去重複、整併多源。
不包含「延長保存期限」。

💡 一句話比喻

資料整合三招：統一格式（換成同一種度量單位）、去重複（不要把同一個人記兩次）、整併多源（把分散資料拼在一起）。

B3 探索性資料分析（EDA） ★★★★☆

Exploratory Data Analysis (EDA)

L11101L11202 K03, K11, S08 🔥 高頻 ×10

📝 核心要點

EDA 用於初步探索資料分布、異常、相關性，常用敘述性統計（平均、中位數、標準差、IQR）與視覺化（直方圖、箱型圖、散佈圖）。
EDA 屬「探索」階段，不屬「推論統計／建模」階段。

💡 一句話比喻

EDA 就像第一次去陌生城市先逛一圈——看大致長相、找重要地標、注意危險區域，再決定怎麼深度玩。

B4 ETL 程序與資料清理 ★★★★☆

ETL (Extract / Transform / Load)

L11202 K11, S08 ⭐ ×2

📝 核心要點

ETL = 抽取（多源資料）→ 轉換（清洗、標準化、欄位統一）→ 載入（資料倉儲）。
處理「同一客戶在不同系統拼寫不一致」這類資料清理是 ETL 中段的核心工作。

💡 一句話比喻

ETL 像把多家餐廳的食材送到中央廚房：抽取（去取貨）、轉換（清洗切配）、載入（放入冰箱）。

B5 資料倉儲（Data Warehouse）與資料湖（Data Lake） ★★★☆☆

Data Warehouse vs Data Lake

L11101 K04, K11

📝 核心要點

資料倉儲儲存「結構化、已清洗」資料供分析。
資料湖儲存「原始、多樣化」資料（含半結構化/非結構化）。
題目常考兩者用途差異。

💡 一句話比喻

資料倉儲＝整理過的衣櫃（找衣服快但只能放整理過的）；資料湖＝大儲物間（什麼都能塞，要找東西要花時間）。

B6 資料品質與關鍵維度 ★★★★★

Data Quality Dimensions

L11201 K11, S08 ⭐ ×3

📝 核心要點

資料品質維度：正確性（Accuracy）、完整性（Completeness）、一致性（Consistency）、即時性（Timeliness）、唯一性（Uniqueness）、有效性（Validity）。
低品質資料 → 模型輸出偏差。

💡 一句話比喻

資料品質就像考前看的筆記——錯字、漏記、過時、重複，會讓你考試答錯題。AI 的「考試」就是模型輸出。

B7 離群值（Outlier）的識別與處理 ★★★★☆

Outlier Detection & Handling

L11202 K11, S08 🔥 高頻 ×5

📝 核心要點

識別方法：Z-Score（|Z|≥3）、IQR（Q1−1.5·IQR / Q3+1.5·IQR）。
處理：截尾（Trimming）、Winsorize、領域知識判斷保留／修正。
對高價值客戶資料，離群值可能正是關鍵樣本，刪除會傷害分析。

💡 一句話比喻

離群值像班上身高 200 公分的同學——可能是錯記（要刪），也可能是 NBA 球員（要保留）。要靠領域知識判斷。

B8 缺失值（Missing Values）處理 ★★★★★

Missing Values Imputation

L11202 K11, S08

📝 核心要點

缺失機制：MCAR（完全隨機）、MAR（隨機）、MNAR（非隨機）。
處理：刪除（捨棄列／欄）、補值（平均、中位數、眾數、KNN-imputer、迴歸補值）、保留（標記缺失旗標）。

💡 一句話比喻

缺失值像考卷沒寫的題目——可以猜中位數（用班上中間分數猜）、用 KNN（看鄰座答什麼）、或乾脆不算這題。

B9 資料標準化（Standardization / Normalization） ★★★★★

Standardization vs Min-Max Normalization

L11202 K11, S08 考過 1 題

📝 核心要點

Standardization（Z-score）：mean=0、std=1，不限數值範圍。
Min-Max Normalization：壓縮到 [0,1]。
RobustScaler：用中位數+IQR，抗離群值。
距離型模型（KNN、SVM、K-Means）必須先縮放。

💡 一句話比喻

標準化像把不同單位（公分、英寸、台尺）統一成同一把尺。距離型模型（KNN/SVM）一定要先做。

B10 類別變數編碼（One-hot / Label / Target Encoding） ★★★★☆

Categorical Encoding

L11202 K11, S08

📝 核心要點

One-hot：無序類別轉二元向量，高基數會維度爆炸。
Label Encoding：整數編碼，可能誤導模型認為有順序（適合 Tree-based 或 Ordinal）。
Target Encoding：以目標均值編碼，易過擬合需 CV。

💡 一句話比喻

One-hot 像問卷勾選題（每個類別獨立欄位）；Label Encoding 像評分 1-3（會被誤以為有大小順序）。

B11 資料不平衡處理（SMOTE / 類別權重） ★★★★★

Imbalanced Data Handling

L11202L11301 K05, K11 ⭐ ×4

📝 核心要點

處理：隨機過採樣（易過擬合）、欠採樣（丟資訊）、SMOTE（合成少數類，最佳實踐）、調整類別權重、改評估指標（不平衡時 Accuracy 騙人，改 F1/PR-AUC/Recall）。

💡 一句話比喻

99 個健康樣本、1 個生病樣本——直接訓練模型會變成「全猜健康」也對 99%。要用 SMOTE 在生病樣本附近合成新樣本。

B12 資料隱私與安全（個資保護） ★★★★★

Data Privacy & Security

L11203 K12, K13 ⭐ ×3

📝 核心要點

個人資料保護法（個資法）/ GDPR / PDPA 要求：資料最小化、明確告知、目的限定、安全保護。
AI 處理時應「源頭治理」：去識別化（De-identification）、偽匿名化（Pseudonymization）、加密儲存。

💡 一句話比喻

AI 處理個資要從源頭就少碰——只取真正需要的欄位、把姓名替換成代號，不要等資料外洩才補救。

B13 資訊安全鐵三角（CIA Triad） ★★★★★

CIA Triad: Confidentiality / Integrity / Availability

L11203 K12, K13

📝 核心要點

資安三大支柱：機密性（Confidentiality，僅授權者讀取）、完整性（Integrity，未被篡改）、可用性（Availability，需要時可存取）。
AI 系統設計應全面涵蓋。

💡 一句話比喻

資安三柱＝CIA：Confidentiality（鎖好不被偷看）、Integrity（不被竄改）、Availability（要用時拿得到）。

🤖 C. 機器學習 ML 基礎／演算法／特徵工程／PCA 12 節

C1 機器學習基本原理與架構 ★★★★★

ML Fundamentals: Training Data / Model / Prediction

L11101L11301 K01, K05 考過 1 題

📝 核心要點

機器學習：從資料中學習規律，建立模型進行預測或決策。
核心三要素：訓練資料、模型（演算法+參數）、預測/推論。
流程：資料 → 訓練 → 驗證 → 測試 → 部署 → 監控。

💡 一句話比喻

機器學習像訓練狗狗——給範例（資料）、做動作（模型推論）、給對錯回饋（loss），重複到狗狗會自己做。

C2 機器學習三大類型（監督／非監督／強化） ★★★★★

Supervised / Unsupervised / Reinforcement Learning

L11101 K05 🔥 高頻 ×17

📝 核心要點

監督式（有標籤，做分類／迴歸）、非監督式（無標籤，做分群／降維／關聯規則）、強化學習（透過與環境互動的獎勵訊號學習策略）。
題目看到「有標籤」必選監督式。

💡 一句話比喻

監督式＝有老師批改作業（有標籤）；非監督式＝自己分組找規律（沒標籤）；強化學習＝玩遊戲練功（看分數）。

C3 特徵（Features）與標籤（Labels） ★★★★☆

Features vs Labels

L11301 K05, K11

📝 核心要點

特徵 = 模型的「輸入」（如售價、年齡、瀏覽次數）。
標籤 = 模型要預測的「目標」（如是否流失、房價）。
題目常考兩者角色，不要混淆。

💡 一句話比喻

特徵 = 履歷上的資料（年齡、學歷）；標籤 = 你想預測的答案（會不會流失）。模型用特徵猜標籤。

C4 資料劃分：訓練／驗證／測試集 ★★★★★

Train / Validation / Test Split

L11301 K05, S03, S08 考過 1 題

📝 核心要點

訓練集：學規律。
驗證集：調超參、選模型。
測試集：最終一次評估，**全程不可看**。
在驗證集調參＋同時評估會造成 Data Leakage（過度樂觀偏差），需 Nested CV 處理。

💡 一句話比喻

訓練集＝練習題、驗證集＝模擬考、測試集＝期末考。期末考前看到答案就破功了（Data Leakage）。

C5 K-近鄰演算法（KNN） ★★★★☆

K-Nearest Neighbors (KNN)

L11302 K05 考過 1 題

📝 核心要點

KNN 是監督式分類，需標籤資料。
預測時計算與訓練樣本的距離（歐氏／曼哈頓），取前 K 個鄰居多數決。
距離型模型，必須特徵縮放。
K 太小易過擬，太大易欠擬。

💡 一句話比喻

KNN 像「物以類聚」——要分類新人，看他週遭的 K 個朋友是哪一類，多數決。距離型必須先標準化。

C6 決策樹與資訊增益（Information Gain） ★★★★☆

Decision Tree & Information Gain

L11302 K05

📝 核心要點

決策樹透過遞迴分裂建立規則：每個節點選「資訊增益最大」（或基尼不純度最小）的特徵。
優點：可解釋、不需縮放。
缺點：易過擬合 → 用剪枝、限制深度、Random Forest／XGBoost。

💡 一句話比喻

決策樹像玩 20 questions——一直問是非題（年收 > 50 萬？已婚？）一路分到答案。資訊增益最大的問題優先問。

C7 分群（K-means／DBSCAN／Hierarchical） ★★★★☆

Clustering

L11302 K05

📝 核心要點

K-means：指定 K 個中心，反覆分配/更新（適合球形、密度均勻）。
DBSCAN：密度型，含 ε（半徑）+ MinPts，自動找雜訊。
高維下距離趨同會失效。
Hierarchical：階層樹，可選擇層級切分。

💡 一句話比喻

分群＝沒老師的分組——K-means 像分到 K 桌（要先決定幾桌）；DBSCAN 像找「密集圈圈」自動忽略雜訊。

C8 主成分分析（PCA）／降維 ★★★★★

PCA & Dimensionality Reduction

L11302 K05, K11 考過 1 題

📝 核心要點

PCA 透過協方差矩陣分解，找變異量最大的線性組合作為主成分。
用於降維、去除多重共線性、可視化。
**前必先標準化**，否則大尺度特徵會主導。
保留累計解釋變異量 ≥ 80% 為常見準則。

💡 一句話比喻

PCA 像把 3D 立體模型壓成 2D 平面照片——丟少量資訊但保留主要輪廓。前必先標準化否則大尺度特徵主導。

C9 特徵工程（Feature Engineering） ★★★★★

Feature Engineering

L11302 K05, S03 🔥 高頻 ×8

📝 核心要點

特徵工程＝用領域知識加工原始資料。
包含：特徵衍生（如「銷售金額/瀏覽次數」）、特徵選擇（L1 LASSO 自動篩）、特徵轉換（log、Box-Cox）、互動特徵（特徵相乘）、分箱（Binning）。

💡 一句話比喻

特徵工程像下廚前的備料——切絲、調味、混合（互動特徵）。垃圾進垃圾出，資料品質決定模型品質。

C10 自動化機器學習（AutoML） ★★★★☆

AutoML

L11302 K05, S04 考過 1 題

📝 核心要點

AutoML 自動完成資料前處理、特徵工程、演算法選擇、超參搜尋。
適用：缺資料科學家、需快速比較多模型、業務驅動。
不適用：高客製化、需精細控制每步。

💡 一句話比喻

AutoML 像智慧型相機自動模式——不用懂光圈快門也能拍出不錯照片。但專業攝影師（高客製）還是會用手動。

C11 結構化學習（Structured Learning） ★★★☆☆

Structured Learning

L11302 K05 考過 1 題

📝 核心要點

結構化學習＝輸入或輸出有結構（不是單一標籤）：序列標註（NER）、語法剖析（樹）、影像分割（像素圖）。
傳統分類問題輸出單一類別，不是結構化。

💡 一句話比喻

結構化學習＝輸出有「形狀」：序列（NER 找出每個字的類別）、樹（語法樹）、圖（影像分割輪廓）。不是單一標籤。

C12 異常偵測（Anomaly Detection） ★★★★☆

Anomaly Detection

L11302 K05 ⭐ ×2

📝 核心要點

找「與平常不同」的少數案例：金融詐欺、設備異常、網路入侵。
技術：統計（Z-Score）、無監督（Isolation Forest、DBSCAN noise）、自編碼器重建誤差。
題目看到「即時找異常」≠ 預測。

💡 一句話比喻

異常偵測像信用卡盜刷警報——找「跟平常很不一樣」的少數案例。不是預測常態，是抓異類。

🧠 D. 深度學習與架構 CNN/RNN/LSTM/Transformer/BERT 5 節

D1 神經網路與反向傳播（Backpropagation） ★★★★☆

Neural Network & Backpropagation

L11401 K05, K09 🔥 高頻 ×8

📝 核心要點

神經網路 = 多層神經元堆疊。
學習機制：前向傳播算損失 → 反向傳播用連鎖律算梯度 → 梯度下降（SGD/Adam）更新權重。
激活函數（ReLU、Sigmoid）提供非線性。

💡 一句話比喻

神經網路像層層過濾器——前向猜答案、算錯了多少（loss）、反向傳播找出每層該往哪邊調，慢慢學會。

D2 卷積神經網路（CNN） ★★★★☆

Convolutional Neural Network (CNN)

L11401 K05, K09 ⭐ ×4

📝 核心要點

CNN 適合圖像／空間特徵：卷積層提取局部特徵、池化層降維、全連接層分類。
優點：區域感知（Local Receptive Field）+ 參數共享，比 FCNN 少幾個量級的參數。

💡 一句話比喻

CNN 像顯微鏡掃描影像——卷積層找紋理（邊緣／角點）、池化層縮小圖、全連接層做最終判斷。

D3 RNN／LSTM／時序模型 ★★★★☆

RNN / LSTM

L11401 K05, K09 ⭐ ×3

📝 核心要點

RNN 處理序列，但有梯度消失難捕長距依賴。
LSTM 用「閘門」機制（forget/input/output gate）保留長期記憶。
適合：時序預測、語音辨識、機器翻譯。

💡 一句話比喻

RNN 像有短期記憶的人邊聽邊忘；LSTM 加了「記憶閘門」決定什麼要記、什麼可忘——適合長句子、時序預測。

D4 Transformer 與自注意力（Self-Attention） ★★★★★

Transformer & Self-Attention

L11401 K09 考過 1 題

📝 核心要點

Transformer 用 Self-Attention 機制讓每個位置直接關注序列任意位置（O(1) 路徑），克服 RNN 長距依賴問題。
Multi-head Attention 從多個子空間並行學習多樣關聯。
是 GPT、BERT 的基礎。

💡 一句話比喻

Transformer 的注意力機制＝讀句子時可同時看全文，每個字直接連到任何字（不像 RNN 一字一字傳）。

D5 BERT 與遮罩語言模型（MLM） ★★★★☆

BERT & Masked Language Model

L11401 K09

📝 核心要點

BERT（Bidirectional Encoder Representations from Transformers）採 Encoder-only 架構。
預訓練用 MLM：隨機 mask 15% token，依雙向上下文預測。
是分類／NER 等下游任務的基礎。

💡 一句話比喻

BERT 學習方式＝填空題：把句子隨機遮住 15% 的字，逼模型用「左右文」猜回來，學會雙向理解。

🎨 E. 生成式 vs 鑑別式 GAN/VAE/Diffusion/LLM/CLIP 7 節

E1 鑑別式 AI vs 生成式 AI 的核心差異 ★★★★★

Discriminative vs Generative AI

L11401 K09 🔥 高頻 ×18

📝 核心要點

鑑別式：學決策邊界 P(y|x)，做分類／預測（如 SVM、邏輯迴歸、CNN 分類器）。
生成式：學資料分布 P(x) 或 P(x,y)，能生成新樣本（如 GAN、VAE、Diffusion、GPT）。

💡 一句話比喻

鑑別式＝法官（給證據判有罪/無罪）；生成式＝小說家（從零寫新故事）。

E2 鑑別式模型典型例子 ★★★★☆

Discriminative Models

L11401 K05, K09 考過 1 題

📝 核心要點

邏輯迴歸、SVM、決策樹、Random Forest、XGBoost、CNN 分類器、BERT Classifier。
共通點：學「給定 x，預測 y」的條件機率。

💡 一句話比喻

鑑別式模型代表＝邏輯迴歸、SVM、CNN 分類器、BERT Classifier——都是「給輸入、判類別」的模型。

E3 生成式模型典型例子（GAN／VAE／Diffusion） ★★★★★

Generative Models

L11401 K05, K09 🔥 高頻 ×5

📝 核心要點

GAN：對抗訓練（生成器 vs 判別器），品質高但不穩、易模式崩潰（WGAN 解）。
VAE：顯式潛在變數，能解釋但生成模糊。
Diffusion：條件去噪反推，當前最強，DDIM/LCM 加速採樣。

💡 一句話比喻

GAN 像偽鈔對抗：生成器造假鈔、判別器辨真偽，互相進步。Diffusion 像「先把畫弄花再慢慢還原」生成。

E4 大型語言模型（LLM）基礎 ★★★★☆

Large Language Model (LLM)

L11401 K09 🔥 高頻 ×8

📝 核心要點

LLM 基於 Transformer，透過大規模文本預訓練。
代表：GPT 系（Decoder-only，自迴歸生成）、BERT（Encoder-only）、T5（Encoder-Decoder）。
本質是 next-token prediction，不保證輸出正確。

💡 一句話比喻

LLM 本質＝超強「下個字接龍」機器，從幾兆字學出來的字接龍能力。再厲害也只是統計，會幻覺。

E5 鑑別式 + 生成式整合應用 ★★★★☆

Integrated Disc.+Gen. Application

L11402 K09 考過 1 題

📝 核心要點

兩者搭配：生成式造模擬／補資料（GAN 生瑕疵影像、Diffusion 生情境），鑑別式做判斷／辨識。
例：自駕車用生成式模擬天氣，再訓練鑑別式辨識路況。

💡 一句話比喻

生成式造模擬資料（GAN 生瑕疵照片）+ 鑑別式做判斷（CNN 認瑕疵）——兩家聯手，數據缺也能訓練。

E6 多模態與 CLIP（圖文對齊） ★★★★☆

Multimodal & CLIP

L11402 K09 考過 1 題

📝 核心要點

CLIP 用對比學習把（image, text）映射到共同嵌入空間，可零樣本分類。
Multimodal Generation：文字→影像（Stable Diffusion）、語音→影像、圖文混合輸入（GPT-4V）。

💡 一句話比喻

CLIP 把「貓的照片」和「貓」這個字訓練成同一個向量點——讓 AI 能跨模態（用文字搜圖、用圖配字）。

E7 多模態生成任務分類 ★★★★☆

Multimodal Generation Tasks

L11402 K09 考過 1 題

📝 核心要點

依「輸入→輸出」模態分類：Text-to-Image、Text-to-Audio、Image-to-Text（描述生成）、Speech-to-Image、Text-to-Video。
題目看「語音輸入＋影像輸出」是 Speech-to-Image。

💡 一句話比喻

多模態＝看「進什麼出什麼」：T2I（文字→圖）、T2A（文字→音）、I2T（圖→描述）、Speech-to-Image。

📐 F. 評估與訓練過擬合/CV/F1/超參調校 6 節

F1 過擬合（Overfitting）與欠擬合 ★★★★★

Overfitting / Underfitting

L11301 K05 考過 1 題

📝 核心要點

過擬合：訓練好但泛化差（高方差）。
欠擬合：訓練差（高偏差）。
對策：正則化（L1/L2）、Dropout、Early Stopping、增加資料、簡化模型、Cross-Validation。

💡 一句話比喻

過擬合＝硬背答案的學生（看過的題滿分、新題全錯）；欠擬合＝沒讀書（看過的題也不會）。

F2 交叉驗證（Cross-Validation） ★★★★★

Cross-Validation

L11101L11301 K05, S03, S11 考過 1 題

📝 核心要點

K-Fold CV：切 K 份輪流當訓練／驗證，平均效能。
變體：Stratified K-Fold（不平衡資料保比例）、LOOCV（極小資料）、Time Series CV / Rolling Window（時序）、Nested CV（同時調參+評估避免 Leakage）。

💡 一句話比喻

CV 像把練習題切 5 份，每份輪流當模擬考其餘當練習，5 次平均分數比較穩——不會看一次運氣好就誤判。

F3 分類評估指標（F1/Precision/Recall/ROC） ★★★★★

Classification Metrics

L11301 K05 🔥 高頻 ×10

📝 核心要點

Accuracy 在不平衡時失真。
Precision = TP/(TP+FP)，少誤報。
Recall = TP/(TP+FN)，少漏報。
F1 = 2PR/(P+R)，調和平均。
ROC-AUC：跨閾值的整體判別力。

💡 一句話比喻

F1 是 Precision（抓得準不準）和 Recall（漏沒漏抓）的調和平均——像考試的「精準度 vs 全面性」綜合分。

F4 迴歸評估指標（MSE/RMSE/MAE/R²） ★★★★☆

Regression Metrics

L11301 K05

📝 核心要點

MSE：誤差平方平均（單位平方）。
RMSE：開根號還原單位。
MAE：絕對誤差平均，抗離群值。
R²：模型解釋變異比例（0~1，1 為完美）。

💡 一句話比喻

MSE（平方誤差，重罰大錯）vs MAE（絕對誤差，平等對待）；R² 是「我的模型解釋了 X% 的變化」。

F5 偏誤-變異權衡（Bias-Variance Trade-off） ★★★★☆

Bias-Variance Trade-off

L11301 K05 ⭐ ×2

📝 核心要點

高偏誤（簡單模型）→ 欠擬合（訓練測試都差）。
高變異（複雜模型）→ 過擬合（訓練好測試差）。
最佳模型在兩者間取得平衡。

💡 一句話比喻

偏誤大＝模型太簡單（直線去配曲線）；變異大＝模型太敏感（換筆資料就大變）。要在中間取平衡。

F6 超參數調校（Grid/Random/Bayesian） ★★★★☆

Hyperparameter Tuning

L11301 K05 ⭐ ×2

📝 核心要點

Grid Search：系統化全組合（簡單但慢）。
Random Search：隨機抽樣（高維更有效率，Bergstra & Bengio 2012）。
Bayesian Opt.：依歷次結果動態調整。
Early Stopping 監控驗證集損失。

💡 一句話比喻

Grid Search 像逐個試所有組合（地毯式搜索）；Random Search 像隨機抽樣（高維空間更有效率）。

⚖️ G. 倫理治理風險 Bias/Fairness/隱私計算/Hallucination 7 節

G1 偏見檢測（Bias Detection）vs 緩解（Mitigation） ★★★★★

Bias Detection vs Mitigation

L11102 K10, K12

📝 核心要點

Detection＝看（測量、比較群組指標差距，如 Disparate Impact、Equalized Odds）。
Mitigation＝改（重新加權樣本、輸出過濾規則、調整決策閾值）。

💡 一句話比喻

Detection＝看（量化群組差距是多少）；Mitigation＝改（重新加權樣本、調整閾值、輸出過濾）。

G2 AI 公平性（Fairness） ★★★★★

AI Fairness

L11102 K10, K12, K13 ⭐ ×3

📝 核心要點

確保 AI 對不同性別、種族、年齡、地區等群組無系統性差別待遇。
需建立公平性檢測流程＋依合規規範調整。
「全面移除敏感屬性」不夠，因 proxy variables 仍含偏差。

💡 一句話比喻

AI 公平像招生不分性別——不能只用「不看性別欄位」（因為郵遞區號等替代變數仍有偏差），要持續檢測校正。

G3 可解釋性（Explainability / XAI） ★★★★☆

Explainable AI (XAI)

L11102 K10, K15 🔥 高頻 ×7

📝 核心要點

高風險場景（醫療、司法、金融貸款）對可解釋性要求最嚴。
技術：LIME（局部線性近似）、SHAP（Shapley 值）、Grad-CAM（CNN 視覺化）、Partial Dependence Plot。

💡 一句話比喻

黑箱模型像不告訴你為什麼拒貸的銀行——XAI（LIME/SHAP）告訴你「因為收入低 + 年齡因素」這種可讀理由。

G4 隱私計算（HE / FL / ZKP / DP） ★★★★★

Privacy-Preserving Computing

L11203 K12, K13

📝 核心要點

HE 同態加密：在密文上直接運算。
FL 聯邦學習：資料留在地，只交換模型參數。
ZKP 零知識證明：證明屬性而不洩露。
DP 差分隱私：加噪保護個體。
ε 越小隱私越強。

💡 一句話比喻

HE＝鎖住的箱子裡也能算數；FL＝資料不出家門、只交作業；ZKP＝證明會解題但不給看答案；DP＝答案加雜訊保護個體。

G5 去識別化（Anonymization / Pseudonymization） ★★★★★

De-identification & Pseudonymization

L11203 K12, K13 考過 1 題

📝 核心要點

Anonymization：移除可識別資訊不可逆。
Pseudonymization：用代號替換可逆。
GDPR 推薦 Pseudonymization 作為內部安全處理。
外洩時仍受法規規範。

💡 一句話比喻

去識別像把員工名牌換成「員工 #1234」——資料還能用但無法直接辨人。Pseudonymization 是可逆的代號替換。

G6 幻覺（Hallucination） ★★★★☆

AI Hallucination

L11102 K10, K12

📝 核心要點

LLM 自信地生成不真實內容（虛構事實、不存在的引用）。
原因：訓練資料偏差、生成本質是 next-token 預測無事實校驗。
對策：RAG 引入真實知識、輸出驗證、人工審查。

💡 一句話比喻

幻覺＝LLM「自信地胡說八道」——它不知道自己不知道。對策：用 RAG 把真實知識塞進去、加 Guardrails 攔下危險輸出。

G7 對抗性攻擊（Adversarial Attack） ★★★★☆

Adversarial Attack

L11203 K12, K15 考過 1 題

📝 核心要點

在輸入加入微小但惡意的擾動讓模型誤判。
防禦：輸入前處理過濾、Adversarial Training（訓練含對抗樣本）、推論後規則檢查。
網路防火牆只擋網路層，不解模型層脆弱性。

💡 一句話比喻

對抗攻擊像在停止標誌貼貼紙讓自駕車誤判——對輸入加肉眼難察的擾動。防禦：訓練含對抗樣本、加輸入檢查。

🚀 H. 應用與部署 Drift/MLOps/應用情境 4 節

H1 資料漂移（Data Drift）/ 概念漂移（Concept Drift） ★★★★★

Data / Concept Drift

L11301 K05, S07 ⭐ ×2

📝 核心要點

上線後資料分布／使用者行為隨時間變化，模型表現衰退。
偵測：KL Divergence、JS、PSI（Population Stability Index，金融標準）。
對策：重新訓練、Rolling Window 驗證、線上學習。

💡 一句話比喻

Data Drift＝模型上線後，使用者行為慢慢變了（疫情後消費習慣改變），模型還用舊資料判斷就準確率掉。

H2 MLOps 與模型營運 ★★★★☆

MLOps

L11301 K05, S07 🔥 高頻 ×11

📝 核心要點

ML 工程化：CI/CD、Model Registry（中央倉管版本/部署狀態）、Pipeline 自動化、Monitoring（Drift/效能）、A/B 測試。
Kubernetes 負責容器編排、自動擴展。

💡 一句話比喻

MLOps＝把 ML 模型像產品一樣管理：版本控管、自動部署、上線監控、漂移預警——不只是訓練完就丟著。

H3 漸進式部署（Phased Rollout） ★★★☆☆

Phased Rollout

L11102 K10, S05

📝 核心要點

高風險領域（醫療、金融）導入 AI 應採漸進式：先單科室／單地區→收 feedback→逐步擴展。
FDA、歐盟 AI Act 對高風險系統部署都建議此模式。

💡 一句話比喻

漸進部署像新藥上市——先小範圍（單科室）試用、觀察反應、修正、再全面推。高風險領域必經。

H4 AI 應用情境（製造／醫療／金融／智慧城市） ★★★★☆

AI Application Domains

L11302 K02, S10 ⭐ ×4

📝 核心要點

智慧製造（瑕疵檢測、預測性維護）、醫療影像（用鑑別式 AI 不要用生成式以免幻覺）、金融風控（信用評分、詐欺偵測）、智慧城市（IoT 感測器網路、即時分析）。

💡 一句話比喻

醫療影像（用鑑別式 CNN，不用生成式以免幻覺）、金融風控（XAI 解釋拒貸）、智慧城市（IoT + 即時分析）。