iPAS 考前閱讀|科目1 體系知識圖(v2)

線性閱讀模式 · 60 個核心節點 · 8 大分類 · 三段式(要點/一句記/費曼比喻)
已讀 0 / 60 (0%)
分類:
重要性:
頻次:
已讀:
搜尋:
🧭 A. 基礎與分類 AI 定義/治理倫理/功能分類/法規分級 6 節
A1 人工智慧(AI)的定義與範疇 ★★★★★
Artificial Intelligence (AI)
L11101 K01, K09 ⭐ ×2
  • 瞭解人工智慧的基本定義、核心目標與發展演進。
  • AI 技術涵蓋的主要領域包含機器學習、深度學習、自然語言處理、電腦視覺等。
  • 能依任務本質區分強 AI / 弱 AI,並理解符號主義到連接主義的歷史脈絡。

把人類大腦的「看、聽、說、想」拆成程式可以做的小任務,整套加起來就叫 AI

A2 AI 治理與倫理概念 ★★★★★
AI Governance & Ethics
L11101L11102 K10, K12, K13, S02, S03 🔥 高頻 ×5
  • 理解 AI 在隱私、安全性、倫理層面可能面臨的挑戰。
  • AI Governance 包含倫理原則、偏見防範、透明度、可解釋性等議題。
  • 建立問責機制(Accountability)、滾動式審查、生命週期監管。

AI 訂一套「行為守則」——就像給新進員工的員工手冊,規定哪些事可以做、哪些不行、出事誰負責。

A3 AI 功能分類:分析型/預測型/生成型 ★★★★☆
Analytical / Predictive / Generative AI
L11101 K01, K02 考過 1 題
  • 依功能將 AI 分為:分析型(描述歷史現象、找出模式)、預測型(基於資料預測未來)、生成型(依分布生成新內容)。
  • 題目常考三者對應的「典型任務」,避免顛倒:分析≠預測、生成≠分類。

AI 在做什麼動作分三類:分析型像偵探(找線索)、預測型像氣象主播(猜未來)、生成型像作家(寫新東西)。

A4 AI 發展歷史與里程碑 ★★☆☆☆
History of AI
L11101 K01
  • 從 1956 年 Dartmouth Workshop 起步。
  • 符號主義 → 連接主義(神經網路)。
  • 深度學習 2012 年 ImageNet AlexNet 突破,2017 年 Transformer 問世,2022 年 ChatGPT 引爆生成式 AI

AI 的歷史像漫長的爬山——1956 年起步、1970-80 年困在邏輯規則、2010 年代深度學習加 GPU 才爆發。

A5 我國 AI 評測制度與可信任 AI(AI 產品與系統評測中心) ★★★★☆
Taiwan AI Evaluation Center / Trusted AI
L11102 K10, K12 ⭐ ×3
  • 數位發展部「AI 產品與系統評測中心」推動可信任 AI 環境。
  • 評測重點:倫理、品質、可解釋、安全、公平性。
  • 不評「擴展性(Scalability)」這類純效能指標。
  • 題目常以「下列何者不屬於評測項目」考。

台灣的「AI 駕照考場」——數位部成立評測中心,幫 AI 做品質檢查(會不會偏差、能不能解釋)。

A6 歐盟人工智慧法案(EU AI Act)風險分級 ★★★★★
EU AI Act Risk-based Classification
L11102 K10, K15 ⭐ ×4
  • EU AI Act 採風險分級:不可接受(禁用,如社會評分)、高風險(醫療診斷、招聘、信用評估,需嚴格合規)、有限風險(透明度義務)、低風險。
  • 求職者心理狀態判斷屬高風險。

歐盟給 AI 分四個風險等級——像食品安全等級:不可吃(禁用)、嚴格管(高風險)、要標示(有限)、隨便吃(低風險)。

📊 B. 資料 資料品質/清洗/編碼/隱私 13 節
B1 資料基本概念(定義與分類) ★★★★★
Data Basics: Structured / Unstructured
L11101L11201 K04, K11 ⭐ ×2
  • 資料定義、來源、類型(結構化/半結構化/非結構化)與特性(Volume、Velocity、Variety)。
  • 3V/5V 大數據特性是常考觀念。

資料就像食材:結構化(已洗好切好的牛排)、半結構化(有包裝的速食)、非結構化(一整桶生鮮)。

B2 資料處理基本方法(清洗/轉換/整合) ★★★★★
Data Cleansing / Transformation / Integration
L11101L11202 K11, S08 🔥 高頻 ×7
  • 資料處理流程:收集 → 清洗(缺值、雜訊、離群值)→ 轉換(標準化、編碼)→ 整合(去重、欄位對齊)。
  • 整合三件事=統一格式、去重複、整併多源。
  • 不包含「延長保存期限」。

資料整合三招:統一格式(換成同一種度量單位)、去重複(不要把同一個人記兩次)、整併多源(把分散資料拼在一起)。

B3 探索性資料分析(EDA) ★★★★☆
Exploratory Data Analysis (EDA)
L11101L11202 K03, K11, S08 🔥 高頻 ×10
  • EDA 用於初步探索資料分布、異常、相關性,常用敘述性統計(平均、中位數、標準差、IQR)與視覺化(直方圖、箱型圖、散佈圖)。
  • EDA 屬「探索」階段,不屬「推論統計/建模」階段。

EDA 就像第一次去陌生城市先逛一圈——看大致長相、找重要地標、注意危險區域,再決定怎麼深度玩。

B4 ETL 程序與資料清理 ★★★★☆
ETL (Extract / Transform / Load)
L11202 K11, S08 ⭐ ×2
  • ETL = 抽取(多源資料)→ 轉換(清洗、標準化、欄位統一)→ 載入(資料倉儲)。
  • 處理「同一客戶在不同系統拼寫不一致」這類資料清理是 ETL 中段的核心工作。

ETL 像把多家餐廳的食材送到中央廚房:抽取(去取貨)、轉換(清洗切配)、載入(放入冰箱)。

B5 資料倉儲(Data Warehouse)與資料湖(Data Lake) ★★★☆☆
Data Warehouse vs Data Lake
L11101 K04, K11
  • 資料倉儲儲存「結構化、已清洗」資料供分析。
  • 資料湖儲存「原始、多樣化」資料(含半結構化/非結構化)。
  • 題目常考兩者用途差異。

資料倉儲=整理過的衣櫃(找衣服快但只能放整理過的);資料湖=大儲物間(什麼都能塞,要找東西要花時間)。

B6 資料品質與關鍵維度 ★★★★★
Data Quality Dimensions
L11201 K11, S08 ⭐ ×3
  • 資料品質維度:正確性(Accuracy)、完整性(Completeness)、一致性(Consistency)、即時性(Timeliness)、唯一性(Uniqueness)、有效性(Validity)。
  • 低品質資料 → 模型輸出偏差。

資料品質就像考前看的筆記——錯字、漏記、過時、重複,會讓你考試答錯題。AI 的「考試」就是模型輸出。

B7 離群值(Outlier)的識別與處理 ★★★★☆
Outlier Detection & Handling
L11202 K11, S08 🔥 高頻 ×5
  • 識別方法:Z-Score(|Z|≥3)、IQR(Q1−1.5·IQR / Q3+1.5·IQR)。
  • 處理:截尾(Trimming)、Winsorize、領域知識判斷保留/修正。
  • 對高價值客戶資料,離群值可能正是關鍵樣本,刪除會傷害分析。

離群值像班上身高 200 公分的同學——可能是錯記(要刪),也可能是 NBA 球員(要保留)。要靠領域知識判斷。

B8 缺失值(Missing Values)處理 ★★★★★
Missing Values Imputation
L11202 K11, S08
  • 缺失機制:MCAR(完全隨機)、MAR(隨機)、MNAR(非隨機)。
  • 處理:刪除(捨棄列/欄)、補值(平均、中位數、眾數、KNN-imputer、迴歸補值)、保留(標記缺失旗標)。

缺失值像考卷沒寫的題目——可以猜中位數(用班上中間分數猜)、用 KNN(看鄰座答什麼)、或乾脆不算這題。

B9 資料標準化(Standardization / Normalization) ★★★★★
Standardization vs Min-Max Normalization
L11202 K11, S08 考過 1 題
  • Standardization(Z-score):mean=0、std=1,不限數值範圍。
  • Min-Max Normalization:壓縮到 [0,1]。
  • RobustScaler:用中位數+IQR,抗離群值。
  • 距離型模型(KNNSVM、K-Means)必須先縮放。

標準化像把不同單位(公分、英寸、台尺)統一成同一把尺。距離型模型(KNN/SVM)一定要先做。

B10 類別變數編碼(One-hot / Label / Target Encoding) ★★★★☆
Categorical Encoding
L11202 K11, S08
  • One-hot:無序類別轉二元向量,高基數會維度爆炸。
  • Label Encoding:整數編碼,可能誤導模型認為有順序(適合 Tree-based 或 Ordinal)。
  • Target Encoding:以目標均值編碼,易過擬合需 CV

One-hot 像問卷勾選題(每個類別獨立欄位);Label Encoding 像評分 1-3(會被誤以為有大小順序)。

B11 資料不平衡處理(SMOTE / 類別權重) ★★★★★
Imbalanced Data Handling
L11202L11301 K05, K11 ⭐ ×4
  • 處理:隨機過採樣(易過擬合)、欠採樣(丟資訊)、SMOTE(合成少數類,最佳實踐)、調整類別權重、改評估指標(不平衡時 Accuracy 騙人,改 F1/PR-AUC/Recall)。

99 個健康樣本、1 個生病樣本——直接訓練模型會變成「全猜健康」也對 99%。要用 SMOTE 在生病樣本附近合成新樣本。

B12 資料隱私與安全(個資保護) ★★★★★
Data Privacy & Security
L11203 K12, K13 ⭐ ×3
  • 個人資料保護法(個資法)/ GDPR / PDPA 要求:資料最小化、明確告知、目的限定、安全保護。
  • AI 處理時應「源頭治理」:去識別化(De-identification)、偽匿名化(Pseudonymization)、加密儲存。

AI 處理個資要從源頭就少碰——只取真正需要的欄位、把姓名替換成代號,不要等資料外洩才補救。

B13 資訊安全鐵三角(CIA Triad) ★★★★★
CIA Triad: Confidentiality / Integrity / Availability
L11203 K12, K13
  • 資安三大支柱:機密性(Confidentiality,僅授權者讀取)、完整性(Integrity,未被篡改)、可用性(Availability,需要時可存取)。
  • AI 系統設計應全面涵蓋。

資安三柱=CIA:Confidentiality(鎖好不被偷看)、Integrity(不被竄改)、Availability(要用時拿得到)。

🤖 C. 機器學習 ML 基礎/演算法/特徵工程/PCA 12 節
C1 機器學習基本原理與架構 ★★★★★
ML Fundamentals: Training Data / Model / Prediction
L11101L11301 K01, K05 考過 1 題
  • 機器學習:從資料中學習規律,建立模型進行預測或決策。
  • 核心三要素:訓練資料、模型(演算法+參數)、預測/推論。
  • 流程:資料 → 訓練 → 驗證 → 測試 → 部署 → 監控。

機器學習像訓練狗狗——給範例(資料)、做動作(模型推論)、給對錯回饋(loss),重複到狗狗會自己做。

C2 機器學習三大類型(監督/非監督/強化) ★★★★★
Supervised / Unsupervised / Reinforcement Learning
L11101 K05 🔥 高頻 ×17
  • 監督式(有標籤,做分類/迴歸)、非監督式(無標籤,做分群/降維/關聯規則)、強化學習(透過與環境互動的獎勵訊號學習策略)。
  • 題目看到「有標籤」必選監督式。

監督式=有老師批改作業(有標籤);非監督式=自己分組找規律(沒標籤);強化學習=玩遊戲練功(看分數)。

C3 特徵(Features)與標籤(Labels) ★★★★☆
Features vs Labels
L11301 K05, K11
  • 特徵 = 模型的「輸入」(如售價、年齡、瀏覽次數)。
  • 標籤 = 模型要預測的「目標」(如是否流失、房價)。
  • 題目常考兩者角色,不要混淆。

特徵 = 履歷上的資料(年齡、學歷);標籤 = 你想預測的答案(會不會流失)。模型用特徵猜標籤。

C4 資料劃分:訓練/驗證/測試集 ★★★★★
Train / Validation / Test Split
L11301 K05, S03, S08 考過 1 題
  • 訓練集:學規律。
  • 驗證集:調超參、選模型。
  • 測試集:最終一次評估,**全程不可看**。
  • 在驗證集調參+同時評估會造成 Data Leakage(過度樂觀偏差),需 Nested CV 處理。

訓練集=練習題、驗證集=模擬考、測試集=期末考。期末考前看到答案就破功了(Data Leakage)。

C5 K-近鄰演算法(KNN) ★★★★☆
K-Nearest Neighbors (KNN)
L11302 K05 考過 1 題
  • KNN 是監督式分類,需標籤資料。
  • 預測時計算與訓練樣本的距離(歐氏/曼哈頓),取前 K 個鄰居多數決。
  • 距離型模型,必須特徵縮放。
  • K 太小易過擬,太大易欠擬。

KNN 像「物以類聚」——要分類新人,看他週遭的 K 個朋友是哪一類,多數決。距離型必須先標準化。

C6 決策樹與資訊增益(Information Gain) ★★★★☆
Decision Tree & Information Gain
L11302 K05
  • 決策樹透過遞迴分裂建立規則:每個節點選「資訊增益最大」(或基尼不純度最小)的特徵。
  • 優點:可解釋、不需縮放。
  • 缺點:易過擬合 → 用剪枝、限制深度、Random Forest/XGBoost。

決策樹像玩 20 questions——一直問是非題(年收 > 50 萬?已婚?)一路分到答案。資訊增益最大的問題優先問。

C7 分群(K-means/DBSCAN/Hierarchical) ★★★★☆
Clustering
L11302 K05
  • K-means:指定 K 個中心,反覆分配/更新(適合球形、密度均勻)。
  • DBSCAN:密度型,含 ε(半徑)+ MinPts,自動找雜訊。
  • 高維下距離趨同會失效。
  • Hierarchical:階層樹,可選擇層級切分。

分群=沒老師的分組——K-means 像分到 K 桌(要先決定幾桌);DBSCAN 像找「密集圈圈」自動忽略雜訊。

C8 主成分分析(PCA)/降維 ★★★★★
PCA & Dimensionality Reduction
L11302 K05, K11 考過 1 題
  • PCA 透過協方差矩陣分解,找變異量最大的線性組合作為主成分。
  • 用於降維、去除多重共線性、可視化。
  • **前必先標準化**,否則大尺度特徵會主導。
  • 保留累計解釋變異量 ≥ 80% 為常見準則。

PCA 像把 3D 立體模型壓成 2D 平面照片——丟少量資訊但保留主要輪廓。前必先標準化否則大尺度特徵主導。

C9 特徵工程(Feature Engineering) ★★★★★
Feature Engineering
L11302 K05, S03 🔥 高頻 ×8
  • 特徵工程=用領域知識加工原始資料。
  • 包含:特徵衍生(如「銷售金額/瀏覽次數」)、特徵選擇(L1 LASSO 自動篩)、特徵轉換(log、Box-Cox)、互動特徵(特徵相乘)、分箱(Binning)。

特徵工程像下廚前的備料——切絲、調味、混合(互動特徵)。垃圾進垃圾出,資料品質決定模型品質。

C10 自動化機器學習(AutoML) ★★★★☆
AutoML
L11302 K05, S04 考過 1 題
  • AutoML 自動完成資料前處理、特徵工程、演算法選擇、超參搜尋。
  • 適用:缺資料科學家、需快速比較多模型、業務驅動。
  • 不適用:高客製化、需精細控制每步。

AutoML 像智慧型相機自動模式——不用懂光圈快門也能拍出不錯照片。但專業攝影師(高客製)還是會用手動。

C11 結構化學習(Structured Learning) ★★★☆☆
Structured Learning
L11302 K05 考過 1 題
  • 結構化學習=輸入或輸出有結構(不是單一標籤):序列標註(NER)、語法剖析(樹)、影像分割(像素圖)。
  • 傳統分類問題輸出單一類別,不是結構化。

結構化學習=輸出有「形狀」:序列(NER 找出每個字的類別)、樹(語法樹)、圖(影像分割輪廓)。不是單一標籤。

C12 異常偵測(Anomaly Detection) ★★★★☆
Anomaly Detection
L11302 K05 ⭐ ×2
  • 找「與平常不同」的少數案例:金融詐欺、設備異常、網路入侵。
  • 技術:統計(Z-Score)、無監督(Isolation Forest、DBSCAN noise)、自編碼器重建誤差。
  • 題目看到「即時找異常」≠ 預測。

異常偵測像信用卡盜刷警報——找「跟平常很不一樣」的少數案例。不是預測常態,是抓異類。

🧠 D. 深度學習與架構 CNN/RNN/LSTM/Transformer/BERT 5 節
D1 神經網路與反向傳播(Backpropagation) ★★★★☆
Neural Network & Backpropagation
L11401 K05, K09 🔥 高頻 ×8
  • 神經網路 = 多層神經元堆疊。
  • 學習機制:前向傳播算損失 → 反向傳播用連鎖律算梯度 → 梯度下降(SGD/Adam)更新權重。
  • 激活函數(ReLU、Sigmoid)提供非線性。

神經網路像層層過濾器——前向猜答案、算錯了多少(loss)、反向傳播找出每層該往哪邊調,慢慢學會。

D2 卷積神經網路(CNN) ★★★★☆
Convolutional Neural Network (CNN)
L11401 K05, K09 ⭐ ×4
  • CNN 適合圖像/空間特徵:卷積層提取局部特徵、池化層降維、全連接層分類。
  • 優點:區域感知(Local Receptive Field)+ 參數共享,比 FCNN 少幾個量級的參數。

CNN 像顯微鏡掃描影像——卷積層找紋理(邊緣/角點)、池化層縮小圖、全連接層做最終判斷。

D3 RNN/LSTM/時序模型 ★★★★☆
RNN / LSTM
L11401 K05, K09 ⭐ ×3
  • RNN 處理序列,但有梯度消失難捕長距依賴。
  • LSTM 用「閘門」機制(forget/input/output gate)保留長期記憶。
  • 適合:時序預測、語音辨識、機器翻譯。

RNN 像有短期記憶的人邊聽邊忘;LSTM 加了「記憶閘門」決定什麼要記、什麼可忘——適合長句子、時序預測。

D4 Transformer 與自注意力(Self-Attention) ★★★★★
Transformer & Self-Attention
L11401 K09 考過 1 題
  • Transformer 用 Self-Attention 機制讓每個位置直接關注序列任意位置(O(1) 路徑),克服 RNN 長距依賴問題。
  • Multi-head Attention 從多個子空間並行學習多樣關聯。
  • GPTBERT 的基礎。

Transformer 的注意力機制=讀句子時可同時看全文,每個字直接連到任何字(不像 RNN 一字一字傳)。

D5 BERT 與遮罩語言模型(MLM) ★★★★☆
BERT & Masked Language Model
L11401 K09
  • BERTBidirectional Encoder Representations from Transformers)採 Encoder-only 架構。
  • 預訓練用 MLM:隨機 mask 15% token,依雙向上下文預測。
  • 是分類/NER 等下游任務的基礎。

BERT 學習方式=填空題:把句子隨機遮住 15% 的字,逼模型用「左右文」猜回來,學會雙向理解。

🎨 E. 生成式 vs 鑑別式 GAN/VAE/Diffusion/LLM/CLIP 7 節
E1 鑑別式 AI vs 生成式 AI 的核心差異 ★★★★★
Discriminative vs Generative AI
L11401 K09 🔥 高頻 ×18
  • 鑑別式:學決策邊界 P(y|x),做分類/預測(如 SVM、邏輯迴歸、CNN 分類器)。
  • 生成式:學資料分布 P(x) 或 P(x,y),能生成新樣本(如 GANVAE、Diffusion、GPT)。

鑑別式=法官(給證據判有罪/無罪);生成式=小說家(從零寫新故事)。

E2 鑑別式模型典型例子 ★★★★☆
Discriminative Models
L11401 K05, K09 考過 1 題
  • 邏輯迴歸、SVM、決策樹、Random Forest、XGBoost、CNN 分類器、BERT Classifier。
  • 共通點:學「給定 x,預測 y」的條件機率。

鑑別式模型代表=邏輯迴歸、SVMCNN 分類器、BERT Classifier——都是「給輸入、判類別」的模型。

E3 生成式模型典型例子(GAN/VAE/Diffusion) ★★★★★
Generative Models
L11401 K05, K09 🔥 高頻 ×5
  • GAN:對抗訓練(生成器 vs 判別器),品質高但不穩、易模式崩潰(WGAN 解)。
  • VAE:顯式潛在變數,能解釋但生成模糊。
  • Diffusion:條件去噪反推,當前最強,DDIM/LCM 加速採樣。

GAN 像偽鈔對抗:生成器造假鈔、判別器辨真偽,互相進步。Diffusion 像「先把畫弄花再慢慢還原」生成。

E4 大型語言模型(LLM)基礎 ★★★★☆
Large Language Model (LLM)
L11401 K09 🔥 高頻 ×8
  • LLM 基於 Transformer,透過大規模文本預訓練。
  • 代表:GPT 系(Decoder-only,自迴歸生成)、BERTEncoder-only)、T5(Encoder-Decoder)。
  • 本質是 next-token prediction,不保證輸出正確。

LLM 本質=超強「下個字接龍」機器,從幾兆字學出來的字接龍能力。再厲害也只是統計,會幻覺。

E5 鑑別式 + 生成式整合應用 ★★★★☆
Integrated Disc.+Gen. Application
L11402 K09 考過 1 題
  • 兩者搭配:生成式造模擬/補資料(GAN 生瑕疵影像、Diffusion 生情境),鑑別式做判斷/辨識。
  • 例:自駕車用生成式模擬天氣,再訓練鑑別式辨識路況。

生成式造模擬資料(GAN 生瑕疵照片)+ 鑑別式做判斷(CNN 認瑕疵)——兩家聯手,數據缺也能訓練。

E6 多模態與 CLIP(圖文對齊) ★★★★☆
Multimodal & CLIP
L11402 K09 考過 1 題
  • CLIP 用對比學習把(image, text)映射到共同嵌入空間,可零樣本分類。
  • Multimodal Generation:文字→影像(Stable Diffusion)、語音→影像、圖文混合輸入(GPT-4V)。

CLIP 把「貓的照片」和「貓」這個字訓練成同一個向量點——讓 AI 能跨模態(用文字搜圖、用圖配字)。

E7 多模態生成任務分類 ★★★★☆
Multimodal Generation Tasks
L11402 K09 考過 1 題
  • 依「輸入→輸出」模態分類:Text-to-Image、Text-to-Audio、Image-to-Text(描述生成)、Speech-to-Image、Text-to-Video。
  • 題目看「語音輸入+影像輸出」是 Speech-to-Image。

多模態=看「進什麼出什麼」:T2I(文字→圖)、T2A(文字→音)、I2T(圖→描述)、Speech-to-Image。

📐 F. 評估與訓練 過擬合/CV/F1/超參調校 6 節
F1 過擬合(Overfitting)與欠擬合 ★★★★★
Overfitting / Underfitting
L11301 K05 考過 1 題
  • 過擬合:訓練好但泛化差(高方差)。
  • 欠擬合:訓練差(高偏差)。
  • 對策:正則化(L1/L2)、Dropout、Early Stopping、增加資料、簡化模型、Cross-Validation。

過擬合=硬背答案的學生(看過的題滿分、新題全錯);欠擬合=沒讀書(看過的題也不會)。

F2 交叉驗證(Cross-Validation) ★★★★★
Cross-Validation
L11101L11301 K05, S03, S11 考過 1 題
  • K-Fold CV:切 K 份輪流當訓練/驗證,平均效能。
  • 變體:Stratified K-Fold(不平衡資料保比例)、LOOCV(極小資料)、Time Series CV / Rolling Window(時序)、Nested CV(同時調參+評估避免 Leakage)。

CV 像把練習題切 5 份,每份輪流當模擬考其餘當練習,5 次平均分數比較穩——不會看一次運氣好就誤判。

F3 分類評估指標(F1/Precision/Recall/ROC) ★★★★★
Classification Metrics
L11301 K05 🔥 高頻 ×10
  • Accuracy 在不平衡時失真。
  • Precision = TP/(TP+FP),少誤報。
  • Recall = TP/(TP+FN),少漏報。
  • F1 = 2PR/(P+R),調和平均。
  • ROC-AUC:跨閾值的整體判別力。

F1 是 Precision(抓得準不準)和 Recall(漏沒漏抓)的調和平均——像考試的「精準度 vs 全面性」綜合分。

F4 迴歸評估指標(MSE/RMSE/MAE/R²) ★★★★☆
Regression Metrics
L11301 K05
  • MSE:誤差平方平均(單位平方)。
  • RMSE:開根號還原單位。
  • MAE:絕對誤差平均,抗離群值。
  • R²:模型解釋變異比例(0~1,1 為完美)。

MSE(平方誤差,重罰大錯)vs MAE(絕對誤差,平等對待);R² 是「我的模型解釋了 X% 的變化」。

F5 偏誤-變異權衡(Bias-Variance Trade-off) ★★★★☆
Bias-Variance Trade-off
L11301 K05 ⭐ ×2
  • 高偏誤(簡單模型)→ 欠擬合(訓練測試都差)。
  • 高變異(複雜模型)→ 過擬合(訓練好測試差)。
  • 最佳模型在兩者間取得平衡。

偏誤大=模型太簡單(直線去配曲線);變異大=模型太敏感(換筆資料就大變)。要在中間取平衡。

F6 超參數調校(Grid/Random/Bayesian) ★★★★☆
Hyperparameter Tuning
L11301 K05 ⭐ ×2
  • Grid Search:系統化全組合(簡單但慢)。
  • Random Search:隨機抽樣(高維更有效率,Bergstra & Bengio 2012)。
  • Bayesian Opt.:依歷次結果動態調整。
  • Early Stopping 監控驗證集損失。

Grid Search 像逐個試所有組合(地毯式搜索);Random Search 像隨機抽樣(高維空間更有效率)。

⚖️ G. 倫理治理風險 Bias/Fairness/隱私計算/Hallucination 7 節
G1 偏見檢測(Bias Detection)vs 緩解(Mitigation) ★★★★★
Bias Detection vs Mitigation
L11102 K10, K12
  • Detection=看(測量、比較群組指標差距,如 Disparate Impact、Equalized Odds)。
  • Mitigation=改(重新加權樣本、輸出過濾規則、調整決策閾值)。

Detection=看(量化群組差距是多少);Mitigation=改(重新加權樣本、調整閾值、輸出過濾)。

G2 AI 公平性(Fairness) ★★★★★
AI Fairness
L11102 K10, K12, K13 ⭐ ×3
  • 確保 AI 對不同性別、種族、年齡、地區等群組無系統性差別待遇。
  • 需建立公平性檢測流程+依合規規範調整。
  • 「全面移除敏感屬性」不夠,因 proxy variables 仍含偏差。

AI 公平像招生不分性別——不能只用「不看性別欄位」(因為郵遞區號等替代變數仍有偏差),要持續檢測校正。

G3 可解釋性(Explainability / XAI) ★★★★☆
Explainable AI (XAI)
L11102 K10, K15 🔥 高頻 ×7
  • 高風險場景(醫療、司法、金融貸款)對可解釋性要求最嚴。
  • 技術:LIME(局部線性近似)、SHAP(Shapley 值)、Grad-CAMCNN 視覺化)、Partial Dependence Plot。

黑箱模型像不告訴你為什麼拒貸的銀行——XAILIME/SHAP)告訴你「因為收入低 + 年齡因素」這種可讀理由。

G4 隱私計算(HE / FL / ZKP / DP) ★★★★★
Privacy-Preserving Computing
L11203 K12, K13
  • HE 同態加密:在密文上直接運算。
  • FL 聯邦學習:資料留在地,只交換模型參數。
  • ZKP 零知識證明:證明屬性而不洩露。
  • DP 差分隱私:加噪保護個體。
  • ε 越小隱私越強。

HE=鎖住的箱子裡也能算數;FL=資料不出家門、只交作業;ZKP=證明會解題但不給看答案;DP=答案加雜訊保護個體。

G5 去識別化(Anonymization / Pseudonymization) ★★★★★
De-identification & Pseudonymization
L11203 K12, K13 考過 1 題
  • Anonymization:移除可識別資訊不可逆。
  • Pseudonymization:用代號替換可逆。
  • GDPR 推薦 Pseudonymization 作為內部安全處理。
  • 外洩時仍受法規規範。

去識別像把員工名牌換成「員工 #1234」——資料還能用但無法直接辨人。Pseudonymization 是可逆的代號替換。

G6 幻覺(Hallucination) ★★★★☆
AI Hallucination
L11102 K10, K12
  • LLM 自信地生成不真實內容(虛構事實、不存在的引用)。
  • 原因:訓練資料偏差、生成本質是 next-token 預測無事實校驗。
  • 對策:RAG 引入真實知識、輸出驗證、人工審查。

幻覺=LLM「自信地胡說八道」——它不知道自己不知道。對策:用 RAG 把真實知識塞進去、加 Guardrails 攔下危險輸出。

G7 對抗性攻擊(Adversarial Attack) ★★★★☆
Adversarial Attack
L11203 K12, K15 考過 1 題
  • 在輸入加入微小但惡意的擾動讓模型誤判。
  • 防禦:輸入前處理過濾、Adversarial Training(訓練含對抗樣本)、推論後規則檢查。
  • 網路防火牆只擋網路層,不解模型層脆弱性。

對抗攻擊像在停止標誌貼貼紙讓自駕車誤判——對輸入加肉眼難察的擾動。防禦:訓練含對抗樣本、加輸入檢查。

🚀 H. 應用與部署 Drift/MLOps/應用情境 4 節
H1 資料漂移(Data Drift)/ 概念漂移(Concept Drift) ★★★★★
Data / Concept Drift
L11301 K05, S07 ⭐ ×2
  • 上線後資料分布/使用者行為隨時間變化,模型表現衰退。
  • 偵測:KL Divergence、JSPSI(Population Stability Index,金融標準)。
  • 對策:重新訓練、Rolling Window 驗證、線上學習。

Data Drift=模型上線後,使用者行為慢慢變了(疫情後消費習慣改變),模型還用舊資料判斷就準確率掉。

H2 MLOps 與模型營運 ★★★★☆
MLOps
L11301 K05, S07 🔥 高頻 ×11
  • ML 工程化:CI/CD、Model Registry(中央倉管版本/部署狀態)、Pipeline 自動化、Monitoring(Drift/效能)、A/B 測試。
  • Kubernetes 負責容器編排、自動擴展。

MLOps=把 ML 模型像產品一樣管理:版本控管、自動部署、上線監控、漂移預警——不只是訓練完就丟著。

H3 漸進式部署(Phased Rollout) ★★★☆☆
Phased Rollout
L11102 K10, S05
  • 高風險領域(醫療、金融)導入 AI 應採漸進式:先單科室/單地區→收 feedback→逐步擴展。
  • FDA、歐盟 AI Act 對高風險系統部署都建議此模式。

漸進部署像新藥上市——先小範圍(單科室)試用、觀察反應、修正、再全面推。高風險領域必經。

H4 AI 應用情境(製造/醫療/金融/智慧城市) ★★★★☆
AI Application Domains
L11302 K02, S10 ⭐ ×4
  • 智慧製造(瑕疵檢測、預測性維護)、醫療影像(用鑑別式 AI 不要用生成式以免幻覺)、金融風控(信用評分、詐欺偵測)、智慧城市(IoT 感測器網路、即時分析)。

醫療影像(用鑑別式 CNN,不用生成式以免幻覺)、金融風控(XAI 解釋拒貸)、智慧城市(IoT + 即時分析)。