生成式 AI - 擴散模型 (Diffusion Model)

1. 前言：為什麼 GAN 失寵了？

在前兩天，我們學到了：

2020 年後，一位新霸主橫空出世：Diffusion Model (擴散模型)。它結合了兩者的優點：畫質極高 且 訓練穩定。現在最紅的 Stable Diffusion、DALL-E 3、Midjourney 全部都是基於這個原理。

Diffusion 的靈感來自物理學的「擴散現象」(例如一滴墨水滴入水中，慢慢擴散開來)。

Loading Diagram...

Forward Process (前向過程 - 加噪)：
- 破壞：把一張清晰的照片，慢慢加入雜訊 (Gaussian Noise)，最後變成一張完全看不出原本長相的「雪花屏」。
- 比喻：把一塊精緻的積木城堡，慢慢拆散成一堆散落的積木。
Reverse Process (逆向過程 - 去噪)：
- 創造：從一張純雜訊開始，讓 AI 猜「原本的樣子」，一步步把雜訊拿掉，最後變回清晰的圖片。
- 比喻：看著那堆散落的積木，讓它們一步步自動組回城堡。

數學上我們無法從雜訊還原圖片，但我們可以訓練 AI 去尋找 「資料的分佈方向」。這不再只是簡單的「猜雜訊」，而是關於 「機率梯度 (Gradient)」 的藝術。

與其說 AI 在「猜雜訊」，不如說它在學習一個指向真實數據的 「引力場 (Gravity Field)」。

引力源 (Data Points)：想像每一張真實的圖片（如：手寫數字 7）都是一顆隱藏在黑暗中的 「強力磁鐵」。
鐵粉 (Noise)：隨機生成的雜訊就像撒在桌面上的 「鐵粉」，原本雜亂無章。
引力導航 (Score)：AI 學習的就是這股 「磁力線」。當你丟出隨機雜訊時，AI 會測量周圍的磁場強度，並告訴鐵粉：「往左邊挪動一點，那邊的引力更強。」

這就是去噪的本質：雜訊粒子並非被「修正」，而是被 「吸引」 回了真實數據所在的分佈區域。

原始數據的分佈通常非常稀疏（例如：100x100 的圖，只有極少數組合是人臉）。

去噪的過程是一場 「機率引導的隨機漫步」：

我們透過 MNIST 實驗，看看 AI 如何從混沌中創造秩序。

特性	GAN	VAE	Diffusion
原理	偽鈔犯 vs 警察 (博弈)	壓縮 vs 還原 (機率)	加噪 vs 去噪 (物理)
畫質	高	低 (模糊)	極高
訓練穩定度	不穩定	穩定	穩定
生成速度	快 (一次生成)	快 (一次生成)	慢 (需多次去噪)

Diffusion Model 的成功在於它不急著一次畫好，而是透過「不斷修正」來追求完美。

下一關我們將進入 Reinforcement Learning (強化學習) 的世界。這是不一樣的 AI：它不是看資料學習，而是像玩遊戲一樣，透過「獎勵與懲罰」來學習！