HARRY CHANG

HARRY CHANG https://harrychang.cc/blog Harry Chang 的數位園藝。利用 AI 整理與記錄個人的興趣與知識庫，如果你也有相同興趣，歡迎隨意參觀。 zh-TW ksharry1025@gmail.com (HARRY CHANG) ksharry1025@gmail.com (HARRY CHANG) Mon, 08 Jun 2026 00:00:00 GMT https://harrychang.cc/blog/ai-036-ai-factory-vs-traditional-datacenter 企業 AI 資料中心建置研究 (一)：AI 工廠與傳統資料中心的本質差異 https://harrychang.cc/blog/ai-036-ai-factory-vs-traditional-datacenter 此篇文章探討既有 VM、資料庫及網頁伺服器架構為何無法承載大型 AI 運算。透過對比傳統機房與 NVIDIA「AI 工廠」的底層架構，釐清企業在網路、電力與儲存面臨的硬體衝突。 Mon, 08 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-037-scale-up-vs-scale-out 企業 AI 資料中心建置研究 (二)：從 DGX 到 SuperPOD，Scale-up 與 Scale-out 的架構差異 https://harrychang.cc/blog/ai-037-scale-up-vs-scale-out 此篇文章探討企業在擴張 AI 算力時面臨的物理限制。解析單一伺服器內的 NVLink (Scale-up) 與伺服器間的 InfiniBand/RoCE (Scale-out) 差異，釐清購買 8 張 GPU 與 64 張 GPU 的底層網路架構挑戰。 Mon, 08 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-038-nccl-infiniband-roce 企業 AI 資料中心建置研究 (三)：網路路線抉擇 —— InfiniBand、RoCEv2 與 NCCL 的底層邏輯 https://harrychang.cc/blog/ai-038-nccl-infiniband-roce 此篇文章探討為什麼企業買了 1,000 張 GPU，卻跑不出 1,000 倍的速度。深入解析 AI 網路的黃金標準 InfiniBand、挑戰者 RoCEv2，以及背後的軟體大總管 NCCL。 Mon, 08 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-039-checkpoint-storage 企業 AI 資料中心建置研究 (四)：從 NAS 癱瘓看 AI 儲存架構與 Checkpointing 難題 https://harrychang.cc/blog/ai-039-checkpoint-storage 此篇文章探討為什麼企業既有的高階 NAS 在 AI 訓練中會頻繁當機。解析 AI 叢集最大的噩夢 —— Checkpointing (存檔風暴)，並介紹專為極致吞吐量設計的全快閃平行檔案系統。 Mon, 08 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-040-power-and-liquid-cooling 企業 AI 資料中心建置研究 (五)：機房發爐的危機 —— 電力密度極限與液冷革命 https://harrychang.cc/blog/ai-040-power-and-liquid-cooling 此篇文章探討企業最常忽略的硬體危機：「買得起 GPU，機房卻放不下」。深入解析從 5kW 到 120kW 的機櫃功率暴增，以及為何冷氣已經失效，必須全面轉向直接液體冷卻 (DLC)。 Mon, 08 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-041-kubernetes-slurm-ray 企業 AI 資料中心建置研究 (六)：AI 叢集的軟體大腦 —— Kubernetes、Slurm 與 Ray https://harrychang.cc/blog/ai-041-kubernetes-slurm-ray 此篇文章探討硬體建置完成後，該如何調度 AI 算力。解答企業 IT 最常問的問題：「現有的 K8s 團隊能直接管理 AI 叢集嗎？」並解析 Slurm、K8s 與 Ray 的架構分工。 Mon, 08 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-042-how-many-gpus-needed 企業 AI 資料中心建置研究 (七)：企業到底需要多少 GPU？從 RAG 到預訓練的算力評估指南 https://harrychang.cc/blog/ai-042-how-many-gpus-needed 此篇文章探討企業在規劃 AI 預算時最核心的問題：「我們到底需要買幾張 GPU？」依據 RAG、微調 (Fine-Tuning) 與預訓練 (Pre-training) 三大場景，提供務實的算力估算指南。 Mon, 08 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-043-enterprise-ai-datacenter-blueprint 企業 AI 資料中心建置研究 (八)：企業 AI 資料中心完整藍圖 https://harrychang.cc/blog/ai-043-enterprise-ai-datacenter-blueprint 此篇文章將前面章節的硬體、網路、儲存與軟體調度進行總結，繪製出一張「全端 (Full-Stack)」的企業 AI 資料中心架構藍圖，展示從底層電力到上層 AI Agent 的完整串聯。 Mon, 08 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-044-build-cloud-colocation-hybrid 企業 AI 資料中心建置研究 (九)：該買還是該租？自建、雲端、託管與混合式的財務決策指南 https://harrychang.cc/blog/ai-044-build-cloud-colocation-hybrid 此篇文章探討 AI 專案最殘酷的財務課題。透過分析 GPU 利用率、硬體折舊與隱形人力成本，協助 CFO 與 IT 主管在自建、公有雲、託管與混合雲之間做出最正確的 ROI 決策。 Mon, 08 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-045-poc-to-production-deployment 企業 AI 資料中心建置研究 (十)：最終章 —— 從 PoC 到正式上線的專案實戰指南 https://harrychang.cc/blog/ai-045-poc-to-production-deployment 作為本系列的最終回，此篇文章將帶領企業走過 AI 叢集建置的「四大實戰階段」。從最初的雲端 PoC 驗證，到最痛苦的硬體網路驗收，提供一份避坑指南。 Mon, 08 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-046-nvidia-vera-rubin-agentic-ai 企業 AI 資料中心建置研究 (十一) 番外篇：迎擊 Agentic AI 浪潮 —— NVIDIA Vera Rubin 架構解析 https://harrychang.cc/blog/ai-046-nvidia-vera-rubin-agentic-ai 作為本系列的特別收錄篇，本文將解析 NVIDIA 最新量產的 Vera Rubin 架構。探討它如何透過 HBM4 與 Rubin CPX 技術，將推論成本砍下 10 倍，並對企業機房發出最終的「液冷通牒」。 Mon, 08 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-047-nvidia-nim-microservices 企業 AI 資料中心建置研究 (十二) 番外篇：AI 落地的最後一哩路 —— NVIDIA NIM 微服務解析 https://harrychang.cc/blog/ai-047-nvidia-nim-microservices 算力基礎設施建置完成後，企業面臨的最大痛點是如何將開源大模型快速、安全且高效地部署到生產環境。本文將深度解析 NVIDIA NIM 微服務如何透過標準化容器與 TensorRT-LLM，優化企業部署 AI 的流程。 Tue, 09 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-048-nvidia-spectrum-x-ethernet 企業 AI 資料中心建置研究 (十三) 番外篇：打破 InfiniBand 限制 —— NVIDIA Spectrum-X 網路架構解析 https://harrychang.cc/blog/ai-048-nvidia-spectrum-x-ethernet 長期以來，建置高效能 AI 算力叢集幾乎與昂貴的 InfiniBand 網路畫上等號。本文將探討 NVIDIA Spectrum-X 如何透過自適應路由與 DPU 技術，讓傳統乙太網路具備無損傳輸能力，為企業提供更具彈性的網路基礎設施選項。 Tue, 09 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-049-nvidia-omniverse-digital-twin 企業 AI 資料中心建置研究 (十四) 番外篇：建置前的沙盤推演 —— NVIDIA Omniverse 數位孿生解析 https://harrychang.cc/blog/ai-049-nvidia-omniverse-digital-twin 隨著 AI 機櫃的功耗密度屢創新高，傳統「先建置、後微調」的機房工程模式已無法應付容錯率極低的液冷環境。本文探討如何透過 NVIDIA Omniverse 平台建立機房的「數位孿生」，在實體動工前進行精準的熱力與空間模擬。 Tue, 09 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-050-nvidia-nemo-enterprise-llm-guardrails 企業 AI 資料中心建置研究 (十五) 番外篇：打造專屬大腦與安全護欄 —— NVIDIA NeMo 框架解析 https://harrychang.cc/blog/ai-050-nvidia-nemo-enterprise-llm-guardrails 有了強大的 AI 機房與推論微服務後，企業該如何安全地使用內部機密資料來微調大語言模型？本文將解析 NVIDIA NeMo 框架，探討其如何標準化分散式訓練流程，並透過 NeMo Guardrails 建立符合企業資安規範的防護網。 Tue, 09 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-051-run-ai-gpu-virtualization-pooling 企業 AI 資料中心建置研究 (十六) 番外篇：算力貧富不均的救星 —— Run:ai 與 GPU 虛擬化池化技術 https://harrychang.cc/blog/ai-051-run-ai-gpu-virtualization-pooling 企業耗資數億建置 GPU 機房，整體稼動率卻往往不到 30%？本文將解析被 NVIDIA 收購的 Run:ai 如何透過「GPU 切片」與「動態池化」技術，解決企業內部的算力浪費，成為 AI 時代的 VMware。 Tue, 09 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-052-weka-vast-data-gpu-storage 企業 AI 資料中心建置研究 (十七) 番外篇：繞過 CPU 的極速狂飆 —— WEKA 與 VAST Data 儲存架構解析 https://harrychang.cc/blog/ai-052-weka-vast-data-gpu-storage 當 GPU 算力不斷翻倍，傳統的 NAS/SAN 儲存架構卻成了拖累訓練速度的「資料瓶頸」。本文將解析 WEKA 與 VAST Data 兩大專為 AI 設計的全快閃儲存霸主，如何透過 NVIDIA GPUDirect Storage 技術繞過 CPU，實現資料直達 GPU 記憶體的極速傳輸。 Tue, 09 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心 https://harrychang.cc/blog/ai-053-weights-and-biases-mlops-architecture 企業 AI 資料中心建置研究 (十八)：告別黑盒子煉丹 —— W&B 與企業級 MLOps 營運體系 https://harrychang.cc/blog/ai-053-weights-and-biases-mlops-architecture 當頂級的 AI 硬體基礎設施全數就位，企業面臨的挑戰是：如何管理成千上萬次的模型訓練過程？本文將介紹 MLOps 的核心概念與業界標竿 Weights & Biases (W&B)，探討企業如何將 AI 從「個人煉丹」轉型為「標準化工廠流水線」。 Tue, 09 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關資料中心