SEMICONDUCTOR — AI / HPC

AI Chip
Design

อ่าน 32 นาที อัพเดท 2026 GPU / TPU / NPU

ทำความเข้าใจฮาร์ดแวร์ที่ขับเคลื่อน AI — GPU Architecture, Systolic Array, NPU, Memory Wall และภาพรวมตลาด AI Chip ปี 2026

01 AI Chip Overview

AI ต้องการ Matrix Multiplication ขนาดใหญ่จำนวนมหาศาล — การออกแบบ AI chip จึงมุ่งเน้นที่ throughput สูงสุดของ GEMM (General Matrix Multiply) โดยเฉพาะใน low precision แต่ในระบบจริง ความสำเร็จของชิป AI ไม่ได้วัดแค่ TOPS หรือ TFLOPS เพราะยังขึ้นกับ memory bandwidth, software stack, interconnect และต้นทุนการ deploy ใน data center ด้วย

🧠

ทำไม Matrix Multiply ถึงสำคัญ?

ทั้ง Training และ Inference ของ Neural Network ล้วนพึ่งพา Matrix Multiply อย่างหนัก — โมเดลขนาดใหญ่ระดับหลายแสนล้านถึงล้านล้านพารามิเตอร์ต้องทำ GEMM ซ้ำจำนวนมหาศาลต่อรอบการประมวลผล ดังนั้นชิปที่เร่ง GEMM ได้ดีมักได้เปรียบอย่างมากในตลาด AI

Chip Type	จุดแข็ง	จุดอ่อน	ตัวอย่าง
GPU	ยืดหยุ่นสูง, ขนานได้มาก, เครื่องมือพร้อม (CUDA)	ใช้พลังงานสูง, ราคาแพง	NVIDIA H100, AMD MI300X
TPU / Systolic	GEMM สูงมาก, Efficiency ดี	Fixed purpose, ยืดหยุ่นน้อย	Google TPU v5, AWS Trainium2
NPU (Edge)	Power ต่ำมาก, On-device AI	Performance ต่ำกว่า GPU	Apple Neural Engine, Qualcomm AI 100
FPGA	Reconfigurable, Low latency	ออกแบบยาก, Cost/perf ต่ำ	Intel Agilex, Xilinx Alveo

02 GPU Architecture

GPU สมัยใหม่สำหรับ AI มีโครงสร้างที่แตกต่างจาก consumer gaming GPU — เน้น tensor core, HBM memory, และ high-speed NVLink จุดแข็งของ GPU คือความยืดหยุ่นและ ecosystem ด้านซอฟต์แวร์ที่แข็งแรง ทำให้มันรองรับทั้ง training, inference, simulation และ workload ที่เปลี่ยนเร็วได้ดีกว่าสถาปัตยกรรมที่เฉพาะทางกว่า

Streaming Multiprocessor

หน่วยประมวลผลหลักของ NVIDIA GPU — H100 มี 132 SM ต่อ GPU — แต่ละ SM มี CUDA Core, Tensor Core, L1 Cache, Shared Memory

TENSOR CORE

Tensor Core (4th Gen)

ทำ 4×4 Matrix Multiply-Accumulate (MMA) ใน 1 clock — H100 FP8 Tensor Core: 3,958 TFLOPS — เร็วกว่า CUDA Core 64x ใน Matrix ops

WARP

Warp Execution (SIMT)

32 Thread รัน Instruction เดียวพร้อมกัน (SIMT) — Thread Divergence ทำให้ประสิทธิภาพลดลง — Warp scheduler จัดการ latency hiding

MEMORY HIERARCHY

L1 → L2 → HBM

L1 Shared Memory → L2 → HBM คือ hierarchy สำคัญของ GPU สมัยใหม่ — การ optimize memory access pattern มีผลต่อ AI performance ไม่แพ้พลัง compute

GPU	SM Count	FP8 TFLOPS	HBM	TDP	Process
NVIDIA H100 SXM5	132	3,958	80GB HBM3	700W	TSMC N4
NVIDIA H200 SXM5	132	3,958	141GB HBM3E	700W	TSMC N4
NVIDIA B200 SXM	~160	~9,000	192GB HBM3E	1,000W	TSMC N3E
AMD MI300X	304 CU	2,612	192GB HBM3	750W	TSMC N5/N6

03 Systolic Array (TPU Architecture)

Systolic Array คือ array ของ Processing Elements (PE) ที่ data ไหลผ่านเหมือนการเต้นของหัวใจ — ออกแบบมาเพื่อ GEMM โดยเฉพาะ จุดเด่นคือการ reuse ข้อมูลภายใน array สูงมาก ลดการเดินทางไปกลับของข้อมูลกับหน่วยความจำ ซึ่งเป็นหัวใจสำคัญของ energy efficiency

SYSTOLIC ARRAY OPERATION

C[i][j] += A[i][k] × B[k][j] (for all k)

แต่ละ PE รับ A จากซ้าย, B จากบน, สะสม C ไว้ใน register — ไม่ต้อง Access memory ซ้ำ → เพิ่ม Arithmetic Intensity สูงมาก

GOOGLE TPU v5p

TPU v5p (2023)

459 TFLOPS BF16 per chip, 2,765 TFLOPS INT8 — Interconnect: ICI (Inter-Chip Interconnect) 4.8 TB/s — ใช้ใน Google Bard/Gemini training

AWS TRAINIUM2

AWS Trainium2

3x performance ของ Trainium1 — ออกแบบใน-house โดย Annapurna Labs — ใช้ใน Amazon Bedrock

GROQ LPU

Language Processing Unit

ออกแบบเพื่อ Inference โดยเฉพาะ — Deterministic latency, ไม่มี cache miss — 750 tokens/s สำหรับ Llama 70B

CEREBRAS WSE-3

Wafer Scale Engine 3

Chip ใหญ่ที่สุดในโลก 900,000 cores บน wafer เดียว — ไม่มี Die-to-Die interconnect overhead — 125 PFLOPS

04 NPU & Edge AI

NPU (Neural Processing Unit) ออกแบบสำหรับ on-device AI inference ที่ใช้พลังงานต่ำมาก — ฝังอยู่ใน smartphone SoC, laptop, wearable ข้อได้เปรียบของ NPU คือ latency ต่ำ, privacy ดี, และไม่ต้องพึ่ง network ตลอดเวลา แต่ข้อจำกัดคือ memory และ thermal budget บนอุปกรณ์ปลายทางมีน้อยกว่าศูนย์ข้อมูลมาก

NPU	SoC	Performance	Power	ใช้ใน
Apple Neural Engine (17-core)	A17 Pro	35 TOPS	<1W	iPhone 15 Pro
Apple Neural Engine (38-core)	M4	38 TOPS	~1W	iPad Pro, MacBook
Qualcomm Hexagon NPU	Snapdragon 8 Elite	45 TOPS	<2W	Android flagship
Samsung Mach NPU	Exynos 2500	34 TOPS	<2W	Galaxy S25
MediaTek APU 890	Dimensity 9400	50 TOPS	<2W	Mid-range Android

📱

Hybrid AI: Cloud + Edge

การประมวลผล AI กำลังขยับไปสู่สถาปัตยกรรมแบบ Hybrid มากขึ้น — งานบางส่วนทำบน Cloud GPU ส่วนงานที่ต้องตอบสนองไวหรือเน้นความเป็นส่วนตัวอาจย้ายมารันบนอุปกรณ์ปลายทาง

05 Memory Wall Problem ใน AI

AI workload ส่วนใหญ่เป็น Memory Bound ไม่ใช่ compute bound — เพราะ weight ของ LLM ใหญ่เกินกว่าจะ fit ใน on-chip SRAM นี่คือเหตุผลที่ชิปซึ่งมีตัวเลข compute สูงมากอาจยังใช้งานจริงได้ไม่เต็มศักยภาพหากระบบ memory, cache และ dataflow ไม่สามารถป้อนข้อมูลได้ทัน

ARITHMETIC INTENSITY

I = FLOP / Bytes = (2×M×N×K) / (Bytes loaded)

ถ้า I < HW Roofline → Memory Bound; ถ้า I > Roofline → Compute Bound — LLM Decode มักมี I ต่ำ (~1 FLOP/byte) จึง memory bound เกือบตลอด

FLASH ATTENTION

FlashAttention-3

Recompute Attention แทน Store ทั้งหมด — ลด HBM access จาก O(N²) เป็น O(N) — เพิ่ม Throughput 2.6x บน H100

QUANTIZATION

INT4 / INT8 Weight Quant

ลด Weight จาก FP16 (2B) เป็น INT4 (0.5B) — ลด Memory 4x → เพิ่ม Batch Size → เพิ่ม Throughput — เช่น AWQ, GPTQ

KV CACHE

KV Cache Compression

Key-Value Cache ของ Transformer โตตาม Context Length — 128K context บน Llama-3 70B ใช้ RAM ~140GB — ต้องทำ KV Quantization หรือ PagedAttention

PIM

Processing-in-Memory

ฝัง Compute ใน HBM Base Die — Samsung HBM-PIM (Aquabolt-XL) — ลด Data movement 60%, Energy 70% สำหรับ GEMV ops

06 Numerical Precision ใน AI Training/Inference

การเลือก precision ที่เหมาะสมสำคัญมาก — precision ต่ำ = เร็วขึ้น แต่ต้องระวัง accuracy ในช่วงไม่กี่ปีที่ผ่านมาอุตสาหกรรมขยับจาก FP32 ไปสู่ BF16, FP16, FP8 และ INT4 อย่างรวดเร็ว เพราะการลด precision ช่วยลดทั้ง bandwidth, memory capacity และพลังงานต่อ operation ได้พร้อมกัน

Format	Bits	Range	ใช้ใน	HW Support
FP32	32	±3.4×10³⁸	Master weights, Optimizer state	ทุก GPU
BF16	16	±3.4×10³⁸	Training (popular)	A100+, TPU, MI300X
FP16	16	±65504	Training (older), Inference	ทุก modern GPU
FP8 (E4M3)	8	±448	Training forward pass	H100, MI300X
INT8	8	-128 to 127	Inference quantization	ทุก AI chip
INT4	4	-8 to 7	Weight-only quant (Inference)	H100 (via Tensor Core)

07 AI Cluster Interconnect

Training LLM ขนาดใหญ่ต้องใช้ GPU หลายพัน–หมื่นตัว — interconnect ระหว่าง GPU เป็น bottleneck สำคัญ เพราะประสิทธิภาพของงาน distributed training ขึ้นกับการแลกเปลี่ยน gradient, activation และ parameter shard ระหว่างเครื่องอย่างต่อเนื่อง

NVLink 4.0

NVIDIA NVLink (900 GB/s)

เชื่อม GPU 8 ตัวใน Node เดียว ผ่าน NVSwitch — 900 GB/s bidirectional per GPU — H100 DGX H100 node: 8 GPU ต่อกัน

INFINIBAND

InfiniBand NDR 400G

เชื่อม Node ต่อ Node ใน Data Center — NVIDIA DGX SuperPOD ใช้ Quantum-2 InfiniBand Switch — Latency <1μs

ETHERNET

Ultra Ethernet (800G)

Ultra Ethernet Consortium พัฒนา AI-optimized Ethernet — ถูกกว่า InfiniBand แต่ยังด้อยกว่าด้าน Latency

ICI (TPU)

Google ICI (Inter-Chip)

Google ออกแบบ Custom Interconnect สำหรับ TPU Pod — 4.8 TB/s per chip — ทำให้ TPU v5 Pod scale ได้ถึง 8,960 chips

⚠️

Network = Training Speed Bottleneck

ใน Distributed Training ของ LLM — 30–50% ของเวลาเป็น All-reduce Communication — ทำให้ NVLink bandwidth มีผลโดยตรงต่อ MFU (Model FLOP Utilization) — GPT-4 scale training ต้องการ MFU >45% เพื่อ cost-effective

08 AI Chip Landscape 2026

ภาพการแข่งขันในตลาด AI chip เริ่มแยกชัดระหว่างผู้เล่นที่ชนะด้วย software ecosystem, ผู้เล่นที่ชนะด้วย vertical integration ภายใน cloud และผู้เล่นเฉพาะทางที่เน้น latency หรือ cost efficiency สำหรับ workload บางชนิด

บริษัท	Chip	จุดแข็ง	Market Position
NVIDIA	B200 / GB200	CUDA ecosystem, NVLink, Software	~80% Data Center AI GPU market share
AMD	MI325X / MI350X	ROCm ecosystem ดีขึ้น, 192GB HBM	~10–15% growing fast
Google	TPU v5p	Internal use, Energy efficient	Internal + Cloud (Google Cloud)
AWS	Trainium2	ราคาถูกกว่า NVIDIA บน AWS	Amazon internal + AWS customers
Intel	Gaudi 3	ราคาต่ำกว่า H100	Niche, เติบโตช้า
Groq	LPU	Inference latency ต่ำสุด	Inference-as-a-service niche

📈

NVIDIA Moat: Software คือกำแพงที่แท้จริง

CUDA Ecosystem มี Library (cuDNN, cuBLAS, NCCL), Framework (PyTorch, JAX, TensorRT), Tool (Nsight) ที่สมบูรณ์ที่สุด — นักวิจัยและบริษัท AI ล้วนติดใจ CUDA — AMD ROCm และ Intel OneAPI ยังตามหลังด้าน Compatibility และ Performance ของ Ecosystem

// QUICK QUIZ

Systolic Array ออกแบบมาเพื่อ Accelerate operation ใดเป็นหลัก?