SemiMatrix/ TOPICS/ AI CHIP DESIGN
SEMICONDUCTOR — AI / HPC

AI Chip
Design

อ่าน 32 นาที อัพเดท 2026 GPU / TPU / NPU

ทำความเข้าใจฮาร์ดแวร์ที่ขับเคลื่อน AI — GPU Architecture, Systolic Array, NPU, Memory Wall และภาพรวมตลาด AI Chip ปี 2026

01 AI Chip Overview

AI ต้องการ Matrix Multiplication ขนาดใหญ่จำนวนมหาศาล — การออกแบบ AI chip จึงมุ่งเน้นที่ throughput สูงสุดของ GEMM (General Matrix Multiply) โดยเฉพาะใน low precision แต่ในระบบจริง ความสำเร็จของชิป AI ไม่ได้วัดแค่ TOPS หรือ TFLOPS เพราะยังขึ้นกับ memory bandwidth, software stack, interconnect และต้นทุนการ deploy ใน data center ด้วย

🧠
ทำไม Matrix Multiply ถึงสำคัญ?
ทั้ง Training และ Inference ของ Neural Network ล้วนพึ่งพา Matrix Multiply อย่างหนัก — โมเดลขนาดใหญ่ระดับหลายแสนล้านถึงล้านล้านพารามิเตอร์ต้องทำ GEMM ซ้ำจำนวนมหาศาลต่อรอบการประมวลผล ดังนั้นชิปที่เร่ง GEMM ได้ดีมักได้เปรียบอย่างมากในตลาด AI
Chip Typeจุดแข็งจุดอ่อนตัวอย่าง
GPUยืดหยุ่นสูง, ขนานได้มาก, เครื่องมือพร้อม (CUDA)ใช้พลังงานสูง, ราคาแพงNVIDIA H100, AMD MI300X
TPU / SystolicGEMM สูงมาก, Efficiency ดีFixed purpose, ยืดหยุ่นน้อยGoogle TPU v5, AWS Trainium2
NPU (Edge)Power ต่ำมาก, On-device AIPerformance ต่ำกว่า GPUApple Neural Engine, Qualcomm AI 100
FPGAReconfigurable, Low latencyออกแบบยาก, Cost/perf ต่ำIntel Agilex, Xilinx Alveo

02 GPU Architecture

GPU สมัยใหม่สำหรับ AI มีโครงสร้างที่แตกต่างจาก consumer gaming GPU — เน้น tensor core, HBM memory, และ high-speed NVLink จุดแข็งของ GPU คือความยืดหยุ่นและ ecosystem ด้านซอฟต์แวร์ที่แข็งแรง ทำให้มันรองรับทั้ง training, inference, simulation และ workload ที่เปลี่ยนเร็วได้ดีกว่าสถาปัตยกรรมที่เฉพาะทางกว่า

SM
Streaming Multiprocessor
หน่วยประมวลผลหลักของ NVIDIA GPU — H100 มี 132 SM ต่อ GPU — แต่ละ SM มี CUDA Core, Tensor Core, L1 Cache, Shared Memory
TENSOR CORE
Tensor Core (4th Gen)
ทำ 4×4 Matrix Multiply-Accumulate (MMA) ใน 1 clock — H100 FP8 Tensor Core: 3,958 TFLOPS — เร็วกว่า CUDA Core 64x ใน Matrix ops
WARP
Warp Execution (SIMT)
32 Thread รัน Instruction เดียวพร้อมกัน (SIMT) — Thread Divergence ทำให้ประสิทธิภาพลดลง — Warp scheduler จัดการ latency hiding
MEMORY HIERARCHY
L1 → L2 → HBM
L1 Shared Memory → L2 → HBM คือ hierarchy สำคัญของ GPU สมัยใหม่ — การ optimize memory access pattern มีผลต่อ AI performance ไม่แพ้พลัง compute
GPUSM CountFP8 TFLOPSHBMTDPProcess
NVIDIA H100 SXM51323,95880GB HBM3700WTSMC N4
NVIDIA H200 SXM51323,958141GB HBM3E700WTSMC N4
NVIDIA B200 SXM~160~9,000192GB HBM3E1,000WTSMC N3E
AMD MI300X304 CU2,612192GB HBM3750WTSMC N5/N6

03 Systolic Array (TPU Architecture)

Systolic Array คือ array ของ Processing Elements (PE) ที่ data ไหลผ่านเหมือนการเต้นของหัวใจ — ออกแบบมาเพื่อ GEMM โดยเฉพาะ จุดเด่นคือการ reuse ข้อมูลภายใน array สูงมาก ลดการเดินทางไปกลับของข้อมูลกับหน่วยความจำ ซึ่งเป็นหัวใจสำคัญของ energy efficiency

SYSTOLIC ARRAY OPERATION
C[i][j] += A[i][k] × B[k][j]  (for all k)
แต่ละ PE รับ A จากซ้าย, B จากบน, สะสม C ไว้ใน register — ไม่ต้อง Access memory ซ้ำ → เพิ่ม Arithmetic Intensity สูงมาก
GOOGLE TPU v5p
TPU v5p (2023)
459 TFLOPS BF16 per chip, 2,765 TFLOPS INT8 — Interconnect: ICI (Inter-Chip Interconnect) 4.8 TB/s — ใช้ใน Google Bard/Gemini training
AWS TRAINIUM2
AWS Trainium2
3x performance ของ Trainium1 — ออกแบบใน-house โดย Annapurna Labs — ใช้ใน Amazon Bedrock
GROQ LPU
Language Processing Unit
ออกแบบเพื่อ Inference โดยเฉพาะ — Deterministic latency, ไม่มี cache miss — 750 tokens/s สำหรับ Llama 70B
CEREBRAS WSE-3
Wafer Scale Engine 3
Chip ใหญ่ที่สุดในโลก 900,000 cores บน wafer เดียว — ไม่มี Die-to-Die interconnect overhead — 125 PFLOPS

04 NPU & Edge AI

NPU (Neural Processing Unit) ออกแบบสำหรับ on-device AI inference ที่ใช้พลังงานต่ำมาก — ฝังอยู่ใน smartphone SoC, laptop, wearable ข้อได้เปรียบของ NPU คือ latency ต่ำ, privacy ดี, และไม่ต้องพึ่ง network ตลอดเวลา แต่ข้อจำกัดคือ memory และ thermal budget บนอุปกรณ์ปลายทางมีน้อยกว่าศูนย์ข้อมูลมาก

NPUSoCPerformancePowerใช้ใน
Apple Neural Engine (17-core)A17 Pro35 TOPS<1WiPhone 15 Pro
Apple Neural Engine (38-core)M438 TOPS~1WiPad Pro, MacBook
Qualcomm Hexagon NPUSnapdragon 8 Elite45 TOPS<2WAndroid flagship
Samsung Mach NPUExynos 250034 TOPS<2WGalaxy S25
MediaTek APU 890Dimensity 940050 TOPS<2WMid-range Android
📱
Hybrid AI: Cloud + Edge
การประมวลผล AI กำลังขยับไปสู่สถาปัตยกรรมแบบ Hybrid มากขึ้น — งานบางส่วนทำบน Cloud GPU ส่วนงานที่ต้องตอบสนองไวหรือเน้นความเป็นส่วนตัวอาจย้ายมารันบนอุปกรณ์ปลายทาง

05 Memory Wall Problem ใน AI

AI workload ส่วนใหญ่เป็น Memory Bound ไม่ใช่ compute bound — เพราะ weight ของ LLM ใหญ่เกินกว่าจะ fit ใน on-chip SRAM นี่คือเหตุผลที่ชิปซึ่งมีตัวเลข compute สูงมากอาจยังใช้งานจริงได้ไม่เต็มศักยภาพหากระบบ memory, cache และ dataflow ไม่สามารถป้อนข้อมูลได้ทัน

ARITHMETIC INTENSITY
I = FLOP / Bytes = (2×M×N×K) / (Bytes loaded)
ถ้า I < HW Roofline → Memory Bound; ถ้า I > Roofline → Compute Bound — LLM Decode มักมี I ต่ำ (~1 FLOP/byte) จึง memory bound เกือบตลอด
FLASH ATTENTION
FlashAttention-3
Recompute Attention แทน Store ทั้งหมด — ลด HBM access จาก O(N²) เป็น O(N) — เพิ่ม Throughput 2.6x บน H100
QUANTIZATION
INT4 / INT8 Weight Quant
ลด Weight จาก FP16 (2B) เป็น INT4 (0.5B) — ลด Memory 4x → เพิ่ม Batch Size → เพิ่ม Throughput — เช่น AWQ, GPTQ
KV CACHE
KV Cache Compression
Key-Value Cache ของ Transformer โตตาม Context Length — 128K context บน Llama-3 70B ใช้ RAM ~140GB — ต้องทำ KV Quantization หรือ PagedAttention
PIM
Processing-in-Memory
ฝัง Compute ใน HBM Base Die — Samsung HBM-PIM (Aquabolt-XL) — ลด Data movement 60%, Energy 70% สำหรับ GEMV ops

06 Numerical Precision ใน AI Training/Inference

การเลือก precision ที่เหมาะสมสำคัญมาก — precision ต่ำ = เร็วขึ้น แต่ต้องระวัง accuracy ในช่วงไม่กี่ปีที่ผ่านมาอุตสาหกรรมขยับจาก FP32 ไปสู่ BF16, FP16, FP8 และ INT4 อย่างรวดเร็ว เพราะการลด precision ช่วยลดทั้ง bandwidth, memory capacity และพลังงานต่อ operation ได้พร้อมกัน

FormatBitsRangeใช้ในHW Support
FP3232±3.4×10³⁸Master weights, Optimizer stateทุก GPU
BF1616±3.4×10³⁸Training (popular)A100+, TPU, MI300X
FP1616±65504Training (older), Inferenceทุก modern GPU
FP8 (E4M3)8±448Training forward passH100, MI300X
INT88-128 to 127Inference quantizationทุก AI chip
INT44-8 to 7Weight-only quant (Inference)H100 (via Tensor Core)

07 AI Cluster Interconnect

Training LLM ขนาดใหญ่ต้องใช้ GPU หลายพัน–หมื่นตัว — interconnect ระหว่าง GPU เป็น bottleneck สำคัญ เพราะประสิทธิภาพของงาน distributed training ขึ้นกับการแลกเปลี่ยน gradient, activation และ parameter shard ระหว่างเครื่องอย่างต่อเนื่อง

NVLink 4.0
NVIDIA NVLink (900 GB/s)
เชื่อม GPU 8 ตัวใน Node เดียว ผ่าน NVSwitch — 900 GB/s bidirectional per GPU — H100 DGX H100 node: 8 GPU ต่อกัน
INFINIBAND
InfiniBand NDR 400G
เชื่อม Node ต่อ Node ใน Data Center — NVIDIA DGX SuperPOD ใช้ Quantum-2 InfiniBand Switch — Latency <1μs
ETHERNET
Ultra Ethernet (800G)
Ultra Ethernet Consortium พัฒนา AI-optimized Ethernet — ถูกกว่า InfiniBand แต่ยังด้อยกว่าด้าน Latency
ICI (TPU)
Google ICI (Inter-Chip)
Google ออกแบบ Custom Interconnect สำหรับ TPU Pod — 4.8 TB/s per chip — ทำให้ TPU v5 Pod scale ได้ถึง 8,960 chips
⚠️
Network = Training Speed Bottleneck
ใน Distributed Training ของ LLM — 30–50% ของเวลาเป็น All-reduce Communication — ทำให้ NVLink bandwidth มีผลโดยตรงต่อ MFU (Model FLOP Utilization) — GPT-4 scale training ต้องการ MFU >45% เพื่อ cost-effective

08 AI Chip Landscape 2026

ภาพการแข่งขันในตลาด AI chip เริ่มแยกชัดระหว่างผู้เล่นที่ชนะด้วย software ecosystem, ผู้เล่นที่ชนะด้วย vertical integration ภายใน cloud และผู้เล่นเฉพาะทางที่เน้น latency หรือ cost efficiency สำหรับ workload บางชนิด

บริษัทChipจุดแข็งMarket Position
NVIDIAB200 / GB200CUDA ecosystem, NVLink, Software~80% Data Center AI GPU market share
AMDMI325X / MI350XROCm ecosystem ดีขึ้น, 192GB HBM~10–15% growing fast
GoogleTPU v5pInternal use, Energy efficientInternal + Cloud (Google Cloud)
AWSTrainium2ราคาถูกกว่า NVIDIA บน AWSAmazon internal + AWS customers
IntelGaudi 3ราคาต่ำกว่า H100Niche, เติบโตช้า
GroqLPUInference latency ต่ำสุดInference-as-a-service niche
📈
NVIDIA Moat: Software คือกำแพงที่แท้จริง
CUDA Ecosystem มี Library (cuDNN, cuBLAS, NCCL), Framework (PyTorch, JAX, TensorRT), Tool (Nsight) ที่สมบูรณ์ที่สุด — นักวิจัยและบริษัท AI ล้วนติดใจ CUDA — AMD ROCm และ Intel OneAPI ยังตามหลังด้าน Compatibility และ Performance ของ Ecosystem
// QUICK QUIZ
Systolic Array ออกแบบมาเพื่อ Accelerate operation ใดเป็นหลัก?