AI Chip
Design
ทำความเข้าใจฮาร์ดแวร์ที่ขับเคลื่อน AI — GPU Architecture, Systolic Array, NPU, Memory Wall และภาพรวมตลาด AI Chip ปี 2026
01 AI Chip Overview
AI ต้องการ Matrix Multiplication ขนาดใหญ่จำนวนมหาศาล — การออกแบบ AI chip จึงมุ่งเน้นที่ throughput สูงสุดของ GEMM (General Matrix Multiply) โดยเฉพาะใน low precision แต่ในระบบจริง ความสำเร็จของชิป AI ไม่ได้วัดแค่ TOPS หรือ TFLOPS เพราะยังขึ้นกับ memory bandwidth, software stack, interconnect และต้นทุนการ deploy ใน data center ด้วย
| Chip Type | จุดแข็ง | จุดอ่อน | ตัวอย่าง |
|---|---|---|---|
| GPU | ยืดหยุ่นสูง, ขนานได้มาก, เครื่องมือพร้อม (CUDA) | ใช้พลังงานสูง, ราคาแพง | NVIDIA H100, AMD MI300X |
| TPU / Systolic | GEMM สูงมาก, Efficiency ดี | Fixed purpose, ยืดหยุ่นน้อย | Google TPU v5, AWS Trainium2 |
| NPU (Edge) | Power ต่ำมาก, On-device AI | Performance ต่ำกว่า GPU | Apple Neural Engine, Qualcomm AI 100 |
| FPGA | Reconfigurable, Low latency | ออกแบบยาก, Cost/perf ต่ำ | Intel Agilex, Xilinx Alveo |
02 GPU Architecture
GPU สมัยใหม่สำหรับ AI มีโครงสร้างที่แตกต่างจาก consumer gaming GPU — เน้น tensor core, HBM memory, และ high-speed NVLink จุดแข็งของ GPU คือความยืดหยุ่นและ ecosystem ด้านซอฟต์แวร์ที่แข็งแรง ทำให้มันรองรับทั้ง training, inference, simulation และ workload ที่เปลี่ยนเร็วได้ดีกว่าสถาปัตยกรรมที่เฉพาะทางกว่า
| GPU | SM Count | FP8 TFLOPS | HBM | TDP | Process |
|---|---|---|---|---|---|
| NVIDIA H100 SXM5 | 132 | 3,958 | 80GB HBM3 | 700W | TSMC N4 |
| NVIDIA H200 SXM5 | 132 | 3,958 | 141GB HBM3E | 700W | TSMC N4 |
| NVIDIA B200 SXM | ~160 | ~9,000 | 192GB HBM3E | 1,000W | TSMC N3E |
| AMD MI300X | 304 CU | 2,612 | 192GB HBM3 | 750W | TSMC N5/N6 |
03 Systolic Array (TPU Architecture)
Systolic Array คือ array ของ Processing Elements (PE) ที่ data ไหลผ่านเหมือนการเต้นของหัวใจ — ออกแบบมาเพื่อ GEMM โดยเฉพาะ จุดเด่นคือการ reuse ข้อมูลภายใน array สูงมาก ลดการเดินทางไปกลับของข้อมูลกับหน่วยความจำ ซึ่งเป็นหัวใจสำคัญของ energy efficiency
04 NPU & Edge AI
NPU (Neural Processing Unit) ออกแบบสำหรับ on-device AI inference ที่ใช้พลังงานต่ำมาก — ฝังอยู่ใน smartphone SoC, laptop, wearable ข้อได้เปรียบของ NPU คือ latency ต่ำ, privacy ดี, และไม่ต้องพึ่ง network ตลอดเวลา แต่ข้อจำกัดคือ memory และ thermal budget บนอุปกรณ์ปลายทางมีน้อยกว่าศูนย์ข้อมูลมาก
| NPU | SoC | Performance | Power | ใช้ใน |
|---|---|---|---|---|
| Apple Neural Engine (17-core) | A17 Pro | 35 TOPS | <1W | iPhone 15 Pro |
| Apple Neural Engine (38-core) | M4 | 38 TOPS | ~1W | iPad Pro, MacBook |
| Qualcomm Hexagon NPU | Snapdragon 8 Elite | 45 TOPS | <2W | Android flagship |
| Samsung Mach NPU | Exynos 2500 | 34 TOPS | <2W | Galaxy S25 |
| MediaTek APU 890 | Dimensity 9400 | 50 TOPS | <2W | Mid-range Android |
05 Memory Wall Problem ใน AI
AI workload ส่วนใหญ่เป็น Memory Bound ไม่ใช่ compute bound — เพราะ weight ของ LLM ใหญ่เกินกว่าจะ fit ใน on-chip SRAM นี่คือเหตุผลที่ชิปซึ่งมีตัวเลข compute สูงมากอาจยังใช้งานจริงได้ไม่เต็มศักยภาพหากระบบ memory, cache และ dataflow ไม่สามารถป้อนข้อมูลได้ทัน
06 Numerical Precision ใน AI Training/Inference
การเลือก precision ที่เหมาะสมสำคัญมาก — precision ต่ำ = เร็วขึ้น แต่ต้องระวัง accuracy ในช่วงไม่กี่ปีที่ผ่านมาอุตสาหกรรมขยับจาก FP32 ไปสู่ BF16, FP16, FP8 และ INT4 อย่างรวดเร็ว เพราะการลด precision ช่วยลดทั้ง bandwidth, memory capacity และพลังงานต่อ operation ได้พร้อมกัน
| Format | Bits | Range | ใช้ใน | HW Support |
|---|---|---|---|---|
| FP32 | 32 | ±3.4×10³⁸ | Master weights, Optimizer state | ทุก GPU |
| BF16 | 16 | ±3.4×10³⁸ | Training (popular) | A100+, TPU, MI300X |
| FP16 | 16 | ±65504 | Training (older), Inference | ทุก modern GPU |
| FP8 (E4M3) | 8 | ±448 | Training forward pass | H100, MI300X |
| INT8 | 8 | -128 to 127 | Inference quantization | ทุก AI chip |
| INT4 | 4 | -8 to 7 | Weight-only quant (Inference) | H100 (via Tensor Core) |
07 AI Cluster Interconnect
Training LLM ขนาดใหญ่ต้องใช้ GPU หลายพัน–หมื่นตัว — interconnect ระหว่าง GPU เป็น bottleneck สำคัญ เพราะประสิทธิภาพของงาน distributed training ขึ้นกับการแลกเปลี่ยน gradient, activation และ parameter shard ระหว่างเครื่องอย่างต่อเนื่อง
08 AI Chip Landscape 2026
ภาพการแข่งขันในตลาด AI chip เริ่มแยกชัดระหว่างผู้เล่นที่ชนะด้วย software ecosystem, ผู้เล่นที่ชนะด้วย vertical integration ภายใน cloud และผู้เล่นเฉพาะทางที่เน้น latency หรือ cost efficiency สำหรับ workload บางชนิด
| บริษัท | Chip | จุดแข็ง | Market Position |
|---|---|---|---|
| NVIDIA | B200 / GB200 | CUDA ecosystem, NVLink, Software | ~80% Data Center AI GPU market share |
| AMD | MI325X / MI350X | ROCm ecosystem ดีขึ้น, 192GB HBM | ~10–15% growing fast |
| TPU v5p | Internal use, Energy efficient | Internal + Cloud (Google Cloud) | |
| AWS | Trainium2 | ราคาถูกกว่า NVIDIA บน AWS | Amazon internal + AWS customers |
| Intel | Gaudi 3 | ราคาต่ำกว่า H100 | Niche, เติบโตช้า |
| Groq | LPU | Inference latency ต่ำสุด | Inference-as-a-service niche |