Google TPU에서 LLM 추론 성능 극대화: 확산 방식의 추측적 디코딩을 통해 3배의 속도 향상 달성

Google TPU에서 LLM 추론 성능 극대화: 확산 방식의 추측적 디코딩을 통해 3배의 속도 향상 달성

Google 2026.05.04
원문 읽기