Google TPU에서 LLM 추론 성능 극대화: 확산 방식의 추측적 디코딩을 통해 3배의 속도 향상 달성

Google 2026.05.04
Google TPU에서 LLM 추론 성능 극대화: 확산 방식의 추측적 디코딩을 통해 3배의 속도 향상 달성

좋아요가 저장됐어요!

로그인하면 어디서나 확인하고
영구적으로 저장할 수 있어요.