산업
엔비디아도 'KV 캐시' 해결... '트라이어텐션'으로 메모리 10배 절감
AI 성능 경쟁의 중심축이 더 큰 모델에서 더 효율적인 모델로 이동하는 가운데, 엔비디아가 메모리 병목을 획기적으로 줄이는 새로운 기술을 공개했다. 특히, 얼마 전 구글이 공개해 화제가 됐던 '터보퀀트TurboQuant'의 메모리 6분의 1 압축보다 더 큰, 메모리 사용량 10.7배 감소라는 수치를 제시했다. 엔비디아와 MIT 연구진은 6일현지시간 대형언어모델LLM의 핵심 한계로 지적돼 온 ‘KV 캐시KV cache’ 문제를 근본적으로 개선하는 접근법 ‘트라이어텐션TriAttention’을 온라인 아카이브를 통해
이 콘텐츠는 AI타임스 원본 기사의 요약입니다. 전문은 원본 사이트에서 확인해주세요.
원문 기사 보기 →