기법/방법론고급
Quantization
양자화 · Quantization
모델의 정밀도를 낮춰 크기와 연산량을 줄이는 기법
상세 설명
Quantization (양자화)
32비트 실수를 8비트 정수로 표현해 모델을 가볍게 만드는 기법입니다.
종류
- INT8: 정수로 변환 (8비트)
- FP16: 반정밀도 부동소수점 (16비트)
- INT4: 극도로 압축 (4비트)
효과
- 모델 크기 75-90% 감소
- 추론 속도 향상
활용
모바일, 엣지 기기에서 LLM 실행 가능 (llama.cpp, GPTQ, AWQ)
태그
#효율성#모델압축#온디바이스