Квантизация моделей искусственного интеллекта — это процесс преобразования числовых значений в модели машинного обучения из высокоточных форматов с плавающей запятой (например, 32-битных FP32 или 64-битных FP64) в форматы с меньшей точностью, такие как FP8 с плавающей запятой или даже целочисленный INT8 (8-битные целые числа). 3
Процесс квантизации включает в себя следующие действия: 3
- Анализ распределения данных. 3 Сперва оцениваются диапазоны значений весов, активаций модели. 3 От точности определения диапазона зависят результаты после округления. 3
- Нормализация. 3 Подготовленные значения приводятся к единому стандартному диапазону, например, весам задаются границы от минимального до максимального значения. 3
- Округление. 3 После нормализации значения округляются до ближайших целых чисел, которые могут быть эффективно обработаны доступными аппаратными средствами. 3
- Обратное преобразование. 3 После вычислений результаты могут быть восстановлены до более точных форматов, если в этой задаче возникает практическая необходимость. 3
Это позволяет уменьшить размер весов модели и улучшить производительность, но также может привести к потере точности. 1