Процесс дистилляции больших языковых моделей для локального использования включает несколько этапов: 1
- Выбор модели-учителя. 1 В качестве модели-учителя используют предварительно подготовленную модель большого языка, обученную на большом наборе данных. 1 Например, GPT-4, LLaMA, PaLM, BERT-large. 1
- Создание модели-ученика. 1 Модель-ученик должна быть уменьшенной и эффективной в вычислительном отношении версией модели-учителя. 1 В ней может быть меньше слоёв, уменьшенные размеры встраиваемых объектов или меньше руководителей, привлекающих внимание, при сохранении основных возможностей. 1
- Обучение модели-ученика. 1 Модель-ученик обучается с использованием знаний, полученных от модели-учителя, с помощью различных методов: 1
- Мягкие ярлыки. 1 Ученик учится на распределениях вероятностей предсказаний учителя, а не просто на жёстких ярлыках. 1
- Обучение на основе функций. 1 Представления промежуточного уровня модели-учителя передаются ученику. 1
- Оптимизация функции потерь. 1 Потери при обучении сочетают стандартные потери кросс-энтропии с расхождением KL (мерой сходства между распределениями). 1
- Точная настройка и оценка. 1 Модель-ученик настраивается на основе наборов данных для конкретных задач, чтобы повысить производительность. 1 Затем сравнивают успеваемость модели-ученика с моделью-учителем, используя такие показатели, как точность и оценка F1, сложность, скорость вывода и задержка. 1
Основная цель дистилляции — сохранить высокую производительность исходной модели, но при этом уменьшить её размер, сложность и требования к вычислительным ресурсам. 2