Вопросы к Поиску с Алисой
Управление загрузкой и разгрузкой моделей в памяти сервера Ollama осуществляется с помощью настроек, в частности параметра OLLAMAMAXLOADED_MODELS. www.glukhov.org
Загрузка моделей: количество различных моделей, которые могут быть загружены одновременно, ограничено этим параметром (по умолчанию: 3×GPU или 3 для CPU). www.glukhov.org Если запрос требует загрузки новой модели, а памяти недостаточно, Ollama выгрузит бездействующие модели, чтобы освободить место, и запрос будет помещён в очередь, пока модель не будет загружена. www.glukhov.org
Выгрузка моделей: активные модели могут быть выгружены из памяти, когда они становятся бездействующими, чтобы освободить ресурсы для запросов в очереди. www.glukhov.org Для выгрузки моделей из памяти используется команда ollama rm
. blog.openreplay.com
Также можно настроить автозагрузку модели в память при старте графического сеанса пользователя. r4ven.me Для этого нужно создать специальный .desktop-файл в директории ~/.config/autostart. r4ven.me В нём нужно указать переменную OLLAMAKEEPALIVE=”-1”, которая сообщает Ollama не выгружать параметры модели из памяти. r4ven.me