Tavern Studio Docs · 09

Руководство по запуску локальных моделей GGUF

Запуск локальных моделей позволяет общаться с искусственным интеллектом без отправки промптов сторонним облачным провайдерам. Tavern Studio поддерживает нативные рабочие процессы для моделей GGUF, что позволяет пользователям запускать их локально при наличии подходящего оборудования.

Кому это подходит

Пользователям с современными CPU, GPU или выделенными серверами для запуска локальных моделей.
Пользователям, предпочитающим ролевые игры в офлайн- или локально-ориентированном (local-first) режиме.
Пользователям, которые сталкиваются с ошибками нехватки памяти (out-of-memory) или слишком медленной генерацией.

Чему вы научитесь

Что представляет собой формат GGUF.
Чем локальные модели принципиально отличаются от облачных API.
Как импортировать или загрузить локальную модель.
Как GPU-слои и сопутствующие настройки влияют на производительность генерации.
Как устранять неполадки и сбои.

Формат GGUF и требования к оборудованию

GGUF — это популярный формат для локального запуска (инференса) LLM. Квантование (сжатие) моделей существенно снижает требования к объему памяти, но крупным моделям всё равно необходимо достаточное количество оперативной (RAM) или видеопамяти (VRAM).

Шаг 1. Загрузить или импортировать локальную модель GGUF

Использовать раздел управления моделями для загрузки или импорта файла .gguf. Выбрать размер модели, соответствующий возможностям вашего оборудования.

Шаг 2. Запустить локальную модель

Открыть настройки локальной модели и задать следующие параметры:

Тип бэкенда (Backend type).
Размер контекста (Context size).
GPU-слои (GPU Layers).
Потоки процессора (CPU threads).
Формат разметки чата (Chat format), если требуется.

Устранение неполадок

Почему приложение зависает или выдает ошибку «Out of Memory» (Недостаточно памяти)?

Уменьшить количество GPU-слоев, использовать модель с более плотным квантованием (меньшего размера) или выбрать модель с меньшим числом параметров.

Почему скорость генерации слишком медленная?

Попробовать модель меньшего размера, скорректировать количество процессорных потоков (threads), включить GPU-ускорение (если доступно) или уменьшить размер контекстного окна.

Почему не удается импортировать файл?

Возможно, файл загружен не полностью, поврежден или не является валидной моделью GGUF.

Что дальше

Обзор интерфейса: узнайте, где находятся настройки локальных моделей.
Настройка первого API: используйте облачные API, если возможностей локального ПК недостаточно.
FAQ (Часто задаваемые вопросы): ознакомьтесь с другими решениями типичных проблем.