Tavern Studio Docs · 09

Місцевий модельний посібник GGUF

Локальні моделі дозволяють запускати чат AI без надсилання підказок постачальнику хмарної моделі. Tavern Studio підтримує локальні робочі процеси GGUF для користувачів із відповідним обладнанням.

Для кого це

Користувачі з потужними процесорами, графічними процесорами або спеціальними локальними налаштуваннями моделі.
Користувачі, які віддають перевагу офлайн або локальній рольовій грі.
Користувачі вирішують проблеми з браком пам’яті або повільним створенням.

Що ви дізнаєтесь

Що таке GGUF.
Чим локальні моделі відрізняються від хмарних API.
Як імпортувати або завантажити локальну модель.
Як рівні GPU та відповідні налаштування впливають на продуктивність.
Як усунути збої.

GGUF і очікування від обладнання

GGUF є поширеним форматом для локального висновку LLM. Квантувані моделі зменшують вимоги до пам’яті, але більші моделі все одно потребують достатньої кількості оперативної пам’яті або відеопам’яті.

[!NOTE]> Швидкість локальної моделі значною мірою залежить від апаратного забезпечення, розміру моделі, квантування та конфігурації серверної частини.

Крок 1. Завантажте або імпортуйте модель GGUF

Використовуйте область керування моделлю, щоб завантажити або імпортувати файл.gguf. Виберіть розмір моделі, з яким може працювати ваше обладнання.

Крок 2: Запустіть локальну модель

Відкрийте параметри локальної моделі та налаштуйте:

Тип бекенда.
Розмір контексту.
Рівні GPU.
Потоки ЦП.
Формат чату, якщо потрібно.

Усунення несправностей

Чому програма аварійно завершує роботу або відображає повідомлення «Недостатньо пам’яті»?

Знизьте рівень графічного процесора, використовуйте менше квантування або виберіть меншу модель.

Чому генерація дуже повільна?

Спробуйте меншу модель, налаштуйте потоки, використовуйте прискорення GPU, якщо доступне, або зменшіть розмір контексту.

Чому не вдається імпорт?

Файл може бути неповним, пошкодженим або недійсною моделлю GGUF.

Наступні кроки

Огляд інтерфейсу: зрозуміти, де з’являються локальні налаштування моделі.
Налаштуйте свій перший API: використовуйте хмарні API, коли локального обладнання недостатньо.
FAQ: перегляньте додаткові запитання щодо вирішення проблем.