Lokalny przewodnik po modelu GGUF

Modele lokalne umożliwiają prowadzenie czatu AI bez wysyłania monitów do dostawcy modelu w chmurze. Tavern Studio obsługuje lokalne przepływy pracy GGUF dla użytkowników z odpowiednim sprzętem.

Dla kogo to jest

  • Użytkownicy z wydajnymi procesorami CPU, GPU lub dedykowanymi konfiguracjami modeli lokalnych.
  • Użytkownicy, którzy preferują odgrywanie ról w trybie offline lub lokalnym.
  • Użytkownicy rozwiązujący problemy związane z brakiem pamięci lub powolnym generowaniem.

Czego się nauczysz

  • Czym jest GGUF.
  • Czym modele lokalne różnią się od interfejsów API w chmurze.
  • Jak zaimportować lub pobrać model lokalny.
  • Jak warstwy GPU i powiązane ustawienia wpływają na wydajność.
  • Jak rozwiązywać problemy z awariami.

GGUF i oczekiwania sprzętowe

GGUF jest powszechnym formatem lokalnego wnioskowania LLM. Modele kwantyzowane zmniejszają wymagania dotyczące pamięci, ale większe modele nadal wymagają wystarczającej ilości pamięci RAM lub VRAM.

[!NOTE]> Szybkość modelu lokalnego zależy w dużym stopniu od sprzętu, rozmiaru modelu, kwantyzacji i konfiguracji zaplecza.

Krok 1: Pobierz lub zaimportuj model GGUF

Użyj obszaru zarządzania modelem, aby pobrać lub zaimportować plik.gguf. Wybierz rozmiar modelu, jaki obsługuje Twój sprzęt.

Krok 2: Uruchom model lokalny

Otwórz ustawienia modelu lokalnego i skonfiguruj:

  • Typ zaplecza.
  • Rozmiar kontekstu.
  • Warstwy GPU.
  • Wątki procesora.
  • W razie potrzeby format czatu.

Rozwiązywanie problemów

Dlaczego aplikacja ulega awarii lub pojawia się komunikat „Brak pamięci”?

Obniż warstwy GPU, użyj mniejszej kwantyzacji lub wybierz mniejszy model.

Dlaczego generowanie jest bardzo powolne?

Wypróbuj mniejszy model, dostosuj wątki, użyj akceleracji GPU, jeśli jest dostępna, lub zmniejsz rozmiar kontekstu.

Dlaczego import się nie udaje?

Plik może być niekompletny, uszkodzony lub nie być prawidłowym modelem GGUF.


Kolejne kroki