Lokal GGUF modellguide

Lokala modeller låter dig köra AI-chatt utan att skicka meddelanden till en molnmodellleverantör. Tavern Studio stöder lokala GGUF-arbetsflöden för användare med lämplig hårdvara.

Vem är detta till för

  • Användare med kapabla CPU:er, GPU:er eller dedikerade lokala modellinställningar.
  • Användare som föredrar rollspel offline eller lokalt först.
  • Användare som felsöker fel utan minne eller långsam generering.

Vad du kommer att lära dig

  • Vad GGUF är.
  • Hur lokala modeller skiljer sig från moln-API:er.
  • Hur man importerar eller laddar ner en lokal modell.
  • Hur GPU-lager och relaterade inställningar påverkar prestanda.
  • Hur man felsöker krascher.

GGUF och hårdvaruförväntningar

GGUF är ett vanligt format för lokal LLM-inferens. Kvantiserade modeller minskar minneskraven, men större modeller behöver fortfarande tillräckligt med RAM eller VRAM.

[!NOTE]> Lokal modellhastighet beror starkt på hårdvara, modellstorlek, kvantisering och backend-konfiguration.

Steg 1: Ladda ner eller importera en GGUF-modell

Använd modellhanteringsområdet för att ladda ner eller importera en.gguf-fil. Välj en modellstorlek som din hårdvara kan hantera.

Steg 2: Starta den lokala modellen

Öppna lokala modellinställningar och konfigurera:

  • Backend-typ.
  • Kontextstorlek.
  • GPU-lager.
  • CPU-trådar.
  • Chattformat vid behov.

Felsökning

Varför kraschar appen eller visar "Minne är slut"?

Lägre GPU-lager, använd en mindre kvantisering eller välj en mindre modell.

Varför är generationen väldigt långsam?

Prova en mindre modell, justera trådar, använd GPU-acceleration om tillgängligt, eller minska storleken på sammanhanget.

Varför misslyckas importen?

Filen kan vara ofullständig, skadad eller inte en giltig GGUF-modell.


Nästa steg