Tavern Studio Docs · 09

Lokal GGUF modellguide

Lokala modeller låter dig köra AI-chatt utan att skicka meddelanden till en molnmodellleverantör. Tavern Studio stöder lokala GGUF-arbetsflöden för användare med lämplig hårdvara.

Vem är detta till för

Användare med kapabla CPU:er, GPU:er eller dedikerade lokala modellinställningar.
Användare som föredrar rollspel offline eller lokalt först.
Användare som felsöker fel utan minne eller långsam generering.

Vad du kommer att lära dig

Vad GGUF är.
Hur lokala modeller skiljer sig från moln-API:er.
Hur man importerar eller laddar ner en lokal modell.
Hur GPU-lager och relaterade inställningar påverkar prestanda.
Hur man felsöker krascher.

GGUF och hårdvaruförväntningar

GGUF är ett vanligt format för lokal LLM-inferens. Kvantiserade modeller minskar minneskraven, men större modeller behöver fortfarande tillräckligt med RAM eller VRAM.

[!NOTE]> Lokal modellhastighet beror starkt på hårdvara, modellstorlek, kvantisering och backend-konfiguration.

Steg 1: Ladda ner eller importera en GGUF-modell

Använd modellhanteringsområdet för att ladda ner eller importera en.gguf-fil. Välj en modellstorlek som din hårdvara kan hantera.

Steg 2: Starta den lokala modellen

Öppna lokala modellinställningar och konfigurera:

Backend-typ.
Kontextstorlek.
GPU-lager.
CPU-trådar.
Chattformat vid behov.

Felsökning

Varför kraschar appen eller visar "Minne är slut"?

Lägre GPU-lager, använd en mindre kvantisering eller välj en mindre modell.

Varför är generationen väldigt långsam?

Prova en mindre modell, justera trådar, använd GPU-acceleration om tillgängligt, eller minska storleken på sammanhanget.

Varför misslyckas importen?

Filen kan vara ofullständig, skadad eller inte en giltig GGUF-modell.

Nästa steg

Gränssnittsöversikt: förstå var lokala modellinställningar visas.
Konfigurera ditt första API: använd moln-API:er när lokal hårdvara inte räcker.
FAQ: granska fler felsökningsfrågor.