Lokal GGUF modellguide
Lokala modeller låter dig köra AI-chatt utan att skicka meddelanden till en molnmodellleverantör. Tavern Studio stöder lokala GGUF-arbetsflöden för användare med lämplig hårdvara.
Vem är detta till för
- Användare med kapabla CPU:er, GPU:er eller dedikerade lokala modellinställningar.
- Användare som föredrar rollspel offline eller lokalt först.
- Användare som felsöker fel utan minne eller långsam generering.
Vad du kommer att lära dig
- Vad GGUF är.
- Hur lokala modeller skiljer sig från moln-API:er.
- Hur man importerar eller laddar ner en lokal modell.
- Hur GPU-lager och relaterade inställningar påverkar prestanda.
- Hur man felsöker krascher.
GGUF och hårdvaruförväntningar
GGUF är ett vanligt format för lokal LLM-inferens. Kvantiserade modeller minskar minneskraven, men större modeller behöver fortfarande tillräckligt med RAM eller VRAM.
[!NOTE]> Lokal modellhastighet beror starkt på hårdvara, modellstorlek, kvantisering och backend-konfiguration.
Steg 1: Ladda ner eller importera en GGUF-modell
Använd modellhanteringsområdet för att ladda ner eller importera en.gguf-fil. Välj en modellstorlek som din hårdvara kan hantera.
Steg 2: Starta den lokala modellen
Öppna lokala modellinställningar och konfigurera:
- Backend-typ.
- Kontextstorlek.
- GPU-lager.
- CPU-trådar.
- Chattformat vid behov.
Felsökning
Varför kraschar appen eller visar "Minne är slut"?
Lägre GPU-lager, använd en mindre kvantisering eller välj en mindre modell.
Varför är generationen väldigt långsam?
Prova en mindre modell, justera trådar, använd GPU-acceleration om tillgängligt, eller minska storleken på sammanhanget.
Varför misslyckas importen?
Filen kan vara ofullständig, skadad eller inte en giltig GGUF-modell.
Nästa steg
- Gränssnittsöversikt: förstå var lokala modellinställningar visas.
- Konfigurera ditt första API: använd moln-API:er när lokal hårdvara inte räcker.
- FAQ: granska fler felsökningsfrågor.