Tavern Studio Docs · 09

Guida al modello GGUF locale

I modelli locali ti consentono di eseguire la chat AI senza inviare richieste a un provider di modelli cloud. Tavern Studio supporta flussi di lavoro GGUF locali per utenti con hardware adatto.

Per chi è questo

Utenti con CPU, GPU o configurazioni di modelli locali dedicati.
Utenti che preferiscono il gioco di ruolo offline o locale.
Utenti che risolvono errori di memoria insufficiente o generazione lenta.

Cosa imparerai

*In che modo i livelli GPU e le relative impostazioni influiscono sulle prestazioni.

Cos'è GGUF.
Differenza tra i modelli locali e le API cloud.
Come importare o scaricare un modello locale.
Come risolvere i problemi relativi agli arresti anomali.

GGUF e aspettative hardware

GGUF è un formato comune per l'inferenza LLM locale. I modelli quantizzati riducono i requisiti di memoria, ma i modelli più grandi necessitano comunque di RAM o VRAM sufficienti.

[!NOTE]> La velocità del modello locale dipende fortemente dall'hardware, dalle dimensioni del modello, dalla quantizzazione e dalla configurazione del backend.

Passaggio 1: scarica o importa un modello GGUF

Utilizzare l'area di gestione del modello per scaricare o importare un file.gguf. Scegli una dimensione del modello che il tuo hardware può gestire.

Passaggio 2: avvia il modello locale

Apri le impostazioni del modello locale e configura:

*Tipo di back-end.

Dimensione del contesto.
Livelli GPU.
Thread della CPU.
Formato chat quando richiesto.

Risoluzione dei problemi

Perché l'app si arresta in modo anomalo o mostra "Memoria esaurita"?

Abbassa i livelli GPU, usa una quantizzazione più piccola o scegli un modello più piccolo.

Perché la generazione è molto lenta?

Prova un modello più piccolo, modifica i thread, utilizza l'accelerazione GPU se disponibile o riduci le dimensioni del contesto.

Perché l'importazione non riesce?

Il file potrebbe essere incompleto, danneggiato o non essere un modello GGUF valido.

Passaggi successivi

Panoramica interfaccia: scopri dove vengono visualizzate le impostazioni del modello locale.
Configura la tua prima API: utilizza le API cloud quando l'hardware locale non è sufficiente.
FAQ: esamina altre domande per la risoluzione dei problemi.