Guida al modello GGUF locale
I modelli locali ti consentono di eseguire la chat AI senza inviare richieste a un provider di modelli cloud. Tavern Studio supporta flussi di lavoro GGUF locali per utenti con hardware adatto.
Per chi è questo
- Utenti con CPU, GPU o configurazioni di modelli locali dedicati.
- Utenti che preferiscono il gioco di ruolo offline o locale.
- Utenti che risolvono errori di memoria insufficiente o generazione lenta.
Cosa imparerai
*In che modo i livelli GPU e le relative impostazioni influiscono sulle prestazioni.
- Cos'è GGUF.
- Differenza tra i modelli locali e le API cloud.
- Come importare o scaricare un modello locale.
- Come risolvere i problemi relativi agli arresti anomali.
GGUF e aspettative hardware
GGUF è un formato comune per l'inferenza LLM locale. I modelli quantizzati riducono i requisiti di memoria, ma i modelli più grandi necessitano comunque di RAM o VRAM sufficienti.
[!NOTE]> La velocità del modello locale dipende fortemente dall'hardware, dalle dimensioni del modello, dalla quantizzazione e dalla configurazione del backend.
Passaggio 1: scarica o importa un modello GGUF
Utilizzare l'area di gestione del modello per scaricare o importare un file.gguf. Scegli una dimensione del modello che il tuo hardware può gestire.
Passaggio 2: avvia il modello locale
Apri le impostazioni del modello locale e configura:
*Tipo di back-end.
- Dimensione del contesto.
- Livelli GPU.
- Thread della CPU.
- Formato chat quando richiesto.
Risoluzione dei problemi
Perché l'app si arresta in modo anomalo o mostra "Memoria esaurita"?
Abbassa i livelli GPU, usa una quantizzazione più piccola o scegli un modello più piccolo.
Perché la generazione è molto lenta?
Prova un modello più piccolo, modifica i thread, utilizza l'accelerazione GPU se disponibile o riduci le dimensioni del contesto.
Perché l'importazione non riesce?
Il file potrebbe essere incompleto, danneggiato o non essere un modello GGUF valido.
Passaggi successivi
- Panoramica interfaccia: scopri dove vengono visualizzate le impostazioni del modello locale.
- Configura la tua prima API: utilizza le API cloud quando l'hardware locale non è sufficiente.
- FAQ: esamina altre domande per la risoluzione dei problemi.