Guida al modello GGUF locale

I modelli locali ti consentono di eseguire la chat AI senza inviare richieste a un provider di modelli cloud. Tavern Studio supporta flussi di lavoro GGUF locali per utenti con hardware adatto.

Per chi è questo

  • Utenti con CPU, GPU o configurazioni di modelli locali dedicati.
  • Utenti che preferiscono il gioco di ruolo offline o locale.
  • Utenti che risolvono errori di memoria insufficiente o generazione lenta.

Cosa imparerai

*In che modo i livelli GPU e le relative impostazioni influiscono sulle prestazioni.

  • Cos'è GGUF.
  • Differenza tra i modelli locali e le API cloud.
  • Come importare o scaricare un modello locale.
  • Come risolvere i problemi relativi agli arresti anomali.

GGUF e aspettative hardware

GGUF è un formato comune per l'inferenza LLM locale. I modelli quantizzati riducono i requisiti di memoria, ma i modelli più grandi necessitano comunque di RAM o VRAM sufficienti.

[!NOTE]> La velocità del modello locale dipende fortemente dall'hardware, dalle dimensioni del modello, dalla quantizzazione e dalla configurazione del backend.

Passaggio 1: scarica o importa un modello GGUF

Utilizzare l'area di gestione del modello per scaricare o importare un file.gguf. Scegli una dimensione del modello che il tuo hardware può gestire.

Passaggio 2: avvia il modello locale

Apri le impostazioni del modello locale e configura:

*Tipo di back-end.

  • Dimensione del contesto.
  • Livelli GPU.
  • Thread della CPU.
  • Formato chat quando richiesto.

Risoluzione dei problemi

Perché l'app si arresta in modo anomalo o mostra "Memoria esaurita"?

Abbassa i livelli GPU, usa una quantizzazione più piccola o scegli un modello più piccolo.

Perché la generazione è molto lenta?

Prova un modello più piccolo, modifica i thread, utilizza l'accelerazione GPU se disponibile o riduci le dimensioni del contesto.

Perché l'importazione non riesce?

Il file potrebbe essere incompleto, danneggiato o non essere un modello GGUF valido.


Passaggi successivi