Lokale GGUF-modelgids

Met lokale modellen kunt u AI-chat uitvoeren zonder aanwijzingen naar een cloudmodelaanbieder te sturen. Tavern Studio ondersteunt lokale GGUF-workflows voor gebruikers met geschikte hardware.

Voor wie is dit bedoeld

  • Gebruikers met capabele CPU's, GPU's of speciale lokale modelopstellingen.
  • Gebruikers die de voorkeur geven aan offline of lokaal rollenspel.
  • Gebruikers die problemen met onvoldoende geheugen of trage generatie oplossen.

Wat je gaat leren

  • Wat GGUF is.
  • Hoe lokale modellen verschillen van cloud-API's.
  • Hoe u een lokaal model importeert of downloadt.
  • Hoe GPU-lagen en gerelateerde instellingen de prestaties beïnvloeden.
  • Hoe u crashes kunt oplossen.

GGUF en hardwareverwachtingen

GGUF is een gebruikelijk formaat voor lokale LLM-inferentie. Gekwantiseerde modellen verminderen de geheugenvereisten, maar grotere modellen hebben nog steeds voldoende RAM of VRAM nodig.

[!NOTE]> Lokale modelsnelheid is sterk afhankelijk van hardware, modelgrootte, kwantisering en backend-configuratie.

Stap 1: Download of importeer een GGUF-model

Gebruik het modelbeheergebied om een.gguf-bestand te downloaden of te importeren. Kies een modelgrootte die uw hardware aankan.

Stap 2: Start het lokale model

Open lokale modelinstellingen en configureer:

  • Backend-type.
  • Contextgrootte.
  • GPU-lagen.
  • CPU-threads.
  • Chatformaat indien nodig.

Problemen oplossen

Waarom crasht de app of wordt 'Onvoldoende geheugen' weergegeven?

Verlaag de GPU-lagen, gebruik een kleinere kwantisering of kies een kleiner model.

Waarom verloopt de generatie erg traag?

Probeer een kleiner model, pas threads aan, gebruik GPU-versnelling indien beschikbaar, of verklein de contextgrootte.

Waarom mislukt het importeren?

Het bestand is mogelijk onvolledig, beschadigd of geen geldig GGUF-model.


Volgende stappen