Guide du modèle GGUF local
Les modèles locaux vous permettent d'exécuter un chat IA sans envoyer d'invites à un fournisseur de modèles cloud. Tavern Studio prend en charge les flux de travail GGUF locaux pour les utilisateurs disposant du matériel approprié.
À qui s'adresse-t-il
- Utilisateurs disposant de processeurs, de GPU ou de configurations de modèles locaux dédiés.
- Utilisateurs qui préfèrent le jeu de rôle hors ligne ou local.
- Les utilisateurs dépannent les erreurs de mémoire insuffisante ou la génération lente.
Ce que vous apprendrez
- Qu'est-ce que GGUF.
- En quoi les modèles locaux diffèrent des API cloud.
- Comment importer ou télécharger un modèle local.
- Comment les couches GPU et les paramètres associés affectent les performances.
- Comment dépanner les plantages.
GGUF et attentes matérielles
GGUF est un format courant pour l'inférence LLM locale. Les modèles quantifiés réduisent les besoins en mémoire, mais les modèles plus grands ont toujours besoin de suffisamment de RAM ou de VRAM.
[!NOTE]> La vitesse du modèle local dépend fortement du matériel, de la taille du modèle, de la quantification et de la configuration du backend.
Étape 1 : Téléchargez ou importez un modèle GGUF
Utilisez la zone de gestion des modèles pour télécharger ou importer un fichier.gguf. Choisissez une taille de modèle que votre matériel peut gérer.
Étape 2 : Démarrer le modèle local
Ouvrez les paramètres du modèle local et configurez :
- Type de back-end.
- Taille du contexte.
- Couches GPU.
- Fils de processeur.
- Format de chat si nécessaire.
Dépannage
Pourquoi l'application plante-t-elle ou affiche-t-elle « Mémoire insuffisante » ?
Réduisez les couches GPU, utilisez une quantification plus petite ou choisissez un modèle plus petit.
Pourquoi la génération est-elle très lente ?
Essayez un modèle plus petit, ajustez les threads, utilisez l'accélération GPU si disponible ou réduisez la taille du contexte.
Pourquoi l'importation échoue-t-elle ?
Le fichier est peut-être incomplet, corrompu ou ne constitue pas un modèle GGUF valide.
Étapes suivantes
- Présentation de l'interface : comprenez où les paramètres du modèle local apparaissent.
- Configurez votre première API : utilisez les API cloud lorsque le matériel local ne suffit pas.
- FAQ : consultez d'autres questions de dépannage.