Application LLM locale pour Windows et Android | Inférence native

Une véritable application LLM locale devrait offrir plus qu'une simple interface pointant vers un serveur externe. Tavern Studio propose une inférence native des modèles locaux de langage (LLM), intégrant ces modèles directement au cœur du flux de travail plutôt que de les traiter comme une option secondaire.

En s'appuyant sur llama.cpp pour Windows et LiteRT pour Android, Tavern Studio permet aux utilisateurs d'exécuter des modèles directement sur leur propre matériel. Il prend en charge l'importation directe de modèles GGUF et les téléchargements intégrés à l'application, maintenant ainsi les flux de discussion IA privés étroitement liés à des fonctionnalités avancées telles que les cartes de personnages, les Lorebooks (informations sur le monde), les préréglages de génération et la gestion des conversations multibranches.

Bien que l'application soit optimisée pour un fonctionnement local-first, elle propose également un routage flexible des API pour connecter des modèles cloud lorsque des capacités de raisonnement supplémentaires sont requises.

À qui s'adresse ce produit

  • Passionnés de modèles locaux : Utilisateurs souhaitant exécuter des LLM de manière native sur des appareils Windows ou Android.
  • Soucieux de la confidentialité : Personnes souhaitant plus de contrôle sur leurs historiques de discussion, leurs préréglages et le routage de leurs modèles.
  • Écrivains et créateurs de roleplay : Utilisateurs ayant besoin de cartes de personnages riches, de Lorebooks pour la création d'univers et d'une gestion approfondie du contexte en parallèle de leurs modèles locaux.
  • Utilisateurs d'IA hybride : Développeurs ou écrivains souhaitant basculer facilement entre l'inférence locale et les API cloud externes au sein d'un espace de travail unique.

Fonctionnalités principales

Le flux de travail avec des LLM locaux repose sur deux piliers : un moteur d'exécution de modèles fiable et un espace de travail fonctionnel. Alors qu'un moteur de base se contente de charger les poids du modèle et de générer du texte brut, une expérience de chat exige une gestion robuste de l'historique, des instructions système, de l'injection de contexte, des préréglages de génération, des chemins multibranches et la gestion des actifs.

Tavern Studio intègre ces éléments dans une interface unifiée :

  • Inférence locale native : Exécution optimisée pour le matériel sur les plateformes compatibles.
  • Gestion des modèles GGUF : Importation simple de fichiers GGUF existants et téléchargements intégrés à l'application.
  • Sélecteur de modèle intégré : Changement rapide du modèle actif directement depuis la fenêtre de discussion.
  • Cartes de personnages et de bots avancées : Profils d'agents réutilisables avec messages d'accueil personnalisés et notes de configuration.
  • Informations sur le monde et Lorebooks : Injection dynamique de contexte déclenchée par des mots-clés de l'utilisateur.
  • Préréglages personnalisés et gestion des prompts : Contrôle précis de la température, du Top-K, du Top-P et de la mise en forme des instructions système.
  • Conversations multibranches : Création facile de branches pour tester différentes réponses du modèle sans perdre l'arborescence de discussion d'origine.
  • Routage flexible des API : Prise en charge native des principaux fournisseurs cloud et des endpoints personnalisés compatibles avec OpenAI-compatible API.

Les performances dépendent du matériel de l'appareil, de la taille du modèle sélectionné, du niveau de quantification et de la longueur du contexte actif. Nous vous recommandons de commencer par des modèles quantifiés plus petits afin d'évaluer les capacités de votre système avant de charger des architectures plus lourdes.

Comment Tavern Studio résout ce problème

Tavern Studio place l'inférence locale au centre de sa conception. Sur Windows, l'application s'appuie sur llama.cpp, tandis que les versions Android fonctionnent sous LiteRT. Les utilisateurs peuvent importer des modèles GGUF locaux ou utiliser le téléchargeur intégré pour acquérir les fichiers de poids directement, permettant à l'exécution locale de coexister avec la configuration cloud.

Cette conception hybride vous permet d'utiliser un modèle local rapide pour la rédaction ou le remue-méninges, de basculer vers une API cloud pour un raisonnement complexe, ou de vous connecter à un serveur personnalisé via un endpoint compatible avec OpenAI-compatible API. Vos cartes de personnages, Lorebooks, préréglages et outils de discussion multibranches restent opérationnels et persistants, quel que soit le modèle choisi en arrière-plan.

Comparaison avec les outils LLM locaux génériques

De nombreux outils de LLM locaux se limitent à diffuser des modèles en tant qu'endpoints réseau. À l'inverse, Tavern Studio est une application cliente indépendante conçue autour de l'espace de travail de discussion. Si votre seul but est d'exposer un endpoint d'API, un moteur d'arrière-plan dédié suffit. Toutefois, si vous souhaitez écrire, discuter, gérer des personnages personnalisés, lier des Lorebooks interactifs et gérer des chronologies ramifiées, Tavern Studio apporte l'orchestration front-end indispensable.

Pour les utilisateurs venant de SillyTavern, Tavern Studio constitue une alternative moderne et indépendante. Vous n'avez pas à choisir entre les flux de travail riches basés sur les cartes de personnages et l'exécution native de modèles locaux. Tavern Studio prend en charge les deux et inclut un importateur SillyTavern intégré (accessible via Settings -> Data Management -> Import from SillyTavern).

Importation depuis SillyTavern

L'outil de migration fonctionne sous des règles strictes pour garantir une transition en lecture seule sécurisée :

  • Opération en lecture seule : L'importateur analyse le répertoire racine de votre projet SillyTavern (qui doit contenir le dossier data) et copie les fichiers. Il ne modifie, ne supprime ni ne déplace jamais aucun fichier de votre installation SillyTavern d'origine.
  • Analyse et aperçu : L'outil affiche un aperçu des ressources détectées, vous permettant de choisir les utilisateurs et la plage de contenu à importer.
  • Éléments pris en charge : Il peut importer les cartes de personnages, les informations sur le monde / Lorebooks, les préréglages compatibles OpenAI, les clés/configurations d'API et les fichiers de discussion JSONL standards.
  • Ajustements manuels requis : Certaines configurations doivent être recréées manuellement après l'importation. Cela comprend les endpoints personnalisés, les services locaux, les reverse proxies, Azure OpenAI, Cloudflare Workers AI, les adresses de proxy personnalisées, les identifiants de compte, les URL de base manquantes ou les modèles par défaut manquants.
  • Limitations : Les discussions de groupe ne sont pas encore entièrement prises en charge ; certaines structures incompatibles peuvent être ignorées lors de l'importation.
  • Vérification post-importation : Nous vous recommandons de vérifier votre liste de personnages, vos discussions, vos Lorebooks et vos paramètres d'API. Si les ressources importées n'apparaissent pas immédiatement, redémarrez l'application ou actualisez la page.

Étapes d'utilisation

  1. Ouvrez Tavern Studio sur votre appareil Windows ou Android.
  2. Accédez à la zone de configuration des modèles locaux.
  3. Importez un fichier GGUF local ou utilisez l'outil de téléchargement pour obtenir un nouveau modèle.
  4. Vérifiez que le modèle s'affiche dans votre liste active.
  5. Sélectionnez le modèle dans votre espace de travail de discussion ou dans votre configuration de préréglage.
  6. Lancez une conversation avec un prompt court pour tester la vitesse de génération, la consommation de mémoire et la qualité.
  7. Ajustez la longueur du contexte, les paramètres de préréglage ou passez à un modèle plus léger si votre appareil subit des ralentissements.
  8. Associez une carte de personnage ou un Lorebook pour personnaliser l'expérience de chat dès que la connexion de base est stable.

Foire aux questions (FAQ)

Tavern Studio est-il une application LLM locale ?

Oui. Tavern Studio est une application LLM locale native qui exécute des modèles directement sur les appareils compatibles, via llama.cpp sur Windows et LiteRT sur Android.

Tavern Studio prend-il en charge les modèles GGUF ?

Oui. Tavern Studio prend en charge l'importation et le téléchargement de modèles GGUF pour les flux de travail d'inférence locale.

Tavern Studio est-il un simple wrapper d'API ?

Non. Bien qu'il gère les API cloud, Tavern Studio intègre des moteurs d'inférence locaux natifs, permettant de faire tourner des modèles de manière totalement hors ligne.

Puis-je combiner des API cloud et des modèles locaux ?

Oui. Vous pouvez combiner des API cloud et des modèles locaux (comme OpenAI, Claude, Gemini, OpenRouter ou des endpoints personnalisés compatibles avec OpenAI-compatible API) au sein du même espace de travail.

Tous les modèles locaux fonctionneront-ils de manière fluide sur mon appareil ?

Non. La vitesse d'exécution et l'utilisation des ressources dépendent du matériel de votre système, des paramètres du modèle, de la quantification et des limites de contexte définies. Nous vous suggérons de tester d'abord des modèles légers.

Puis-je utiliser des cartes de personnages avec des modèles locaux ?

Oui. Toutes les fonctionnalités de l'interface (y compris les cartes de personnages, les Lorebooks, les discussions multibranches et les préréglages personnalisés) sont compatibles avec les formats courants des modèles locaux.

Étapes suivantes