Lokale LLM App für Windows und Android | Native Inferenz

Eine echte lokale LLM App sollte mehr sein als eine simple Benutzeroberfläche, die auf einen externen Server verweist. Tavern Studio bietet native lokale LLM-Inferenz und bettet lokale Modelle direkt in den Hauptarbeitsablauf ein, anstatt sie als nebensächliches Feature zu behandeln.

Durch die Nutzung von llama.cpp unter Windows und LiteRT unter Android ermöglicht Tavern Studio das Ausführen von Modellen direkt auf Ihrer eigenen Hardware. Es unterstützt den direkten Import von GGUF-Modellen sowie In-App-Downloads, wodurch private KI-Chat-Workflows eng mit erweiterten Funktionen wie Charakterkarten, Lorebooks (Welt-Infos), Generierungs-Presets und der Verwaltung von mehrteiligen Gesprächsverläufen (Multi-Branch-Chat) verknüpft bleiben.

Obwohl die Anwendung für den lokalen Betrieb (Local-First) optimiert ist, bietet sie auch ein flexibles API-Routing für Benutzer, die bei Bedarf leistungsstärkere Cloud-Modelle hinzuschalten möchten.

Für wen diese Anwendung gedacht ist

  • Enthusiasten lokaler Modelle: Benutzer, die LLMs nativ auf Windows- oder Android-Geräten ausführen möchten.
  • Datenschutzbewusste Anwender: Personen, die mehr Kontrolle über ihre Chatverläufe, Presets und Modell-Routen behalten möchten.
  • Autoren und Rollenspiel-Ersteller: Kreative, die detaillierte Charakterkarten, Lorebooks zur Weltenbildung und ein tiefgehendes Kontextmanagement parallel zu ihren lokalen Modellen benötigen.
  • Hybrid-KI-Nutzer: Entwickler oder Autoren, die nahtlos zwischen lokaler Inferenz und externen Cloud-APIs in einem einzigen Arbeitsbereich wechseln möchten.

Hauptfunktionen

Lokale LLM-Workflows erfordern zwei Kernkomponenten: einen zuverlässigen Modell-Runner und einen funktionellen Arbeitsbereich drumherum. Während ein einfacher Runner lediglich Modellgewichte lädt und Rohdaten generiert, benötigt ein Chat-Erlebnis ein robustes Verlaufsmanagement, System-Prompts, Kontextinjektion, Generierungs-Presets, verzweigte Chat-Pfade und eine Asset-Verwaltung.

Tavern Studio integriert diese Komponenten in einer einheitlichen Oberfläche:

  • Native lokale Inferenz: Hardware-optimierte Modellausführung auf den unterstützten Plattformen.
  • GGUF-Modellverwaltung: Import vorhandener GGUF-Dateien und komfortabler Download direkt in der App.
  • Integrierte Modellauswahl: Schneller Wechsel des aktiven Modells direkt aus dem Chatfenster.
  • Erweiterte Charakter- & Botkarten: Wiederverwendbare Agenten-Personas mit individuellen Begrüßungen und Konfigurationsnotizen.
  • Welt-Infos & Lorebooks: Dynamische Kontextinjektion, die durch Benutzer-Keywords ausgelöst wird.
  • Eigene Presets & Prompt-Management: Feineinstellungen für Temperatur, Top-K, Top-P und die Formatierung von System-Prompts.
  • Mehrzweigige Konversationen (Multi-Branch-Chat): Mühelose Erstellung von Zweigen, um alternative Modellantworten zu testen, ohne die ursprüngliche Chat-Struktur zu verlieren.
  • Flexibles API-Routing: Native Unterstützung für führende Cloud-Anbieter und benutzerdefinierte OpenAI-compatible API Endpunkte.

Die Leistung hängt von der Hardware Ihres Geräts, der gewählten Modellgröße, dem Quantisierungsgrad und der aktiven Kontextlänge ab. Wir empfehlen, mit kleineren quantisierten Modellen zu beginnen, um die Leistungsgrenzen Ihres Systems zu testen, bevor Sie größere Architekturen laden.

Wie Tavern Studio dieses Problem löst

Tavern Studio wurde mit dem Fokus auf lokale Inferenz als primärer Pfad entwickelt. Unter Windows nutzt die App llama.cpp, während die Android-Builds auf LiteRT laufen. Anwender können lokale GGUF-Modelle importieren oder den integrierten Downloader verwenden, um Gewichte direkt zu beziehen. Die lokale Ausführung existiert dabei harmonisch neben der Cloud-Konfiguration.

Dank dieses hybriden Designs können Sie ein schnelles lokales Modell für Entwürfe oder Brainstorming nutzen, für komplexere logische Aufgaben auf eine Cloud-API wechseln oder über einen OpenAI-compatible API Endpunkt eine Verbindung zu einem eigenen Server herstellen. All Ihre Charakterkarten, Lorebooks, Presets und verzweigten Chat-Tools bleiben aktiv und bestehen, unabhängig vom gewählten Backend-Modell.

Verhältnis zu generischen lokalen LLM-Tools

Viele lokale LLM-Tools konzentrieren sich ausschließlich darauf, Modelle als Netzwerk-Endpunkte bereitzustellen. Im Gegensatz dazu ist Tavern Studio eine eigenständige Client-Anwendung, die um den Chat-Arbeitsbereich herum aufgebaut ist. Wenn Sie lediglich einen API-Endpunkt bereitstellen möchten, reicht ein dedizierter Backend-Runner aus. Wenn Sie jedoch schreiben, chatten, eigene Charaktere verwalten, interaktive Lorebooks einbinden und verzweigte Zeitlinien kontrollieren möchten, bietet Tavern Studio die notwendige Frontend-Orchestrierung.

Für Anwender, die von SillyTavern wechseln, fungiert Tavern Studio als moderne, unabhängige Alternative. Sie müssen sich nicht zwischen reichhaltigen Charakterkarten-Workflows und nativer Ausführung lokaler Modelle entscheiden. Tavern Studio unterstützt beides und enthält einen integrierten SillyTavern Importer (erreichbar über Settings -> Data Management -> Import from SillyTavern).

Importieren aus SillyTavern

Das Migrations-Tool arbeitet unter strengen Vorgaben, um einen sicheren, schreibgeschützten Übergang zu gewährleisten:

  • Schreibgeschützter Vorgang: Der Importer scannt das SillyTavern Projektverzeichnis (das den Ordner data enthalten muss) und kopiert die Dateien. Es werden niemals Dateien in Ihrer originalen SillyTavern Installation verändert, gelöscht oder verschoben.
  • Scan & Vorschau: Das Tool zeigt eine Vorschau der erkannten Assets an, sodass Sie die zu importierenden Benutzer und den Inhaltsbereich auswählen können.
  • Unterstützte Elemente: Es können Charakterkarten, Welt-Infos / Lorebooks, OpenAI-kompatible Presets, API-Schlüssel/Konfigurationen und standardmäßige JSONL Chatdateien importiert werden.
  • Manuelle Anpassungen erforderlich: Einige Konfigurationen müssen nach dem Import manuell neu eingerichtet werden. Dazu gehören benutzerdefinierte Endpunkte, lokale Dienste, Reverse Proxies, Azure OpenAI, Cloudflare Workers AI, benutzerdefinierte Proxy-Adressen, Account-IDs, fehlende Basis-URLs oder fehlende Standardmodelle.
  • Einschränkungen: Gruppen-Chats werden noch nicht vollständig unterstützt; einige nicht unterstützte Strukturen werden beim Import übersprungen.
  • Überprüfung nach dem Import: Wir empfehlen, Ihre Charakterliste, Chats, Lorebooks und API-Einstellungen zu überprüfen. Falls importierte Ressourcen nicht sofort sichtbar sind, starten Sie die App neu oder aktualisieren Sie die Seite.

Schritt-für-Schritt-Anleitung

  1. Öffnen Sie Tavern Studio auf Ihrem Windows- oder Android-Gerät.
  2. Navigieren Sie zum Einstellungsbereich für lokale Modelle.
  3. Importieren Sie eine lokale GGUF-Datei oder nutzen Sie das Download-Tool, um ein neues Modell herunterzuladen.
  4. Vergewissern Sie sich, dass das Modell in Ihrer aktiven Liste erscheint.
  5. Wählen Sie das Modell in Ihrem Chat-Arbeitsbereich oder Ihrer Preset-Konfiguration aus.
  6. Starten Sie ein Gespräch mit einem kurzen Prompt, um die Generierungsgeschwindigkeit, den Speicherverbrauch und die Qualität zu testen.
  7. Passen Sie die Kontextlänge und die Preset-Parameter an oder wechseln Sie zu einem kleineren Modell, falls Ihr Gerät ins Stocken gerät.
  8. Binden Sie eine Charakterkarte oder ein Lorebook ein, um das Chat-Erlebnis anzupassen, sobald die Basisverbindung stabil ist.

Häufig gestellte Fragen (FAQ)

Ist Tavern Studio eine lokale LLM-App?

Ja. Tavern Studio ist eine native lokale LLM-App, die Modelle direkt auf unterstützten Geräten ausführt, wobei llama.cpp unter Windows und LiteRT unter Android zum Einsatz kommen.

Unterstützt Tavern Studio GGUF-Modelle?

Ja. Tavern Studio unterstützt den Import und Download von GGUF-Modellen für lokale Inferenz-Workflows.

Ist Tavern Studio nur ein API-Wrapper?

Nein. Obwohl es Cloud-APIs unterstützt, verfügt Tavern Studio über integrierte native lokale Inferenz-Engines, was eine vollständige Offline-Nutzung von Modellen ermöglicht.

Kann ich Cloud-APIs und lokale Modelle kombinieren?

Ja. Sie können lokale Modelle und externe APIs (wie OpenAI, Claude, Gemini, OpenRouter oder benutzerdefinierte OpenAI-compatible API Endpunkte) im selben Arbeitsbereich verwalten.

Wird jedes lokale Modell reibungslos auf meinem Gerät laufen?

Nein. Die Ausführungsgeschwindigkeit und die Ressourcenauslastung hängen von der Hardware Ihres Geräts, den Modellparametern, der Quantisierung und den Kontextgrenzen ab. Wir empfehlen, zuerst kleinere Modelle zu testen.

Kann ich Charakterkarten mit lokalen Modellen verwenden?

Ja. Alle Frontend-Funktionen – einschließlich Charakterkarten, Lorebooks, verzweigten Chats und benutzerdefinierten Presets – sind kompatibel mit gängigen Formaten für lokale Modell-Routen.

Nächste Schritte