ローカルLLMアプリ:WindowsおよびAndroid向けネイティブ推論クライアント

真のローカルLLMアプリは、外部サーバーを指す単なるインターフェース以上の機能を提供するべきです。Tavern Studioは、ネイティブローカルLLM推論を提供し、ローカルモデルを後付けの機能ではなく、製品のメインストリームとして組み込んでいます。

Tavern Studioは、Windowsではllama.cpp、AndroidではLiteRTを採用し、ユーザーがデバイス上で直接モデルを実行できるようにします。GGUFモデルの直接インポートやアプリ内でのダウンロードに対応し、プライベートなAIチャットのワークフローと、キャラクターカード、世界書(Lorebook)、生成プリセット、マルチブランチ会話管理などの高度な機能を密接に統合しています。

ローカルファーストの運用に最適化されていますが、必要に応じてクラウドモデルにも接続できるよう、柔軟なAPIルーティングも提供しています。

対象となるユーザー

  • ローカルモデルのファン:WindowsまたはAndroidデバイスでLLMをネイティブに実行したいユーザー。
  • プライバシーを重視するユーザー:チャット履歴、プリセット、モデルルーティングをより細かくコントロールしたいユーザー。
  • ライターおよびロールプレイ作成者:ローカルモデルとともに、豊かなキャラクターカード、世界設定の世界書、高度な文脈管理を必要とするユーザー。
  • ハイブリッドAIユーザー:1つのワークスペースで、ローカル推論と外部クラウドAPIをシームレスに切り替えたい開発者やクリエイター。

主な機能

ローカルLLMワークフローには、信頼性の高いモデルランナーと、その周囲を支える高機能なワークスペースという2つの主要な要素が必要です。標準的なランナーはモデルの重みを読み込んでテキストを生成するだけですが、快適なチャット体験には、会話履歴管理、システムプロンプト、コンテキストの挿入、生成プリセット、分岐パス、アセット管理などが必要です。

Tavern Studioは、これらの要素を統一されたインターフェースに統合しています:

  • ネイティブローカル推論:サポートされているプラットフォーム上でハードウェア最適化されたモデル実行。
  • GGUFモデル管理:既存のGGUFファイルのシームレスなインポートと、簡単なアプリ内ダウンロード。
  • 統合モデルセレクター:チャットウィンドウから直接、アクティブなモデルをすばやく切り替え。
  • 高度なキャラクターカード&Botカード:カスタムの挨拶文や構成メモを備えた、再利用可能なエージェントペルソナ。
  • 世界書とLorebook:ユーザーのキーワードでトリガーされる動的なコンテキスト注入により、豊かな背景設定を構築。
  • カスタムプリセットとプロンプト管理:温度(Temperature)、Top-K、Top-P、システムプロンプトフォーマットのきめ細かな制御。
  • マルチブランチ会話:元のチャットツリーを失うことなく、別のモデル応答をテストするための簡単なブランチ作成。
  • 柔軟なAPIルーティング:主要なクラウドプロバイダーとカスタムのOpenAI-compatible APIエンドポイントへのネイティブサポート。

パフォーマンスは、デバイスのハードウェア、選択したモデルサイズ、量子化レベル、およびアクティブなコンテキスト長によって異なります。より大きなモデルをロードする前に、まずは軽量な量子化モデルでシステム能力を検証することをお勧めします。

Tavern Studioがこの課題を解決する方法

Tavern Studioは、ローカル推論を第一の選択肢(メインルート)として設計されています。Windowsアプリケーションはllama.cppを利用し、AndroidビルドはLiteRTで動作します。ユーザーはローカルのGGUFモデルをインポートするか、内蔵のダウンローダーを使用してモデルの重みを直接取得し、ローカル実行とクラウド設定を共存させることができます。

このハイブリッド設計により、ドラフトやアイデア出しには高速なローカルモデルを使用し、複雑な推論にはクラウドAPIに切り替え、カスタムサーバーにはOpenAI-compatible APIエンドポイントを介して接続する、といった柔軟な運用が可能です。選択したバックエンドモデルに関係なく、キャラクターカード、世界書、プリセット、分岐チャットツールはすべてアクティブで永続的に保持されます。

一般的なローカルLLMツールとの関係

多くのローカルLLMツールは、モデルをネットワークエンドポイント(APIサービス)として提供することのみに焦点を当てています。対照的に、Tavern Studioはチャットワークスペースを中心に構築された独立したクライアントアプリケーションです。単にAPIエンドポイントを公開したいだけであれば、専用のバックエンドランナーで十分です。しかし、キャラクターの管理、インタラクティブな世界書の紐付け、分岐するタイムラインの制御、執筆やチャットを行いたい場合、Tavern Studioが必要なフロントエンドのオーケストレーションを提供します。

SillyTavernからの移行を検討しているユーザーにとって、Tavern Studioはモダンで独立した代替ツールとして機能します。キャラクターカードワークフローとネイティブローカルモデル実行のどちらか一方を諦める必要はありません。Tavern Studioは両方をサポートしており、内蔵のSillyTavernインポーター(Settings -> Data Management -> Import from SillyTavern からアクセス可能)を備えています。

SillyTavernからのインポートについて

移行ツールは、安全な読み取り専用の移行を保証するために厳格なパラメーターのもとで動作します:

  • 読み取り専用操作:インポーターはSillyTavernのプロジェクトディレクトリ(dataフォルダを含む必要があります)をスキャンしてファイルをコピーします。元のSillyTavernインストール環境のファイルを変更、削除、または移動することは決してありません。
  • スキャンとプレビュー:検出されたアセットのプレビューを表示し、インポートするユーザーとコンテンツの範囲を選択できます。
  • サポートされるアイテム:キャラクターカード、世界情報/世界書(Lorebook)、OpenAI互換プリセット、APIキー/構成、および標準的なJSONLチャットファイルをインポートできます。
  • 手動調整が必要な項目:インポート後に手動で再設定する必要がある構成があります。これには、カスタムエンドポイント、ローカルサービス、リバースプロキシ、Azure OpenAI、Cloudflare Workers AI、カスタムプロキシアドレス、アカウントID、ベースURLの欠落、またはデフォルトモデルの欠落などが含まれます.
  • 制限事項:グループチャットは現在完全にはサポートされていません。インポート中に一部の未サポートの構造がスキップされる場合があります。
  • インポート後の検証:インポート完了後、キャラクターリスト、チャット履歴、世界書、API設定を確認することをお勧めします。インポートされたリソースがすぐに表示されない場合は、アプリケーションを再起動するか、ページをリフレッシュしてください。

操作手順

  1. WindowsまたはAndroidデバイスでTavern Studioを開きます。
  2. ローカルモデルの構成エリアに移動します。
  3. ローカルのGGUFファイルをインポートするか、ダウンロードツールを使用して新しいモデルを取得します。
  4. モデルがアクティブリストに表示されていることを確認します。
  5. チャットワークスペースまたはプリセット構成内でモデルを選択します。
  6. 短いプロンプトで会話を開始し、生成速度、メモリ消費、および出力をテストします。
  7. デバイスの動作が重い場合は、コンテキスト長やプリセットパラメータを調整するか、より軽量なモデルに切り替えます。
  8. 基本的な接続が安定したら、キャラクターカードや世界書を紐付けてチャット体験をカスタマイズします。

よくある質問(FAQ)

Tavern StudioはローカルLLMアプリですか?

はい。Tavern StudioはネイティブローカルLLMアプリであり、Windowsではllama.cpp、AndroidではLiteRTを使用して、サポートされているデバイス上でモデルを直接実行できます。

Tavern StudioはGGUFモデルをサポートしていますか?

はい。Tavern Studioはローカル推論ワークフロー用に、GGUFモデルのインポートとダウンロードをサポートしています。

Tavern Studioは単なるAPIのラッパー(UIクライアント)ですか?

いいえ。クラウドAPIもサポートしていますが、Tavern Studioにはネイティブのローカル推論エンジンが組み込まれており、オフラインでのモデル実行が可能です。

クラウドAPIとローカルモデルを組み合わせて使用できますか?

はい。同じワークスペース内でローカルモデルと外部API(OpenAI、Claude、Gemini、OpenRouter、またはカスタムのOpenAI-compatible APIエンドポイントなど)を管理できます。

すべてのローカルモデルが私のデバイスで快適に動作しますか?

いいえ。実行速度やリソース消費は、システムのハードウェア、モデルのパラメータ、量子化、およびコンテキスト制限に依存します。まずは小さなモデルからテストすることをお勧めします。

ローカルモデルでキャラクターカードを使用できますか?

はい。キャラクターカード、世界書(Lorebook)、マルチブランチチャット、カスタムプリセットなどのフロントエンド機能は、ローカルモデルルートと一般的なフォーマットで互換性があります。

次のステップ