App local LLM para Windows y Android | Inferencia nativa

Una verdadera app local LLM debería ofrecer más que una simple interfaz conectada a un servidor externo. Tavern Studio proporciona inferencia nativa de modelos locales de lenguaje (LLM), integrándolos directamente en el flujo de trabajo principal en lugar de tratarlos como una opción secundaria.

Al utilizar llama.cpp en Windows y LiteRT en Android, Tavern Studio permite a los usuarios ejecutar modelos directamente en su propio hardware. Admite la importación directa de modelos GGUF y descargas dentro de la aplicación, manteniendo los flujos de chat privados de IA estrechamente vinculados con funciones avanzadas como tarjetas de personajes, libros de Lorebooks (información del mundo), preajustes de generación y gestión de conversaciones multirrama.

Aunque está optimizada para el funcionamiento local-first, la aplicación también ofrece enrutamiento flexible de API para aquellos que deseen conectar modelos de nube cuando se necesite mayor potencia de razonamiento.

A quién está dirigido

  • Entusiastas de los Modelos Locales: Usuarios que buscan ejecutar LLM de forma nativa en dispositivos Windows o Android.
  • Preocupados por la Privacidad: Personas que desean más control sobre sus historiales de chat, preajustes y rutas de modelos.
  • Escritores y Creadores de Roleplay: Usuarios que requieren tarjetas de personajes detalladas, Lorebooks para la creación de mundos y una gestión profunda del contexto junto con sus modelos locales.
  • Usuarios de IA Híbrida: Desarrolladores o escritores que desean alternar sin problemas entre la inferencia local y las API de nube externas en un único espacio de trabajo.

Características principales

El flujo de trabajo con LLM locales requiere dos componentes principales: un motor de ejecución de modelos confiable y un espacio de trabajo altamente funcional a su alrededor. Mientras que un motor básico carga los pesos del modelo y genera texto plano, una experiencia de chat requiere una gestión sólida del historial, instrucciones del sistema, inyección de contexto, preajustes de generación, rutas multirrama y gestión de activos.

Tavern Studio integra estos componentes en una interfaz unificada:

  • Inferencia Local Nativa: Ejecución de modelos optimizada para el hardware en las plataformas compatibles.
  • Gestión de Modelos GGUF: Importación sencilla de archivos GGUF existentes y descargas integradas en la app.
  • Selector de Modelos Integrado: Cambio rápido del modelo activo directamente desde la ventana de chat.
  • Tarjetas de Personajes y Bots Avanzadas: Personas de agentes reutilizables con saludos personalizados y notas de configuración.
  • Información del Mundo y Lorebooks: Inyección dinámica de contexto activada por palabras clave del usuario.
  • Preajustes Personalizados y Gestión de Prompts: Control detallado sobre la temperatura, Top-K, Top-P y el formato de las instrucciones del sistema.
  • Conversaciones Multirrama: Creación de ramas sin esfuerzo para probar diferentes respuestas del modelo sin perder el árbol de chat original.
  • Enrutamiento Flexible de API: Soporte nativo para los principales proveedores de nube y endpoints personalizados compatibles con OpenAI-compatible API.

El rendimiento depende del hardware del dispositivo, el tamaño del modelo seleccionado, el nivel de cuantización y la longitud del contexto activo. Recomendamos comenzar con modelos cuantizados más pequeños para evaluar las capacidades de su sistema antes de cargar arquitecturas más grandes.

Cómo resuelve Tavern Studio este problema

Tavern Studio está diseñado con la inferencia local como ruta principal. En Windows, la aplicación utiliza llama.cpp, mientras que las versiones de Android se ejecutan sobre LiteRT. Los usuarios pueden importar modelos GGUF locales o usar el descargador integrado para obtener pesos directamente, permitiendo que la ejecución local coexista con la configuración de la nube.

Este diseño híbrido significa que puede usar un modelo local rápido para redactar o generar ideas, cambiar a una API en la nube para un razonamiento complejo o conectarse a un servidor personalizado a través de un endpoint compatible con OpenAI-compatible API. Todas sus tarjetas de personajes, Lorebooks, preajustes y herramientas de chat multirrama permanecen activos y persistentes, independientemente del modelo de backend que elija.

Relación con Herramientas Genéricas de LLM Local

Muchas herramientas de LLM local se centran únicamente en servir modelos como endpoints de red. En cambio, Tavern Studio es una aplicación cliente independiente centrada en el espacio de trabajo de chat. Si solo necesita exponer un endpoint de API, un servidor de backend dedicado es suficiente. Sin embargo, si desea escribir, chatear, administrar personajes personalizados, vincular Lorebooks interactivos y gestionar líneas de tiempo ramificadas, Tavern Studio proporciona la orquestación necesaria en el frontend.

Para los usuarios que vienen de SillyTavern, Tavern Studio sirve como una alternativa moderna e independiente. No tiene que elegir entre flujos de trabajo detallados con tarjetas de personajes y la ejecución nativa de modelos locales. Tavern Studio admite ambos e incluye un importador integrado de SillyTavern (accesible a través de Settings -> Data Management -> Import from SillyTavern).

Importación desde SillyTavern

La herramienta de mi-gración opera bajo parámetros estrictos para garantizar una transición segura de solo lectura:

  • Operación de Solo Lectura: El importador escanea el directorio raíz del proyecto SillyTavern (que debe contener la carpeta data) y copia los archivos. Nunca modifica, elimina o mueve ningún archivo en su instalación original de SillyTavern.
  • Escaneo y Vista Previa: La herramienta muestra una vista previa de los recursos detectables, lo que le permite elegir los usuarios y el rango de contenido a importar.
  • Elementos Compatibles: Puede importar tarjetas de personajes, información del mundo / Lorebooks, preajustes compatibles con OpenAI, claves/configuraciones de API y archivos de chat JSONL estándar.
  • Ajustes Manuales Necesarios: Algunas configuraciones deben reconfigurarse manualmente después de la importación. Estas incluyen endpoints personalizados, servicios locales, proxies inversos, Azure OpenAI, Cloudflare Workers AI, direcciones de proxy personalizadas, ID de cuenta, URL base faltantes o modelos predeterminados faltantes.
  • Limitaciones: Los chats grupales no son totalmente compatibles todavía; algunas estructuras no admitidas pueden omitirse durante la importación.
  • Verificación Post-Importación: Recomendamos verificar su lista de personajes, chats, Lorebooks y configuraciones de API. Si los recursos recién importados no aparecen de inmediato, reinicie la aplicación o actualice la página.

Pasos de Operación

  1. Abra Tavern Studio en su dispositivo Windows o Android.
  2. Navegue al área de configuración del modelo local.
  3. Importe un archivo GGUF local o use la herramienta de descarga para obtener un nuevo modelo.
  4. Verifique que el modelo aparezca en su lista activa.
  5. Seleccione el modelo dentro de su espacio de trabajo de chat o configuración de preajuste.
  6. Inicie una conversación con un prompt corto para medir la velocidad de generación, el consumo de memoria y la calidad.
  7. Ajuste la longitud del contexto, los parámetros de preajuste o cambie a un modelo más ligero si su dispositivo experimenta lag o lentitud.
  8. Vincule una tarjeta de personaje o un Lorebook para personalizar la experiencia de chat una vez que la conexión básica sea estable.

Preguntas Frecuentes

¿Es Tavern Studio una app local LLM?

Sí. Tavern Studio es una app local LLM nativa que ejecuta modelos directamente en dispositivos compatibles, utilizando llama.cpp en Windows y LiteRT en Android.

¿Admite Tavern Studio modelos GGUF?

Sí. Tavern Studio admite la importación y descarga de modelos GGUF para flujos de trabajo de inferencia local.

¿Es Tavern Studio solo una interfaz para APIs externas?

No. Aunque admite API en la nube, Tavern Studio tiene motores de inferencia local nativos incorporados, lo que permite la ejecución de modelos sin conexión a internet.

¿Puedo combinar APIs en la nube y modelos locales?

Sí. Puede gestionar modelos locales y API externas (como OpenAI, Claude, Gemini, OpenRouter o endpoints personalizados compatibles con OpenAI-compatible API) dentro del mismo espacio de trabajo.

¿Funcionarán todos los modelos locales de manera fluida en mi dispositivo?

No. La velocidad de ejecución y el uso de recursos dependen del hardware de su sistema, los parámetros del modelo, la cuantización y los límites del contexto. Sugerimos probar primero con modelos pequeños.

¿Puedo usar tarjetas de personajes con modelos locales?

Sí. Todas las funciones del frontend, incluidas las tarjetas de personajes, Lorebooks, chats multirrama y preajustes personalizados, son compatibles con los formatos comunes de modelos locales.

Siguiente Paso