App LLM local para Windows e Android | Inferência nativa
Um verdadeiro app LLM local deve ir além de fornecer uma interface simples que aponte para um servidor externo. Tavern Studio oferece inferência local de modelos de linguagem (LLM) de forma nativa, incorporando os modelos locais diretamente no fluxo de trabalho principal, em vez de tratá-los como um recurso secundário.
Ao utilizar llama.cpp para Windows e LiteRT para Android, o Tavern Studio permite que os usuários executem modelos diretamente em seu próprio hardware. Ele suporta importação direta de modelos GGUF e downloads dentro do aplicativo, mantendo os fluxos de chat privado de IA intimamente integrados a recursos avançados como cards de personagens, Lorebooks (informações do mundo), preajustes de geração e controle de conversas multirramificadas.
Embora otimizado para operação local-first, o aplicativo também oferece roteamento flexível de API para aqueles que desejam conectar modelos em nuvem quando houver necessidade de maior capacidade de processamento.
Para quem é este app
- Entusiastas de modelos locais: Usuários que desejam executar LLMs de maneira nativa em dispositivos Windows ou Android.
- Usuários focados em privacidade: Pessoas que exigem mais controle sobre seus históricos de conversa, preajustes de geração e rotas de modelos.
- Escritores e criadores de roleplay: Usuários que precisam de cards de personagens detalhados, Lorebooks para construção de mundos e gerenciamento aprofundado de contexto junto com seus modelos locais.
- Usuários de IA híbrida: Desenvolvedores ou escritores que desejam alternar facilmente entre a inferência local e APIs externas em nuvem em um único espaço de trabalho.
Principais recursos
O fluxo de trabalho com LLMs locais requer dois componentes essenciais: um executor de modelos (runner) confiável e um espaço de trabalho completo ao seu redor. Enquanto um executor básico apenas carrega pesos e gera texto bruto, uma experiência de chat exige gerenciamento de histórico, diretrizes de sistema, injeção de contexto, preajustes de geração, caminhos multirramificados e gestão de ativos.
Tavern Studio integra esses componentes em uma interface unificada:
- Inferência local nativa: Execução de modelos otimizada para o hardware nas plataformas compatíveis.
- Gerenciamento de modelos GGUF: Importação fácil de arquivos GGUF existentes e download integrado diretamente no app.
- Seletor de modelos integrado: Troca rápida do modelo ativo diretamente na janela de chat.
- Cards de personagens e bots avançados: Personas de agentes reutilizáveis com saudações customizadas e notas de configuração.
- Informações do mundo e Lorebooks: Injeção dinâmica de contexto ativada por palavras-chave inseridas pelo usuário.
- Preajustes customizados e gestão de prompts: Controle refinado de temperatura, Top-K, Top-P e formatação de diretrizes de sistema.
- Conversas multirramificadas: Criação de ramificações sem esforço para testar respostas alternativas do modelo sem perder o histórico do chat principal.
- Roteamento flexível de API: Suporte nativo para os principais provedores de nuvem e endpoints customizados compatíveis com OpenAI-compatible API.
O desempenho depende do hardware do seu dispositivo, do tamanho do modelo selecionado, do nível de quantização e do limite do contexto ativo. Recomendamos começar com modelos quantizados menores para avaliar a capacidade do seu sistema antes de carregar arquiteturas maiores.
Como o Tavern Studio resolve esse problema
O Tavern Studio foi projetado com a inferência local como rota prioritária. No Windows, o aplicativo usa llama.cpp, enquanto as versões de Android rodam sob o LiteRT. Os usuários podem importar modelos GGUF locais ou usar o baixador nativo do app para obter os arquivos de pesos, permitindo que a execução local coexista com a configuração da nuvem.
Este design híbrido significa que você pode usar um modelo local rápido para rascunhar ideias, mudar para uma API em nuvem para raciocínio complexo ou conectar-se a um servidor proprietário por meio de um endpoint compatível com OpenAI-compatible API. Todos os seus cards de personagens, Lorebooks, preajustes e ferramentas de chat ramificado permanecem ativos e persistentes, independentemente do modelo de backend escolhido.
Relação com ferramentas genéricas de LLM local
Muitas ferramentas de LLM local focam exclusivamente em servir modelos como endpoints de rede. Por outro lado, o Tavern Studio é um aplicativo cliente independente construído ao redor do espaço de trabalho do chat. Se você precisa apenas expor uma rota de API, um executor de backend dedicado será suficiente. Contudo, se deseja escrever, conversar, gerenciar personagens customizados, conectar Lorebooks interativos e gerenciar linhas temporais ramificadas, o Tavern Studio oferece toda a orquestração de frontend necessária.
Para usuários vindos do SillyTavern, o Tavern Studio serve como uma alternativa independente e moderna. Você não precisa escolher entre fluxos de trabalho ricos com cards de personagens e execução nativa de modelos locais. O Tavern Studio suporta ambos e traz um importador embutido para SillyTavern (acessível via Settings -> Data Management -> Import from SillyTavern).
Importação do SillyTavern
A ferramenta de migração opera sob parâmetros rígidos para garantir uma transição segura de apenas leitura:
- Operação de apenas leitura: O importador varre o diretório do projeto do SillyTavern (que precisa conter a pasta
data) e copia os arquivos. Ele nunca modifica, deleta ou move qualquer arquivo em sua instalação original do SillyTavern. - Escaneamento e pré-visualização: A ferramenta mostra uma lista dos itens detectados, permitindo que você escolha quais usuários e período de conteúdo deseja importar.
- Itens suportados: Pode importar cards de personagens, informações do mundo / Lorebooks, preajustes compatíveis com OpenAI, chaves/configurações de API e históricos de chat no formato JSONL padrão.
- Ajustes manuais necessários: Algumas configurações devem ser ajustadas manualmente após o processo. Isso inclui endpoints personalizados, serviços locais, proxies reversos, Azure OpenAI, Cloudflare Workers AI, endereços de proxy customizados, IDs de conta, URLs base ausentes ou nomes de modelos padrão ausentes.
- Limitações: Chats em grupo ainda não possuem suporte completo; algumas estruturas incompatíveis podem ser ignoradas durante o processo.
- Verificação pós-importação: Recomendamos verificar sua lista de personagens, chats, Lorebooks e configurações de API. Se os recursos importados não aparecerem imediatamente, reinicie o aplicativo ou recarregue a página.
Passos para operação
- Abra o Tavern Studio no seu dispositivo Windows ou Android.
- Navegue até a área de configuração do modelo local.
- Importe um arquivo GGUF local ou use a ferramenta de download para obter um novo modelo.
- Verifique se o modelo aparece na sua lista ativa de modelos.
- Selecione o modelo dentro do seu espaço de trabalho de chat ou configuração de preajuste.
- Inicie uma conversa com uma mensagem curta para testar a velocidade de geração, consumo de memória e qualidade.
- Ajuste o tamanho do contexto, parâmetros de preajuste ou mude para um modelo mais leve caso seu dispositivo apresente travamentos.
- Vincule um card de personagem ou Lorebook para customizar a experiência de chat assim que a conexão base estiver estável.
Perguntas frequentes (FAQ)
O Tavern Studio é um app LLM local?
Sim. O Tavern Studio é um app LLM local nativo que executa modelos diretamente nos dispositivos suportados, utilizando llama.cpp no Windows e LiteRT no Android.
O Tavern Studio suporta modelos GGUF?
Sim. O Tavern Studio suporta a importação e o download de GGUF modelos para fluxos de inferência local.
O Tavern Studio é apenas um wrapper de API?
Não. Embora tenha suporte para APIs em nuvem, o Tavern Studio possui motores de inferência local nativos embutidos, permitindo a execução de modelos completamente offline.
Posso misturar APIs de nuvem e modelos locais?
Sim. Você pode gerenciar modelos locais e APIs externas (como OpenAI, Claude, Gemini, OpenRouter ou endpoints personalizados compatíveis com OpenAI-compatible API) dentro do mesmo workspace.
Qualquer modelo rodará perfeitamente no meu dispositivo?
Não. A velocidade de execução e o consumo de recursos dependem do hardware do seu sistema, tamanho do modelo, quantização e limite de contexto. Sugerimos testar modelos menores primeiro.
Posso usar cards de personagens com modelos locais?
Sim. Todos os recursos visuais de frontend, como cards de personagens, Lorebooks, chats multirramificados e preajustes customizados, são compatíveis com os formatos comuns de modelos locais.
Próximos passos
- Compare este fluxo com o fluxo de trabalho do cliente de chat de IA privado.
- Aprenda como importar modelos GGUF.
- Configure a inferência local no Windows com llama.cpp.
- Leia o guia de Android para modelos locais no LiteRT.
- Use modelos locais com agentes de IA baseados em personagens.