Tavern Studio Docs · 09

Guia de modelo local GGUF

Os modelos locais permitem executar bate-papo de IA sem enviar prompts a um provedor de modelo de nuvem. Tavern Studio oferece suporte a fluxos de trabalho GGUF locais para usuários com hardware adequado.

Para quem é isso

Usuários com CPUs, GPUs ou configurações de modelo local dedicadas capazes.
Usuários que preferem roleplay offline ou local.
Usuários solucionando erros de falta de memória ou geração lenta.

O que você aprenderá

O que é GGUF.
Como os modelos locais diferem das APIs em nuvem.
Como importar ou baixar um modelo local.
Como as camadas de GPU e configurações relacionadas afetam o desempenho.
Como solucionar falhas.

GGUF e expectativas de hardware

GGUF é um formato comum para inferência LLM local. Os modelos quantizados reduzem os requisitos de memória, mas os modelos maiores ainda precisam de RAM ou VRAM suficiente.

[!NOTE]> A velocidade do modelo local depende muito do hardware, tamanho do modelo, quantização e configuração de back-end.

Etapa 1: Baixe ou importe um modelo GGUF

Use a área de gerenciamento de modelos para baixar ou importar um arquivo.gguf. Escolha um tamanho de modelo que seu hardware possa suportar.

Etapa 2: iniciar o modelo local

Abra as configurações do modelo local e configure:

Tipo de back-end.
Tamanho do contexto.
Camadas GPU.
Threads de CPU.
Formato de bate-papo quando necessário.

Solução de problemas

Por que o aplicativo trava ou mostra “Sem memória”?

Reduza as camadas de GPU, use uma quantização menor ou escolha um modelo menor.

Por que a geração é muito lenta?

Experimente um modelo menor, ajuste os threads, use a aceleração da GPU, se disponível, ou reduza o tamanho do contexto.

Por que a importação falha?

O arquivo pode estar incompleto, corrompido ou não ser um modelo GGUF válido.

##Próximas etapas

Visão geral da interface: entenda onde as configurações do modelo local aparecem.
Configure sua primeira API: use APIs em nuvem quando o hardware local não for suficiente.
FAQ: revise mais questões de solução de problemas.