Guia de modelo local GGUF

Os modelos locais permitem executar bate-papo de IA sem enviar prompts a um provedor de modelo de nuvem. Tavern Studio oferece suporte a fluxos de trabalho GGUF locais para usuários com hardware adequado.

Para quem é isso

  • Usuários com CPUs, GPUs ou configurações de modelo local dedicadas capazes.
  • Usuários que preferem roleplay offline ou local.
  • Usuários solucionando erros de falta de memória ou geração lenta.

O que você aprenderá

  • O que é GGUF.
  • Como os modelos locais diferem das APIs em nuvem.
  • Como importar ou baixar um modelo local.
  • Como as camadas de GPU e configurações relacionadas afetam o desempenho.
  • Como solucionar falhas.

GGUF e expectativas de hardware

GGUF é um formato comum para inferência LLM local. Os modelos quantizados reduzem os requisitos de memória, mas os modelos maiores ainda precisam de RAM ou VRAM suficiente.

[!NOTE]> A velocidade do modelo local depende muito do hardware, tamanho do modelo, quantização e configuração de back-end.

Etapa 1: Baixe ou importe um modelo GGUF

Use a área de gerenciamento de modelos para baixar ou importar um arquivo.gguf. Escolha um tamanho de modelo que seu hardware possa suportar.

Etapa 2: iniciar o modelo local

Abra as configurações do modelo local e configure:

  • Tipo de back-end.
  • Tamanho do contexto.
  • Camadas GPU.
  • Threads de CPU.
  • Formato de bate-papo quando necessário.

Solução de problemas

Por que o aplicativo trava ou mostra “Sem memória”?

Reduza as camadas de GPU, use uma quantização menor ou escolha um modelo menor.

Por que a geração é muito lenta?

Experimente um modelo menor, ajuste os threads, use a aceleração da GPU, se disponível, ou reduza o tamanho do contexto.

Por que a importação falha?

O arquivo pode estar incompleto, corrompido ou não ser um modelo GGUF válido.


##Próximas etapas