Panduan Model GGUF Lokal

Model lokal memungkinkan Anda menjalankan obrolan AI tanpa mengirimkan perintah ke penyedia model cloud. Tavern Studio mendukung alur kerja GGUF lokal untuk pengguna dengan perangkat keras yang sesuai.

Untuk siapa ini

  • Pengguna dengan CPU, GPU, atau pengaturan model lokal khusus yang mumpuni.
  • Pengguna yang lebih menyukai permainan peran offline atau lokal.
  • Pengguna memecahkan masalah kesalahan kehabisan memori atau generasi lambat.

Apa yang akan Anda pelajari

  • Apa itu GGUF.
  • Perbedaan model lokal dengan API cloud.
  • Cara mengimpor atau mengunduh model lokal.
  • Bagaimana Lapisan GPU dan pengaturan terkait memengaruhi kinerja.
  • Cara mengatasi masalah crash.

GGUF dan ekspektasi perangkat keras

GGUF adalah format umum untuk inferensi LLM lokal. Model terkuantisasi mengurangi kebutuhan memori, namun model yang lebih besar masih memerlukan RAM atau VRAM yang cukup.

[!NOTE]> Kecepatan model lokal sangat bergantung pada perangkat keras, ukuran model, kuantisasi, dan konfigurasi backend.

Langkah 1: Unduh atau impor model GGUF

Gunakan area manajemen model untuk mengunduh atau mengimpor file.gguf. Pilih ukuran model yang dapat ditangani oleh perangkat keras Anda.

Langkah 2: Mulai model lokal

Buka pengaturan model lokal dan konfigurasikan:

  • Tipe ujung belakang.
  • Ukuran konteks.
  • Lapisan GPU.
  • Utas CPU.
  • Format obrolan bila diperlukan.

Pemecahan masalah

Mengapa aplikasi mogok atau menampilkan “Memori Kehabisan”?

Turunkan Lapisan GPU, gunakan kuantisasi yang lebih kecil, atau pilih model yang lebih kecil.

Mengapa generasi sangat lambat?

Coba model yang lebih kecil, sesuaikan thread, gunakan akselerasi GPU jika tersedia, atau kurangi ukuran konteks.

Mengapa impor gagal?

File mungkin tidak lengkap, rusak, atau bukan model GGUF yang valid.


Langkah selanjutnya