Tavern Studio Docs · 09

คู่มือโมเดล GGUF ท้องถิ่น

โมเดลท้องถิ่นช่วยให้คุณสามารถรันการแชท AI ได้โดยไม่ต้องส่งข้อความแจ้งไปยังผู้ให้บริการโมเดลคลาวด์ Tavern Studio รองรับเวิร์กโฟลว์ GGUF ในพื้นที่สำหรับผู้ใช้ที่มีฮาร์ดแวร์ที่เหมาะสม

สิ่งนี้เพื่อใคร

ผู้ใช้ที่มี CPU, GPU ที่มีความสามารถ หรือการตั้งค่ารุ่นท้องถิ่นเฉพาะ
ผู้ใช้ที่ชอบเล่นบทบาทสมมติแบบออฟไลน์หรือแบบท้องถิ่นเป็นหลัก
ผู้ใช้แก้ไขปัญหาข้อผิดพลาดหน่วยความจำไม่เพียงพอหรือการสร้างช้า

สิ่งที่คุณจะได้เรียนรู้

GGUF คืออะไร
โมเดลภายในเครื่องแตกต่างจาก Cloud API อย่างไร
วิธีนำเข้าหรือดาวน์โหลดโมเดลในเครื่อง
เลเยอร์ GPU และการตั้งค่าที่เกี่ยวข้องส่งผลต่อประสิทธิภาพอย่างไร
วิธีการแก้ไขปัญหาข้อขัดข้อง

GGUF และความคาดหวังของฮาร์ดแวร์

GGUF เป็นรูปแบบทั่วไปสำหรับการอนุมาน LLM ในพื้นที่ โมเดลเชิงปริมาณลดความต้องการหน่วยความจำ แต่โมเดลขนาดใหญ่ยังคงต้องการ RAM หรือ VRAM เพียงพอ

[!NOTE]> ความเร็วของโมเดลเฉพาะที่ขึ้นอยู่กับฮาร์ดแวร์ ขนาดโมเดล การกำหนดปริมาณ และการกำหนดค่าแบ็กเอนด์เป็นอย่างมาก

ขั้นตอนที่ 1: ดาวน์โหลดหรือนำเข้าโมเดล GGUF

ใช้พื้นที่การจัดการโมเดลเพื่อดาวน์โหลดหรือนำเข้าไฟล์.ggufเลือกขนาดรุ่นที่ฮาร์ดแวร์ของคุณสามารถจัดการได้

ขั้นตอนที่ 2: เริ่มโมเดลท้องถิ่น

เปิดการตั้งค่าโมเดลโลคัลและกำหนดค่า:

ประเภทแบ็กเอนด์
ขนาดบริบท
เลเยอร์ GPU
เธรด CPU
รูปแบบการแชทเมื่อจำเป็น

การแก้ไขปัญหา

เหตุใดแอปจึงขัดข้องหรือแสดง "หน่วยความจำไม่เพียงพอ"

ลดเลเยอร์ GPU ลง ใช้ปริมาณน้อยลง หรือเลือกรุ่นที่เล็กกว่า

ทำไมเจนเนอเรชั่นถึงช้ามาก?

ลองใช้โมเดลที่เล็กกว่า ปรับเธรด ใช้การเร่งความเร็ว GPU หากมี หรือลดขนาดบริบท

เหตุใดการนำเข้าจึงล้มเหลว

ไฟล์อาจไม่สมบูรณ์ เสียหาย หรือไม่ใช่โมเดล GGUF ที่ถูกต้อง

ขั้นตอนต่อไป

ภาพรวมอินเทอร์เฟซ: ทำความเข้าใจว่าการตั้งค่ารุ่นท้องถิ่นปรากฏที่ใด
กำหนดค่า API แรกของคุณ: ใช้ Cloud API เมื่อฮาร์ดแวร์ในเครื่องไม่เพียงพอ
คำถามที่พบบ่อย: ตรวจสอบคำถามในการแก้ไขปัญหาเพิ่มเติม