คู่มือโมเดล GGUF ท้องถิ่น

โมเดลท้องถิ่นช่วยให้คุณสามารถรันการแชท AI ได้โดยไม่ต้องส่งข้อความแจ้งไปยังผู้ให้บริการโมเดลคลาวด์ Tavern Studio รองรับเวิร์กโฟลว์ GGUF ในพื้นที่สำหรับผู้ใช้ที่มีฮาร์ดแวร์ที่เหมาะสม

สิ่งนี้เพื่อใคร

  • ผู้ใช้ที่มี CPU, GPU ที่มีความสามารถ หรือการตั้งค่ารุ่นท้องถิ่นเฉพาะ
  • ผู้ใช้ที่ชอบเล่นบทบาทสมมติแบบออฟไลน์หรือแบบท้องถิ่นเป็นหลัก
  • ผู้ใช้แก้ไขปัญหาข้อผิดพลาดหน่วยความจำไม่เพียงพอหรือการสร้างช้า

สิ่งที่คุณจะได้เรียนรู้

  • GGUF คืออะไร
  • โมเดลภายในเครื่องแตกต่างจาก Cloud API อย่างไร
  • วิธีนำเข้าหรือดาวน์โหลดโมเดลในเครื่อง
  • เลเยอร์ GPU และการตั้งค่าที่เกี่ยวข้องส่งผลต่อประสิทธิภาพอย่างไร
  • วิธีการแก้ไขปัญหาข้อขัดข้อง

GGUF และความคาดหวังของฮาร์ดแวร์

GGUF เป็นรูปแบบทั่วไปสำหรับการอนุมาน LLM ในพื้นที่ โมเดลเชิงปริมาณลดความต้องการหน่วยความจำ แต่โมเดลขนาดใหญ่ยังคงต้องการ RAM หรือ VRAM เพียงพอ

[!NOTE]> ความเร็วของโมเดลเฉพาะที่ขึ้นอยู่กับฮาร์ดแวร์ ขนาดโมเดล การกำหนดปริมาณ และการกำหนดค่าแบ็กเอนด์เป็นอย่างมาก

ขั้นตอนที่ 1: ดาวน์โหลดหรือนำเข้าโมเดล GGUF

ใช้พื้นที่การจัดการโมเดลเพื่อดาวน์โหลดหรือนำเข้าไฟล์.ggufเลือกขนาดรุ่นที่ฮาร์ดแวร์ของคุณสามารถจัดการได้

ขั้นตอนที่ 2: เริ่มโมเดลท้องถิ่น

เปิดการตั้งค่าโมเดลโลคัลและกำหนดค่า:

  • ประเภทแบ็กเอนด์
  • ขนาดบริบท
  • เลเยอร์ GPU
  • เธรด CPU
  • รูปแบบการแชทเมื่อจำเป็น

การแก้ไขปัญหา

เหตุใดแอปจึงขัดข้องหรือแสดง "หน่วยความจำไม่เพียงพอ"

ลดเลเยอร์ GPU ลง ใช้ปริมาณน้อยลง หรือเลือกรุ่นที่เล็กกว่า

ทำไมเจนเนอเรชั่นถึงช้ามาก?

ลองใช้โมเดลที่เล็กกว่า ปรับเธรด ใช้การเร่งความเร็ว GPU หากมี หรือลดขนาดบริบท

เหตุใดการนำเข้าจึงล้มเหลว

ไฟล์อาจไม่สมบูรณ์ เสียหาย หรือไม่ใช่โมเดล GGUF ที่ถูกต้อง


ขั้นตอนต่อไป