คู่มือโมเดล GGUF ท้องถิ่น
โมเดลท้องถิ่นช่วยให้คุณสามารถรันการแชท AI ได้โดยไม่ต้องส่งข้อความแจ้งไปยังผู้ให้บริการโมเดลคลาวด์ Tavern Studio รองรับเวิร์กโฟลว์ GGUF ในพื้นที่สำหรับผู้ใช้ที่มีฮาร์ดแวร์ที่เหมาะสม
สิ่งนี้เพื่อใคร
- ผู้ใช้ที่มี CPU, GPU ที่มีความสามารถ หรือการตั้งค่ารุ่นท้องถิ่นเฉพาะ
- ผู้ใช้ที่ชอบเล่นบทบาทสมมติแบบออฟไลน์หรือแบบท้องถิ่นเป็นหลัก
- ผู้ใช้แก้ไขปัญหาข้อผิดพลาดหน่วยความจำไม่เพียงพอหรือการสร้างช้า
สิ่งที่คุณจะได้เรียนรู้
- GGUF คืออะไร
- โมเดลภายในเครื่องแตกต่างจาก Cloud API อย่างไร
- วิธีนำเข้าหรือดาวน์โหลดโมเดลในเครื่อง
- เลเยอร์ GPU และการตั้งค่าที่เกี่ยวข้องส่งผลต่อประสิทธิภาพอย่างไร
- วิธีการแก้ไขปัญหาข้อขัดข้อง
GGUF และความคาดหวังของฮาร์ดแวร์
GGUF เป็นรูปแบบทั่วไปสำหรับการอนุมาน LLM ในพื้นที่ โมเดลเชิงปริมาณลดความต้องการหน่วยความจำ แต่โมเดลขนาดใหญ่ยังคงต้องการ RAM หรือ VRAM เพียงพอ
[!NOTE]> ความเร็วของโมเดลเฉพาะที่ขึ้นอยู่กับฮาร์ดแวร์ ขนาดโมเดล การกำหนดปริมาณ และการกำหนดค่าแบ็กเอนด์เป็นอย่างมาก
ขั้นตอนที่ 1: ดาวน์โหลดหรือนำเข้าโมเดล GGUF
ใช้พื้นที่การจัดการโมเดลเพื่อดาวน์โหลดหรือนำเข้าไฟล์.ggufเลือกขนาดรุ่นที่ฮาร์ดแวร์ของคุณสามารถจัดการได้
ขั้นตอนที่ 2: เริ่มโมเดลท้องถิ่น
เปิดการตั้งค่าโมเดลโลคัลและกำหนดค่า:
- ประเภทแบ็กเอนด์
- ขนาดบริบท
- เลเยอร์ GPU
- เธรด CPU
- รูปแบบการแชทเมื่อจำเป็น
การแก้ไขปัญหา
เหตุใดแอปจึงขัดข้องหรือแสดง "หน่วยความจำไม่เพียงพอ"
ลดเลเยอร์ GPU ลง ใช้ปริมาณน้อยลง หรือเลือกรุ่นที่เล็กกว่า
ทำไมเจนเนอเรชั่นถึงช้ามาก?
ลองใช้โมเดลที่เล็กกว่า ปรับเธรด ใช้การเร่งความเร็ว GPU หากมี หรือลดขนาดบริบท
เหตุใดการนำเข้าจึงล้มเหลว
ไฟล์อาจไม่สมบูรณ์ เสียหาย หรือไม่ใช่โมเดล GGUF ที่ถูกต้อง
ขั้นตอนต่อไป
- ภาพรวมอินเทอร์เฟซ: ทำความเข้าใจว่าการตั้งค่ารุ่นท้องถิ่นปรากฏที่ใด
- กำหนดค่า API แรกของคุณ: ใช้ Cloud API เมื่อฮาร์ดแวร์ในเครื่องไม่เพียงพอ
- คำถามที่พบบ่อย: ตรวจสอบคำถามในการแก้ไขปัญหาเพิ่มเติม