Hướng dẫn mô hình GGUF địa phương

Các mô hình cục bộ cho phép bạn chạy trò chuyện AI mà không cần gửi lời nhắc đến nhà cung cấp mô hình đám mây. Tavern Studio hỗ trợ quy trình làm việc GGUF cục bộ cho người dùng có phần cứng phù hợp.

Đây là dành cho ai

  • Người dùng có CPU, GPU có khả năng hoặc thiết lập mô hình cục bộ chuyên dụng.
  • Người dùng thích nhập vai ngoại tuyến hoặc nhập vai cục bộ.
  • Người dùng khắc phục lỗi hết bộ nhớ hoặc tạo chậm.

Bạn sẽ học được gì

*GGUF là gì.

  • Mô hình cục bộ khác với API đám mây như thế nào.
  • Cách nhập hoặc tải xuống mô hình cục bộ.
  • Lớp GPU và cài đặt liên quan ảnh hưởng như thế nào đến hiệu suất.
  • Cách khắc phục sự cố.

GGUF và kỳ vọng về phần cứng

GGUF là một định dạng phổ biến cho suy luận LLM cục bộ. Các mô hình lượng tử hóa giảm yêu cầu về bộ nhớ, nhưng các mô hình lớn hơn vẫn cần đủ RAM hoặc VRAM.

[!NOTE]> Tốc độ mô hình cục bộ phụ thuộc nhiều vào phần cứng, kích thước mô hình, lượng tử hóa và cấu hình phụ trợ.

Bước 1: Tải xuống hoặc nhập mô hình GGUF

Sử dụng khu vực quản lý mô hình để tải xuống hoặc nhập tệp.gguf. Chọn kích thước mô hình mà phần cứng của bạn có thể xử lý.

Bước 2: Khởi động mô hình cục bộ

Mở cài đặt mô hình cục bộ và định cấu hình:

  • Loại phụ trợ.
  • Kích thước bối cảnh.
  • Lớp GPU.
  • Chủ đề CPU.
  • Định dạng trò chuyện khi được yêu cầu.

Khắc phục sự cố

Tại sao ứng dụng bị treo hoặc hiển thị “Hết bộ nhớ”?

Hạ lớp GPU, sử dụng lượng tử hóa nhỏ hơn hoặc chọn mô hình nhỏ hơn.

Tại sao thế hệ rất chậm?

Hãy thử mô hình nhỏ hơn, điều chỉnh luồng, sử dụng khả năng tăng tốc GPU nếu có hoặc giảm kích thước ngữ cảnh.

Tại sao quá trình nhập không thành công?

Tệp có thể không đầy đủ, bị hỏng hoặc không phải là mô hình GGUF hợp lệ.


Các bước tiếp theo