Avatar
2
triandn Beginner
triandn Beginner
ứng dụng chatGPT
Chào anh Dũng!

Lại là em đây, em có một chút khó khăn sau. Chuyện là em ứng dụng chatGPT vào trong website đặt tour du lịch của mình. Nhưng chỉ dùng API để tích hợp vào thì nó khá bị động. Em tính hỏi anh là mình có thể huấn luyện mô hình GPT theo dữ liệu của mình được không! Và cách làm sẽ như thế nào ạ!

Kết quả em mong muốn là: Em có thể hỏi chatbot về tour nổi bật thì nó sẽ gợi ý sản phẩm từ website của mình!

Em cảm ơn anh

  • Answer
Remain: 5
2 Answers
Avatar
tvd12 Beginner
tvd12 Beginner
Anh nghĩ là rất khó em ạ, theo anh được biết để train được ra một con chat như ChatGPT phải mất từ 4 đến 50 triệu USD, đây là con số quá lớn.

Tiếp theo nữa là ChatGPT họ cũng sẽ huấn luyện để AI nó không quảng cáo cho bất kỳ đơn vị nào cả, mà thực ra là cách hoạt động của nó là đoán từ tiếp theo, nên thực sự là khó để em ép được con bot nó nói theo hướng là sản phẩm của công ty em, và có lợi cho em.

Anh nghĩ giải pháp là em xây dựng một con bot riêng nhưng không cần phức tạp như GPT, em có thể đánh trọng số cho các trường dữ liệu của em, sử dụng cosine similarity nhúng vào elasticsearch, sau đó điều chỉnh tham số dần dần để đạt được kết quả gần đúng nhất em ạ.

Đây là câu trả lời từ GPT, anh thấy nó khá đầy đủ:

Về cơ bản, bạn có thể huấn luyện mô hình GPT theo dữ liệu của mình. Tuy nhiên, quá trình này sẽ khá tốn kém và đòi hỏi kiến thức về machine learning, đặc biệt là về deep learning. Nếu bạn chưa có kinh nghiệm về lĩnh vực này, việc huấn luyện mô hình GPT sẽ là một thử thách lớn.

Dưới đây là các bước cơ bản để huấn luyện mô hình GPT:

  1. Thu thập dữ liệu: Đầu tiên, bạn cần thu thập dữ liệu liên quan đến tour du lịch của mình. Dữ liệu này có thể là những câu hỏi thường gặp, những thông tin liên quan đến tour, hay bất kỳ dữ liệu nào mà bạn muốn mô hình có thể học từ đó.
  2. Tiền xử lý dữ liệu: Sau khi có dữ liệu, bạn cần tiền xử lý nó để loại bỏ các thông tin không cần thiết, chuẩn hóa và tách từ. Việc tiền xử lý dữ liệu là một bước quan trọng để đảm bảo rằng mô hình sẽ học được thông tin hữu ích từ dữ liệu.
  3. Huấn luyện mô hình: Sau khi tiền xử lý dữ liệu, bạn có thể huấn luyện mô hình. Điều này yêu cầu bạn phải có máy tính mạnh và một khoảng thời gian để chạy quá trình huấn luyện.
  4. Đánh giá mô hình: Sau khi huấn luyện xong, bạn cần đánh giá mô hình của mình để xác định xem nó có hoạt động tốt hay không. Bạn có thể sử dụng các phương pháp đánh giá như perplexity hoặc BLEU score để đánh giá mô hình của mình.
  5. Sử dụng mô hình: Khi mô hình của bạn đã hoạt động tốt, bạn có thể tích hợp nó vào trang web của mình bằng cách sử dụng API hoặc SDK.
  • 1
  • Reply
Avatar
Vu Luong Anh Beginner
Về cơ bản để xây mô hình như ChatGPT từ đầu là rất khó và tốn kém như anh Dũng đã trả lời. Mình sẽ bổ sung 1 hướng triển khai khác có vẻ tiết kiệm và khả thi hơn xây từ đầu:
  1. Hiện tại có các open models mà bạn có thể lấy về dùng miễn phí, tất nhiên chất lượng chưa bằng ChatGPT. Một repo mình thấy khá nổi bật là https://github.com/LAION-AI/Open-Assistant, dùng sức mạnh cộng đồng để thu thập dữ liệu. Trọng số mô hình đã huấn luyện bạn có thể lấy ở https://huggingface.co/OpenAssistant
  2. Bước tiếp theo là thu thập dữ liệu theo nghiệp vụ du lịch của bạn, tức là bạn sẽ phải soạn ra bộ câu hỏi về du lịch, xong có chuyên gia ngồi trả lời những câu hỏi đó.
  3. Bạn sẽ lấy mô hình ở bước 1 fine tune lại bằng dữ liệu ở bước 2. Vì dữ liệu bạn thu thập không quá lớn nên fine tune sẽ không quá tốn kém. Xong bước này mô hình của bạn sẽ có knowledge khổng lồ từ internet ở bước 1, và đồng thời các câu trả lời cũng được định hướng theo nghiệp vụ của bạn ở bước 2.

Đây là hướng đi có vẻ dễ hơn xây mô hình từ đầu, tuy nhiên vẫn cần kiến thức chuyên sâu về Deep Learning và NLP để kiểm định chất lượng mô hình.

P/s: nếu dữ liệu tour du lịch của bạn chưa được học bởi mô hình ở bước 1, bạn sẽ phải tự huấn luyện cho nó. Việc chuẩn bị dữ liệu ở bước này dễ hơn bước 2, do bạn chỉ cần feed vào mô hình văn bản mà nó cần học (tức là dữ liệu text không cần gán nhãn)

  • 3
  • Reply