@Vu Luong Anh, trước đây dữ liệu event của anh kiểu thế này:
x1. Giới tính
x2. Sở thích
x3. Địa điểm
Sau khi phân tích anh thấy rằng:
- Đương nhiên là nam thì thích tham gia sự kiện có nhiều nữ và nữ thích tham gia sự kiện nhiều nam
- Những người có cùng sở thích sẽ muốn tham gia cùng 1 event
- Những event có địa điểm gần user nhất sẽ dễ được chọn.
Nên anh đánh trọng số là (thực ra anh không có cơ sở khoa học, mà anh dựa theo suy đoán trên tập dữ liệu khoảng 300k bản ghi):
- cho x1 là: 30
- cho x2 là: 20
- cho x3 là: 50
Anh sẽ dùng Point làm đại lượng tính toán, và cách tính của anh thế này:
a. nếu user là nam:
- x1 = tỉ lệ nữ / tổng người tham gia
- x2 = số lượng sở thích của user / tổng số lượng sở thích
- x3 = khoảng cách của user đến event / khoảng cách tối đa mà user chấp nhận
b. nếu user là nữ
- x1 = tỉ lệ nam / tổng người tham gia
- x2 = số lượng sở thích của user / tổng số lượng sở thích
- x3 = khoảng cách của user đến event / khoảng cách tối đa mà user chấp nhận
anh quy định rằng 1.0 Point sẽ là phù hợp nhất nên hàm ban đầu của anh là:
y = (30 x1 + 20 x2 + 50 x3) / 100
Sau đó anh sử dụng linear regression và anh được 1 cái mớ dữ liệu kiểu này anh gọi nó là model.
Sau đó anh mang cái model này đi loop danh sách các event (anh dùng elasticsearch) anh sẽ tìm ra các event nào có score gần 1 nhất và suggest cho user
Câu hỏi của anh là: em có làm giống như anh không hay em có cách làm khác?
Ở đây anh đang lập trình kiểu heuristic truyền thống, không phải lập trình Machine Learning anh ạ, vì cái y là do anh tự suy diễn ra.
Muốn dùng ML anh phải có cả dữ liệu thật của y, tức là anh có rất nhiều bản ghi của cả x1, x2, x3, và y. Lúc đó anh dùng Linear Regression nó sẽ cho ra trọng số tương ứng. Nó ngược với việc anh đoán trọng số và suy ra y.
–
Vu Luong Anh
1634160044000
Không, cái y là anh có kết quả đó em ạ, vì các event được bán trước đó rồi, nên anh có:
- danh sách các event đã bán
- danh sách các user đã tham gia
Tức là anh đã có cả x1, x2, x3 và y rồi em ạ thế nên anh mới truyền được đủ tham số cho cái Linear Regression.
Em hay dùng đại lượng gì để làm kết quả cuối cùng khi sử dụng model?
–
monkey
1634160596000