Avatar
0
Nguyễn Thái Sơn Professional
Nguyễn Thái Sơn Professional
cách chống crawl data
Anh ơi, anh có bí kíp nào để chống crawl data trộm không ạ. Em đang làm SP nhưng sợ người khác crawl data mình ạ. Em đang nghĩ giải pháp tạm thời limit IP của họ có ổn k ạ
  • Answer
crawl data
Remain: 5
2 Answers
Avatar
tvd12 Professional
tvd12 Professional
Cách hữu hiệu nhất có lẽ cung chỉ có cách giới hạn số lượng request trên IP như em nói thôi em ạ. Em có thể giới hạn request của 1 IP trên 1 giây hoặc 1 phút, hoặc 1 giờ em ạ
  • 0
  • Reply
Avatar
Thành Lê Văn Professional
Thành Lê Văn Professional
Việc chặn IP khi request nhiều là cách dễ làm nhất, tuy nhiên nó không phù hợp với các dự án lớn, có nhiều người dùng.

VD: Google, facebook mình đã test rất nhiều và không thấy chặn khi call liên tục.

Ví dụ nữa thì viettel pay hoặc MoMo họ có chặn IP khi request quá nhiều, tuy nhiên ngưỡng config khá lớn để phục vụ chống DDos chứ không phải chống crawl  .

Còn  nếu chặn crawl  thì bạn không thể để ngưỡng quá lớn được, và nếu có để ngưỡng nhỏ thì vẫn có cách bypass (Mình đã từng làm)

Tốt nhất để chặn crawl  thì bạn hãy phân tích sản phẩm của bạn có dữ liệu quan trọng nhất là gì rồi tiến hành các thủ thuật chặn các dữ liệu đó.

Ví dụ:

  • sản phẩm video là dữ liệu chính là video (Web phim)
    • Chặn Ip, chỉ cho phép IP truy cập trực tiếp đến ứng dụng của chúng ta được xem URL video đó (Cách này với video đang được sử dụng nhiều nhất)
      • Ví dụ: Client A crawl sẽ nhận được Url có param chưa IP của chúng ta và Hash url này. Chỉ Client A hoặc N sử dụng Url này để truy cập thì server data sẽ kiểm tra hash đúng với data Url và kiểm tra IP đúng đang truy cập. Nếu 1 trong 2 khác thì sẽ từ chối truy cập.
    • Giảm chất lượng video hoặc thêm captcha để lấy link video khi đến ngưỡng config
  • Nội dung là nhạc thì tương tự video
  • Nội dung chữ
    • Khi đến ngưỡng config, hiển thị 20% dữ liệu và thêm captcha để hiển thị hết.

Phía trên là chặn xem, còn nếu chặn download thì phức tạp hơn nhiều, cần thì mình sẽ share dần dần cho.

Các phương án trên để hạn chế thôi, nếu có hệ thống đủ lớn thì vẫn bypass được (Có tiền để đầu tư) bởi vì mình cũng đã từng bypass rồi.

  • 0
  • Reply