Lộ lọt thông tin cá nhân khi serve file tĩnh

Đăng bởi Lưu Đại vào ngày 07-12-2023
Chẳng là mới đây bạn mình search số điện thoại của nó trên google thì bắt gặp kết quả tìm kiếm là 1 file pdf của trường đại học trước bọn mình theo học.
Ấn vào file pdf thì tải được danh sách sinh viên có hơn 1600 records bao gồm số điện thoại, địa chỉ email và số chứng minh nhân dân.
 
Nguyên nhân:
  • File tĩnh thì thường lưu trên một server riêng và không áp dụng phân quyền
  • Crawler của google quá xịn, giờ nó cào cả xls, pdf
  • Không đặt mật khẩu cho file
Cách khắc phục: 
  • Với những file tĩnh quan trọng thì tạo 1 api cho file phân quyền cho api này. Lúc kéo file về thì sẽ kéo theo kiểu client request lên server thông qua api down file -> server kéo file về từ server file tĩnh (s3, ...) -> serve file vừa down về cho client.
  • Thêm tệp robots.txt cho những view có thể down file quan trọng để báo google ko crawl những trang này Link
  • Tạo một url tạm thời cho file tĩnh cho nó một thời gian sống, sau thời gian này thì k vào được nữa như kiểu aws đang sử dụng Link