Site logo

AWS Macie là gì? Phát hiện và bảo vệ dữ liệu nhạy cảm trên S3 bằng Machine Learning

5:00 read

AWS Macie là một dịch vụ bảo mật sử dụng Machine Learning (ML)pattern matching để tự động phát hiện, phân loại và bảo vệ dữ liệu nhạy cảm trong Amazon S3 Dịch vụ này giúp doanh nghiệp xác định và kiểm soát dữ liệu như thông tin nhận dạng cá nhân (PII), PHI, PCI, thông tin tài chính, hoặc mã bảo mật, từ đó giảm thiểu nguy cơ rò rỉ hoặc sử dụng sai dữ liệu.

Macie hỗ trợ:

  • Phát hiện thông tin nhận dạng cá nhân (PII) như tên, địa chỉ email, số điện thoại, số thẻ tín dụng…
  • Hàng trăm Managed Data Identifiers (MDI) cho nhiều quốc gia/ngữ cảnh khác nhau.
  • Custom Data Identifiers (CDI) bằng regex để bắt mẫu riêng theo tổ chức.
  • Allow lists để loại trừ các mẫu hợp lệ (ví dụ dữ liệu test, synthetic) nhằm giảm false positives.
  • Tổng hợp findings, tích hợp AWS Security HubAmazon EventBridge để tự động hoá.

Thành phần & Khái niệm chính

  • S3 Bucket evaluation: Macie kiểm tra cấu hình bảo mật bucket (public access, encryption, bucket policy) và cung cấp inventory.
  • Classification jobs: Quét đối tượng S3 theo tiêu chí (toàn bộ bucket/prefix, filter theo tags, thời gian). Loại job: one‑time hoặc scheduled.
  • Managed Data Identifiers (MDIs): Bộ mẫu dựng sẵn cho PII/PHI/PCI/quốc gia.
  • Custom Data Identifiers (CDIs): Tự định nghĩa regex + keyword + proximity để tăng độ chính xác.
  • Allow lists: Danh sách mẫu/giá trị được cho phép để loại khỏi findings.
  • Findings: Kết quả quét (loại, mức độ, vị trí object, mẫu nhận dạng). Đẩy qua Security Hub/EventBridge.
  • Multi‑account: Dùng Macie administrator account (AWS Organizations) để bật/quản lý toàn bộ accounts.

Cách hoạt động của AWS Macie

AWS Macie hoạt động bằng cách quét và phân tích dữ liệu trong S3 buckets, sử dụng machine learning models để nhận diện và phân loại nội dung dựa trên các mẫu dữ liệu nhạy cảm đã được huấn luyện.

Quy trình hoạt động:

  1. Kích hoạt Macie: Kết nối với tài khoản AWS và chọn các bucket S3 cần giám sát.
  2. Quét và phân tích: Macie tự động quét metadata và nội dung tệp để tìm thông tin nhạy cảm.
  3. Phân loại dữ liệu: Phân loại dữ liệu theo loại thông tin (PII, tài chính, y tế, v.v.).
  4. Cảnh báo và báo cáo: Gửi cảnh báo khi phát hiện dữ liệu nhạy cảm hoặc truy cập bất thường.

Yêu cầu đăng nhập

Vui lòng đăng nhập để truy cập nội dung này

Additional Resources

Course Guide

Comprehensive PDF guide with examples

GitHub Repository

Example code for all lessons

Discussion

Have a question about this lesson? Post it here and get answers from instructors and peers.