Site logo
AWS Glue

AWS Glue
Analytics

AWS Glue is a serverless data integration service.

Overview

AWS Glue is a serverless data integration service that makes it easier to discover, prepare, move, and integrate data from multiple sources for analytics, machine learning (ML), and application development.

AWS Glue là một dịch vụ tích hợp dữ liệu không máy chủ (serverless) giúp bạn dễ dàng khám phá, chuẩn bị, di chuyển và tích hợp dữ liệu từ nhiều nguồn khác nhau cho các mục đích như phân tích (analytics), máy học (ML) và phát triển ứng dụng.

Key Features

  • Serverless data integration: không cần quản lý máy chủ, AWS tự động cung cấp và mở rộng tài nguyên xử lý dữ liệu.
  • Centralized Data Catalog: lập danh mục dữ liệu tập trung, tự động thu thập metadata và schema từ nhiều nguồn dữ liệu.
  • Powerful ETL (Extract, Transform, Load): hỗ trợ tạo pipeline ETL để trích xuất, chuyển đổi, làm sạch và nạp dữ liệu phục vụ phân tích, ML và ứng dụng.
  • Glue Studio visual interface: giao diện trực quan kéo-thả giúp thiết kế, chạy và giám sát ETL jobs dễ dàng.
  • Auto scaling: tự động tăng/giảm tài nguyên xử lý theo khối lượng công việc, tối ưu chi phí vận hành.
  • Batch and streaming data processing: xử lý dữ liệu dạng batch hoặc streaming từ các nguồn như Amazon Kinesis hoặc Kafka.
  • Deep AWS integration: tích hợp chặt chẽ với S3, Athena, Redshift, DynamoDB, EMR, Lake Formation, CloudWatch, EventBridge.
  • Modern data formats support: hỗ trợ Apache Iceberg, Delta Lake và Hudi cho kiến trúc Data Lakehouse thế hệ mới.
  • Data quality & data preparation: tự động phát hiện, kiểm tra chất lượng và làm sạch dữ liệu.
  • Multiple processing engines: hỗ trợ Spark, Ray và Python Shell tùy theo nhu cầu xử lý.
  • AWS Glue Studio
  • Data Catalog
  • Crawlers
  • Workflows
  • Set table properties

Links

Related Services

Amazon VPC

Network isolation and security

Elastic Load Balancing

Distribute incoming traffic

Amazon EBS

Persistent block storage volumes