AWS 데이터전처리 도구인 Glue Crawler와 Catalog

티스토리 뷰

카테고리 없음

AWS 데이터전처리 도구인 Glue Crawler와 Catalog

jranke 2025. 3. 17. 00:30

Glue Crawler와 Glue Catalog 개념

AWS Glue는 서버리스 데이터 통합 서비스로, 다양한 데이터 소스를 자동으로 탐색하고 데이터 카탈로그를 생성하는 기능을 제공합니다.

Glue Crawler는 S3, RDS, DynamoDB 등 여러 소스의 데이터를 자동으로 스캔하고, Glue Data Catalog는 이를 메타데이터로 저장하여 Athena, Redshift Spectrum, EMR과 같은 데이터 분석 서비스에서 쉽게 조회할 수 있도록 지원합니다.

AWS Glue Crawler란?

AWS Glue Crawler는 S3, RDS, DynamoDB, JDBC 연결 데이터베이스 등의 데이터를 자동으로 탐색하고, 스키마를 추출하여 Glue Data Catalog에 저장하는 기능을 수행하는 서비스입니다.

Glue Crawler 주요 역할

자동 데이터 탐색 – 데이터 파일(예: CSV, Parquet, JSON)의 구조 및 속성을 자동으로 분석
스키마 추출 – 데이터 형식과 컬럼을 자동으로 감지하고 Glue Data Catalog에 저장
스키마 변경 감지 – 데이터 구조가 변경될 경우 자동 업데이트 수행
테이블 생성 및 업데이트 – Glue Catalog에 테이블 및 파티션을 자동으로 추가

AWS Glue Data Catalog란?

AWS Glue Data Catalog는 Glue Crawler가 탐색한 데이터의 메타데이터를 저장하는 중앙 저장소입니다.

Glue Data Catalog 주요 역할

데이터 소스 등록 – S3, RDS, DynamoDB 등의 데이터 위치와 스키마를 저장
메타데이터 관리 – 테이블 이름, 컬럼, 데이터 유형, 파티션 정보를 저장
Athena, Redshift Spectrum, EMR 연동 – SQL 기반 데이터 분석 서비스에서 Glue Catalog를 활용하여 테이블 조회 가능
데이터 거버넌스 지원 – AWS Lake Formation과 연동하여 데이터 접근 제어 및 보안 관리 가능

구성 방식

Glue Crawler와 Glue Data Catalog 연동 프로세스

S3, RDS, DynamoDB 등의 데이터 소스 준비
Glue Crawler 생성 후 데이터 소스 연결 설정
Crawler 실행 → 데이터 탐색 및 스키마 추출
Glue Data Catalog에 테이블 및 메타데이터 자동 생성
Athena, Redshift Spectrum, EMR, Lake Formation에서 Glue Catalog 활용하여 데이터 분석 수행

Glue Crawler의 동작 과정

Crawler 생성 및 데이터 소스 설정
- S3, RDS, DynamoDB, Redshift 등의 데이터 소스를 지정
- Glue Crawler가 탐색할 경로 및 테이블 스키마를 설정
Glue Crawler 실행 (데이터 탐색 과정)
- 지정된 데이터 소스를 스캔하여 파일 형식, 컬럼, 데이터 유형을 분석
- JSON, CSV, Parquet 등의 파일을 자동으로 파싱하여 스키마를 추출
Glue Data Catalog에 테이블 및 메타데이터 저장
- Glue Crawler는 분석한 데이터를 Glue Data Catalog에 테이블로 등록
- 테이블 이름, 컬럼 타입, 파티션 정보가 포함됨
스키마 변경 감지 및 자동 업데이트
- 기존 테이블의 스키마가 변경되었을 경우 자동 업데이트 수행

활용

1) Amazon S3 데이터를 Athena에서 쿼리하기

사용 시나리오: S3에 저장된 JSON, Parquet 등의 데이터를 SQL로 분석하고 싶을 때

Glue Crawler 실행 후 Athena에서 데이터 조회 예제

SELECT * FROM my_s3_data WHERE year = '2024' AND month = '03';

2) RDS(MySQL, PostgreSQL)와 Redshift 연동하여 데이터 분석

사용 시나리오: RDS 데이터베이스를 Glue Crawler로 스캔하여 Glue Catalog에 저장한 후 Redshift Spectrum을 사용하여 데이터 분석

SELECT * FROM glue_catalog.my_database.my_table WHERE date > '2024-01-01';

3) 데이터 거버넌스 및 보안 정책 적용

사용 시나리오: AWS Lake Formation과 Glue Catalog를 연동하여 데이터 접근 제어를 강화

AWS Glue Crawler & Glue Catalog 정리

비교 항목	AWS Glue Crawler	AWS Glue Data Catalog
주요 역할	데이터 소스 자동 스캔 및 테이블 생성	메타데이터 저장 및 데이터 색인
지원 데이터 소스	S3, RDS, DynamoDB, JDBC 데이터베이스	Athena, Redshift Spectrum, EMR, Lake Formation
자동 스키마 감지	가능	저장된 메타데이터 사용
변경 사항 감지	스키마 변경 감지 및 업데이트	변경 사항 적용 가능
활용 서비스	Glue ETL, Athena, Redshift Spectrum	AWS 전체 데이터 분석 서비스

Glue Crawler: 데이터 소스를 자동으로 스캔하여 테이블 및 스키마를 생성하는 기능
Glue Catalog: Glue Crawler가 탐색한 데이터를 저장하는 메타데이터 저장소
Glue Crawler와 Glue Catalog를 활용하면 S3, RDS, DynamoDB 데이터를 손쉽게 분석 가능
Athena, Redshift Spectrum, EMR 등과 통합하여 SQL 기반 데이터 분석 가능
AWS Lake Formation과 연동하여 데이터 거버넌스 및 보안 강화 가능

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

jranke 님의 블로그

티스토리 뷰