...
참고: https://www.megazone.com/reinvent-2019-deep-dive-into-amazon-athena/
Extract, Transform and Load data into S3 data lake using CTAS and INSERT INTO statements in Amazon Athena
Amazon Athena는 표준 SQL을 사용하여 Amazon S3에 저장된 데이터를 쉽게 분석 할 수있는 대화식 쿼리 서비스입니다.
Athena는 서버리스이므로 관리 할 인프라가 없으며 실행 한 쿼리에 대해서만 비용을 지불합니다.
데이터를 압축, 파티셔닝 및 컬럼 형식으로 변환하여 쿼리 당 비용을 줄이고 성능을 향상시킬 수 있습니다.
쿼리 성능을 높이고 비용을 절감하는 모범 사례에 대한 자세한 내용은 Amazon Athena의 10 가지 성능 튜닝 팁을 참조하십시오.
Athena를 사용하여 데이터 처리를위한 ETL(Extract, Transform and Load) 작업에 대해 설명합니다.
이 예는 CTAS (Create Table as Select) 및 INSERT INTO 문을 사용하여 데이터 세트를 분할하고 컬럼 데이터 형식으로 변환하여 분석을 위해 데이터 세트를 최적화합니다.
CTAS 문은 표준 SELECT 조회를 사용하여 새 테이블을 작성하여 필요에 따라 데이터를 필터링합니다.
CTAS 문을 사용하여 데이터를 분할하고 압축을 지정하고 Apache Parquet 및 Apache ORC와 같은 열 형식으로 데이터를 변환 할 수도 있습니다.
실행의 일부로 결과 테이블과 파티션이 AWS Glue 데이터 카탈로그에 추가되어 후속 쿼리에 즉시 사용할 수 있습니다.
INSERT INTO 문은 소스 테이블에서 실행되는 SELECT 조회 문을 기반으로 대상 테이블에 새 행을 삽입합니다.
소스 테이블의 기본 데이터가 CSV 형식이고 대상 테이블의 데이터가 파켓 형식인 경우 INSERT INTO는 데이터를 대상 테이블의 형식으로 쉽게 변환하고 적재 할 수 있습니다.
CTAS 및 INSERT INTO 문을 함께 사용하면 데이터의 초기 일괄 변환과 기존 테이블의 증분 업데이트를 수행할 수 있습니다.
...
Redshift
AWS re:Invent 2019: How to build your data analytics stack at scale with Amazon Redshift (ANT335-R)
...