...
참고: https://www.megazone.com/reinvent-2019-deep-dive-into-amazon-athena/
Blog - Extract, Transform and Load data into S3 data lake using CTAS and INSERT INTO statements in Amazon Athena
Amazon Athena는 표준 SQL을 사용하여 Amazon S3에 저장된 데이터를 쉽게 분석 할 수있는 대화식 쿼리 서비스입니다.
Athena는 서버리스이므로 관리 할 인프라가 없으며 실행 한 쿼리에 대해서만 비용을 지불합니다.
데이터를 압축, 파티셔닝 및 컬럼 형식으로 변환하여 쿼리 당 비용을 줄이고 성능을 향상시킬 수 있습니다.
쿼리 성능을 높이고 비용을 절감하는 모범 사례에 대한 자세한 내용은 Amazon Athena의 10 가지 성능 튜닝 팁을 참조하십시오.
Athena를 사용하여 데이터 처리를위한 ETL(Extract, Transform and Load) 작업에 대해 설명합니다.
이 예는 CTAS (Create Table as Select) 및 INSERT INTO 문을 사용하여 데이터 세트를 분할하고 컬럼 데이터 형식으로 변환하여 분석을 위해 데이터 세트를 최적화합니다.
CTAS 문은 표준 SELECT 조회를 사용하여 새 테이블을 작성하여 필요에 따라 데이터를 필터링합니다.
CTAS 문을 사용하여 데이터를 분할하고 압축을 지정하고 Apache Parquet 및 Apache ORC와 같은 열 형식으로 데이터를 변환 할 수도 있습니다.
실행의 일부로 결과 테이블과 파티션이 AWS Glue 데이터 카탈로그에 추가되어 후속 쿼리에 즉시 사용할 수 있습니다.
INSERT INTO 문은 소스 테이블에서 실행되는 SELECT 조회 문을 기반으로 대상 테이블에 새 행을 삽입합니다.
소스 테이블의 기본 데이터가 CSV 형식이고 대상 테이블의 데이터가 파켓 형식인 경우 INSERT INTO는 데이터를 대상 테이블의 형식으로 쉽게 변환하고 적재 할 수 있습니다.
CTAS 및 INSERT INTO 문을 함께 사용하면 데이터의 초기 일괄 변환과 기존 테이블의 증분 업데이트를 수행할 수 있습니다.
Blog - Prepare data for model-training and invoke machine learning models with Amazon Athena
Amazon Athena는 SQL 쿼리에서 Amazon SageMaker에 직접 배포된 ML(machine learning) 모델을 사용하여 추론을 쉽게 실행할 수있는 새로운 기능의 공개 프리뷰를 발표했습니다.
SQL 쿼리에서 ML 모델을 사용하는 기능은 SQL 쿼리를 작성하는 것만 큼 간단한 이상 감지, 고객 코호트 분석 및 판매 예측과 같은 복잡한 작업을 수행합니다.
사용자는 이제 독점 데이터 세트에 대해 훈련 된 ML 모델을 사용하거나 Amazon SageMaker에 배포 된 즉시 사용 가능한 사전 훈련 된 ML 모델을 사용할 수 있습니다.
이제 텍스트 분석, 통계 도구 및 Amazon SageMaker에 배포 된 모든 알고리즘에서 다양한 ML 알고리즘을 쉽게 호출할 수 있습니다. 추가 설정이 필요하지 않습니다.
사용자는 Athena 콘솔, Athena API 및 Amazon QuickSight와 같은 도구에서 Athena의 JDBC 및 ODBC 드라이버를 사용하여 SQL 쿼리에서 ML 모델을 호출할 수 있습니다.
몇 초 안에 분석가는 추론을 실행하여 판매를 예측하고 응용 프로그램에 대한 의심스러운 로그인을 감지하거나 모든 사용자를 고객 집단으로 분류할 수 있습니다.
프리뷰에는 연합 데이터 소스에서 스캔 한 데이터에 대한 요금이 청구되지 않습니다. 그러나 Amazon S3에서 스캔 한 데이터에 대해서는 표준 Athena 요금이 청구됩니다.
또한 Amazon S3, AWS Lambda, AWS Glue, Amazon SageMaker 및 AWS Serverless Application Repository와 같이 Athena와 함께 사용하는 AWS 서비스에 대한 표준 요금이 청구됩니다.
예를 들어 스토리지, 요청 및 리전 간 데이터 전송에 대한 S3 요금이 청구됩니다. 기본적으로 쿼리 결과는 선택한 S3 버킷에 저장되며 표준 Amazon S3 요금으로 청구됩니다. AWS Lambda를 사용하는 경우 함수 요청 횟수 및 기간, 코드 실행 시간에 따라 요금이 부과됩니다.
...
Redshift
AWS re:Invent 2019: How to build your data analytics stack at scale with Amazon Redshift (ANT335-R)
...