...
프리뷰에는 연합 데이터 소스에서 스캔 한 데이터에 대한 요금이 청구되지 않습니다. 그러나 Amazon S3에서 스캔 한 데이터에 대해서는 표준 Athena 요금이 청구됩니다.
또한 Amazon S3, AWS Lambda, AWS Glue, Amazon SageMaker 및 AWS Serverless Application Repository와 같이 Athena와 함께 사용하는 AWS 서비스에 대한 표준 요금이 청구됩니다.
예를 들어 스토리지, 요청 및 리전 간 데이터 전송에 대한 S3 요금이 청구됩니다. 기본적으로 쿼리 결과는 선택한 S3 버킷에 저장되며 표준 Amazon S3 요금으로 청구됩니다. AWS Lambda를 사용하는 경우 함수 요청 횟수 및 기간, 코드 실행 시간에 따라 요금이 부과됩니다.
Blog - Query any data source with Amazon Athena’s new federated query
Amazon Athena의 연합 쿼리
연합 쿼리는 데이터 분석가, 엔지니어 및 데이터 과학자가 관계형, 비 관계형, 객체 및 사용자 지정 데이터 소스에 저장된 데이터에 대해 SQL 쿼리를 실행할 수 있는 새로운 Amazon Athena 기능입니다.
고객은 Athena 연합 쿼리를 사용하여 단일 SQL 쿼리를 제출하고 온-프레미스에서 실행되거나 클라우드에서 호스팅되는 여러 소스의 데이터를 분석할 수 있습니다.
Athena는 AWS Lambda에서 실행되는 데이터 소스 커넥터를 사용하여 연합 쿼리를 실행합니다.
AWS는 Apache 2.0 라이센스에 따라 Amazon DynamoDB, Apache HBase, Amazon DocumentDB, Amazon Redshift, Amazon CloudWatch Logs, AWS CloudWatch Metrics, MySQL 및 PostgreSQL과 같은 JDBC 호환 관계형 데이터 소스를 위한 오픈 소스 Athena 데이터 소스 커넥터를 보유하고 있습니다.
고객은 이 커넥터를 사용하여 이러한 데이터 소스에서 Athena의 연합 SQL 쿼리를 실행할 수 있습니다. 또한 Query Federation SDK를 사용하여 고객은 독점 데이터 소스에 대한 커넥터를 구축하고 Athena가 데이터 소스에 대해 SQL 쿼리를 실행할 수 있습니다.
커넥터는 Lambda에서 실행되므로 고객은 Athena의 서버리스 아키텍처를 계속 활용하므로 최대 수요에 맞게 인프라나 규모를 관리 할 필요가 없습니다.
여러 애플리케이션에 분산된 데이터에 대한 분석을 실행하는 것은 복잡하고 시간이 많이 걸릴 수 있습니다. 응용 프로그램 개발자는 응용 프로그램의 기본 기능에 따라 데이터 저장소를 선택 합니다.
결과적으로 분석에 필요한 데이터는 종종 관계형, 키-값, 문서, 인 메모리, 검색, 그래프, 시계열 및 원장 데이터베이스에 분산됩니다. 이벤트 및 애플리케이션 로그는 종종 Amazon S3와 같은 객체 저장소에 저장됩니다.
이러한 소스에서 데이터를 분석하려면 분석가는 새로운 프로그래밍 언어와 데이터 액세스 구문을 배우고 데이터를 쉽게 쿼리하기 전에 데이터웨어 하우스로 추출, 변환 및로드 할 복잡한 파이프 라인을 구축해야 합니다.
데이터 파이프 라인은 지연을 초래하고 시스템 전체의 데이터 정확성 및 일관성을 검증하기 위해 사용자 정의 프로세스를 요구합니다.
또한 소스 응용 프로그램을 수정할 때 데이터 파이프 라인을 업데이트하고 수정을 위해 데이터를 다시 통계를 내야 합니다.
Athena의 연합 쿼리는 고객이 어디에 있든 데이터를 제자리에서 쿼리 할 수 있게 함으로써 이러한 복잡성을 제거 합니다.
분석가는 친숙한 SQL 구문을 사용하여 여러 데이터 소스에서 데이터를 결합하여 빠른 분석을 수행하거나 예약된 SQL 쿼리를 사용하여 후속 분석을 위해 Amazon S3에서 결과를 추출 및 저장 할 수 있습니다.
Athena Query Federation SDK는 AWS에서 제공하는 커넥터를 넘어 페더레이션 쿼리의 이점을 확장합니다. 100 줄 미만의 코드로 고객은 독점 데이터 소스에 대한 커넥터를 구축하여 조직 전체에서 공유 할 수 있습니다.
커넥터는 Lambda 기능으로 배포되며 Athena에서 데이터 소스로 사용하도록 등록되었습니다. 등록된 Athena는 커넥터를 호출하여 데이터 소스에서 사용 가능한 데이터베이스, 테이블 및 열을 검색합니다.
단일 Athena 쿼리는 여러 데이터 소스에 걸쳐 있을 수 있습니다. 데이터 소스에 대해 쿼리가 제출되면 Athena는 해당 커넥터를 호출하여 읽어야하는 테이블 부분을 식별하고 병렬 처리를 관리하며 필터 조건자를 푸시 다운합니다.
쿼리를 제출하는 사용자에 따라 커넥터는 특정 데이터 요소에 대한 액세스를 제공하거나 제한 할 수 있습니다.
커넥터는 쿼리에서 요청 된 데이터를 반환하기위한 형식으로 Apache Arrow를 사용하므로 커넥터를 C, C ++, Java, Python 및 Rust와 같은 언어로 구현할 수 있습니다.
커넥터는 Lambda에서 실행되므로 클라우드 또는 Lambda에서 액세스 할 수있는 온-프레미스의 모든 데이터 소스에서 데이터에 액세스하는 데 사용할 수 있습니다.
...
Redshift
AWS re:Invent 2019: How to build your data analytics stack at scale with Amazon Redshift (ANT335-R)
...