실습
...
관련 URL
...
...
실습 아키텍처
draw.io Diagram | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
실습 URL
Lab | 구분 | URL |
---|---|---|
Lab0 | 사전작업 | httpshttp://wwwawsdemo.awsdemokr.comkr/bigdata/hol/Lab0.pdf |
Lab1 | Kinesis | httpshttp://wwwawsdemo.awsdemokr.comkr/bigdata/hol/Lab1.pdf |
Lab2 | Glue, Athena, QuickSight | httpshttp://wwwawsdemo.awsdemokr.comkr/bigdata/hol/Lab2.pdf |
Lab3 | EMR | httpshttp://wwwawsdem.awsdemokr.comkr/bigdata/hol/Lab3.pdf |
Lab4 | Redshift | httpshttp://wwwawsdemo.awsdemokr.comkr/bigdata/hol/Lab4.pdf |
Lab0. 주의사항: aws configure
...
error 대처
...
요령
경고 |
---|
ImportError: cannot import name AliasedEventEmitter |
...
코드 블럭 |
---|
sudo yum downgrade aws-cli.noarch python27-botocore |
...
Lab 4.
...
18페이지 아래 2번의 Format이 CSV가 아니라 JSON 입니다.
Lab3. EMR 실습 샘플 코드
https://github.com/setch3000/emr-s3
수정 완료 (2019-07-30)
펼치기 | ||||
---|---|---|---|---|
Page7. 5번에서 Security Group은 Default로 설정합니다. AWS 관리콘솔의 Redshift에서 제공하는 Query Editor를 사용하기 때문에 별도의 지정을 할 필요가 없습니다. (이해를 돕는 용도) Page9. PDF에서 코드 가져올 때, 에러 발생 할 수 있어서 제공
Page12. PDF에소 코드 가져올 때, 에러 발생할 수 있어서 제공
Page15. 오타 두 번째 쿼리가 더 빠르게 실행되는 것을 확인합니다. 이는 Amazon S3에서 읽는 데이터가 더 적기 때문 입니다. 데이터 볼륨이 클수록 실행 속도의 차이가 더 분명해 집니다. (다만 본 예제와 같이 데이터량이 작은 경우 그 차이는 미비합니다.) 또한, Amazon S3에서 읽는 데이터 양에 따라 Redshift Spectrum에 대 한 요금이 부과되므로, 쿼리 실행 비용도 줄어듭니다 | ||||
QuickSight 계정에 문제가 있을 때
펼치기 | |||||||
---|---|---|---|---|---|---|---|
AWS CLI command
|
Lab 4. Redshift
Page7. 5번에서 Security Group은 Default로 설정합니다. AWS 관리콘솔의 Redshift에서 제공하는 Query Editor를 사용하기 때문에 별도의 지정을 할 필요가 없습니다. (이해를 돕는 용도)
Page9. PDF에서 코드 가져올 때, 에러 발생 할 수 있어서 제공
코드 블럭 |
---|
create external table spectrum.sales(
salesid integer,
listid integer,
sellerid integer,
buyerid integer,
eventid integer,
dateid smallint,
qtysold smallint,
pricepaid decimal(8,2),
commission decimal(8,2),
saletime timestamp)
row format delimited
fields terminated by '\t'
stored as textfile
location 's3://awssampledbuswest2/tickit/spectrum/sales/'
table properties ('numRows'='172000'); |
Page12. PDF에소 코드 가져올 때, 에러 발생할 수 있어서 제공
코드 블럭 | |||
---|---|---|---|
COPY event
FROM 's3://id-redshift-uswest2/tickit/allevents_pipe.txt'
|
Page15. 오타
두 번째 쿼리가 더 빠르게 실행되는 것을 확인합니다. 이는 Amazon S3에서 읽는 데이터가 더 적기 때문 입니다. 데이터 볼륨이 클수록 실행 속도의 차이가 더 분명해 집니다. (다만 본 예제와 같이 데이터량이 작은 경우 그 차이는 미비합니다.) 또한, Amazon S3에서 읽는 데이터 양에 따라 Redshift Spectrum에 대 한 요금이 부과되므로, 쿼리 실행 비용도 줄어듭니다
참고 자료
Kinesis Agent를 이용해서 Data firehose로 데이터 전송
https://docs.aws.amazon.com/ko_kr/firehose/latest/dev/writing-with-agents.html
변경 했으면 하는 부분 요약
펼치기 |
---|
|