助け合いフォーラム

AWS

AWS ソリューションアーキテクト - アソシエイト(SAA-C03)
問題ID : 30607
問題を開く
ある企業では、オンプレミスのデータベースでBIツールを利用している。この度、データ量の増大に伴い、AWSクラウドへの移行を検討している。要件としては、引き続きBIツールを利用できること、増大するデータ量を処理可能な高いパフォーマンスであることである。
データ処理およびデータストアとして適切なサービスはどれか。(2つ選択)

正解

Amazon EMR

Amazon Redshift

解説

Amazon EMR(旧Amazon Elastic MapReduce)とは、ビッグデータの処理や分析を行うサービスです。ビッグデータを処理する既存のフレームワークであるHadoop(ハドゥープ)やSpark(スパーク)を用いています。
さらに、ビッグデータを分析し経営に役立てることを「BI:Business Intelligence」といい、代表的なBIツールにはMicrosoft ExcelやMicroStrategyなどがあります。Amazon EMRはこれらのツールにも対応しています。

Amazon Redshiftはペタバイト級のストレージに対応したデータウェアハウスです。データウェアハウス(DWH:Data WareHouse)とは、複数のシステムからデータを収集・統合・蓄積し、分析に使用するデータベースのことをいいます。

本設問のケースでは、高いパフォーマンスで処理を行いたいという点と、BIツールを利用したいという要件から、標準的なBIツールに対応したEMRで処理を行い、Redshiftをデータストアに活用するのがよいでしょう。
なお、RedshiftはEMRとも連携可能で、EMRクラスターのファイルシステムHDFSからデータを並列にロード(取り込み)することもできます。

したがって正解は
・Amazon EMR
・Amazon Redshift
です。

その他の選択肢については、以下のとおりです。

・AWS Glue
AWS Glueはフルマネージドのサーバーレスデータ統合サービスです。データのETL(Extract(抽出)・Transform(変換)・Load(書き出し))サービスともいい、RedshiftやS3などに保存されたデータを抽出し、分析しやすいようデータを変換したのち、データベースなどへ書き出す処理を行います。BIでデータを分析するための一段階前の処理であり、Glueにより変換したデータをEMRで分析するといった利用方法もあります。
本設問のケース「BIツールを利用したい」という点には適していないので、誤りです。

・Amazon EFS
Amazon EFSはNFS(Network File System)プロトコルをサポートするファイルストレージサービスで、複数のEC2インスタンスでストレージを共有する際に利用します。
本設問のケース「BIツールを利用したい」という点には適してないので、誤りです。

・Amazon Kinesis
Amazon Kinesisはストリーミングデータをリアルタイムで収集・処理するサービスです。Kinesisは、ビッグデータよりもストリーミングデータ向けのサービスなので、本設問の要件には適していません。よって、誤りです。

参考

【ビッグデータの活用とAmazon EMR】
現代の人々は、日々の暮らしや仕事をするうえで膨大な量のデジタルデータと共に生活しています。スマートフォンでの位置情報から、Webでのショッピング履歴などの情報、日々の気象情報など、何千何万というデータはリアルタイムに収集されて分析された結果、私達の生活に役立てられます。これらのデータはビッグデータと呼ばれます。
ビッグデータは、一つのコンピュータで扱えるデータ量ではありません。複数のコンピュータに少しずつ処理を分散し、演算を並列に行うことで、迅速に結果を得ます。このような処理を「分散処理」といいます。
さらに近年では、ディープラーニングや機械学習分野の発展により、従来よりも効率的かつ迅速にビッグデータを活用できるようになりました。
本項では、ビッグデータの分散処理および分析を行い、機械学習にも活かすことができるサービス「Amazon EMR」について説明します。

【Amazon EMR】
Amazon EMR(旧Amazon Elastic MapReduce)とは、ビッグデータの処理や分析を行うサービスです。ビッグデータを処理する既存のフレームワークであるHadoop(ハドゥープ)やSpark(スパーク)を用いています。
さらに、ビッグデータを分析し経営に役立てることを「BI:Business Intelligence」といい、代表的なBIツールにはMicrosoft ExcelやMicroStrategyなどがあります。Amazon EMRはこれらのツールにも対応しています。

■EMRのアーキテクチャ
データを複数のサーバーに配置して並列に処理する「分散処理」により、迅速かつ効率の良い処理を実現しています。


「分散処理」という名の通り、EMRでは3つの役割を持つノード(EC2インスタンス)でクラスターを構成し、処理を分散します。
・マスターノード
 クラスター全体を管理するノード。コアノードおよびタスクノードへ処理を投入したり分散処理の調整を行う。
・コアノード
 演算処理を実行するノード。データを保存するファイルシステムHDFS(Hadoop Distributed File System)を持つ。
・タスクノード(オプション)
 コアノードと同様に演算処理を実行する。ファイルシステムを持たない、演算処理専用のノード。

クラスター内のコアノードまたはタスクノードは、手動、または定めたポリシーなどに従って自動でスケーリングすることができます。

■HDFSとEMRFS(EMR File System)
EMRでは、ファイルシステムとしてHDFSとEMRFSを利用できます。

・HDFS(Hadoop Distributed File System)
分散処理ソフトウェア「Hadoop」のファイルシステムです。EMRではマスターノードとコアノードで利用します。
EMRクラスターが終了すると、HDFS上のデータは失われます。

・EMRFS(EMR File System)
Amazon S3をEMRクラスターからファイルシステムとして利用できるようにした機能です。
データを永続的に保持でき、EMRクラスターが終了してもデータは失われません。また、S3が持つ機能(データの暗号化やデータ読み込み時の強い一貫性のサポートなど)も備わっています。

なお、EMRの旧名称「Elastic MapReduce」の「MapReduce」とは、Googleが開発した、ビッグデータを分散処理するフレームワークのことです。

上に戻る

誤字

公開日 2023/02/09


redsfhit


redshift

スタッフからの返信

s staff_satomi

2023/02/10 11:00

route127様 ご指摘の点を修正いたしました。 ご報告いただきまして、誠にありがとうございます。

この投稿に対して返信しませんか?