取得することで何ができる人材だと伝わるか
DEA-C01が公式に担保する力: データ取り込み/変換、データストア管理、運用とサポート、セキュリティとガバナンス。
試験は計65問(スコア対象50+非採点15)・130分・$150。
言語は日/英ほか。AI/MLモデル構築やビジネス結論提示は範囲外。
- 評価される実務像: 「作る・回す・守る」を通しで設計し、可観測性と再処理設計まで手当できる人。
- 主戦場: レイクハウス、DWH(Redshift)、ストリーミング、ガバナンス&カタログ。
試験範囲ドメイン→実務マップ(出題範囲の内訳)
- ドメイン1:取り込み/変換(34%) … Kinesis / MSK / DMS / Glue / EMR、EventBridge / MWAA / Step Functions、CSV⇄Parquet / Iceberg、スループット・遅延・リプレイ設計
- ドメイン2:データストア管理(26%) … S3 / Redshift / DynamoDB / Lake Formation、ライフサイクル、スキーマ進化、IaC
- ドメイン3:運用とサポート(22%) … CloudWatch / Grafanaでの監視、再処理/自動化、Runbook
- ドメイン4:セキュリティ/ガバナンス(18%) … IAM / KMS / CloudTrail / Macie、Lake Formationの列/行/セル制御、監査対応
範囲外: モデル学習や可視化レポートでの結論提示。つまり“データ基盤を作る・回す・守る”の専門家であると資格取得によりアピールすることができる。
業務領域ごとのアピール観点
A. レイクハウス(S3 + Iceberg + Athena/EMR/Glue)
選定基準: 多様ソース、半構造、探索的クエリが多い/データメッシュ志向。
- 要点: IcebergのMERGE/UPDATE/DELETE・タイムトラベル・スキーマ/パーティション進化。Glue 5.0のSpark 3.5 & Python 3.11で最新最適化。
- 落とし穴→対策: Athenaのスキャン課金。Parquet+圧縮+パーティション+列選択で削減。ピークはProvisioned Capacityも検討。
B. DWH中心(Amazon Redshift)
選定基準: 厳しめのBI SLA、結合多め、安定高負荷・定型ジョブが多い。
- 要点: Kinesis / MSKからのRedshift Streaming(S3レス取り込み)+マテリアライズドビュー。
- RA3 + Managed Storage: 計算と保存の独立拡張でコスト/性能最適化。
- Concurrency Scaling: 同時実行ピークの自動スケール化(上限設定と利用監視でコスト抑制)。
C. ストリーミング(リアルタイム基盤)
選定基準: クリック/IoT/取引ログなど、秒〜分SLAのデータ処理。
- 要点: Kinesisのシャード設計(スループット/パーティションキー)、DLQ/リプレイ、チェックポイント/冪等性。
- 実装パターン: Kinesis → Redshift Streaming もしくは Kinesis → S3(Iceberg着地)→ 集計。
D. ガバナンス/カタログ(Lake Formation & DataZone)
選定基準: 部門横断共有、権限一元化、メタデータ運用が鍵の組織。
- 要点: Lake Formationの列/行/セル制御、Glue/EMR/Redshift/Athenaとの連携。
- DataZone: データ申請・公開のプロセス化(用語集・契約・使用目的の一元管理)。
コスト×性能×可観測性チェックリスト
スキャン系(Athena / Spectrum)
- 目標: 月間スキャン量 ▲50〜90%
- 施策: Parquet化、圧縮、パーティション、Predicate Pushdown、IcebergのZ-order/Manifest最適化、列選択の徹底。
DWH系(Redshift)
- 目標: p95クエリ時間 ▲30%、ピーク時のキュー待ちゼロ
- 施策: RA3採用、Concurrency Scaling上限と監視、MV/ソートキー/分配スタイル再設計、CTAS最適化。
ストリーミング系
- 目標: E2E遅延 < 60秒、再処理SLA = 24h以内
- 施策: シャード/パーティションキー設計、チェックポイント/冪等、Redshift Streaming直結またはS3着地→Iceberg集約。
可観測性(DataOps)
- CloudWatch + Managed Grafana でSLO(スループット/遅延/エラー率/再処理時間)を標準可視化。
- アラートは症状ベース(遅延p95・失敗率)と原因ベース(スロット/IO/スキャン量)で二層化。
対象 | KPI | 90日目標 | 主要施策 |
---|---|---|---|
Athena | スキャン量 / 実行時間 | ▲50% / ▲30% |
Parquet圧縮、パーティション、列選択、Iceberg最適化 |
Redshift | p95クエリ / キュー待ち | ▲30% / 0 |
RA3、MV、Concurrency Scaling、WLM/ソートキー見直し |
Streaming | E2E遅延 / リプレイ時間 | <60s / <24h |
シャード設計、冪等化、DLQ、チェックポイント |
12か月キャリアアップ・ロードマップ(業務と作品の両輪)
0–3か月:可視化と“最小レイクハウス”
- CloudWatch/GrafanaでパイプラインSLOダッシュボード(スループット・遅延・エラー率・再処理時間)。
- S3 + Glue Catalog + Athena(Iceberg)で最小レイクハウス構築。CSV→Parquet→Icebergで同一クエリのスキャン量/時間を計測し記録。
3–6か月:ストリーミングPoC→本番導線
- Kinesis → Redshift Streaming(MV)でS3レス取り込み。E2E遅延・再処理手順・DLQをRunbook化。
- Lake Formationで列/行/セル制御と監査ログを標準実装。
6–12か月:拡張とガバナンスの標準化
- Glue 5.0 へ主要ジョブを移行(Spark/Python更新)。性能比較レポートを作り横展開。
- Amazon DataZoneでデータ申請/公開フロー・用語集・責任分界を可視化。
“採用で刺さる”ポートフォリオ作品 3 点(合格基準つき)
① 最小レイクハウス(Iceberg版)
- 構成: S3 + Glue Data Catalog + Athena(Iceberg)
- 合格基準: CSV→Parquet→Icebergの同一クエリで、スキャン量/実行時間の3回平均比較表。CTAS/MERGE/タイムトラベルの動作ログ添付。
② ストリーム → DWH 低遅延
- 構成: Kinesis → Redshift Streaming(MV) → BI
- 合格基準:
E2E遅延 p95 < 60s
、障害時のリプレイ手順、Concurrency Scalingとコスト見積り根拠を説明。
③ ガバナンスの実演
- 構成: Lake Formation(列/行/セル)+ EMR/Glue/Redshift/Athena
- 合格基準: ロール別ビュー差のスクリーンキャスト、権限変更の監査証跡を提示。
面接/現場での“語り方”テンプレ(ドメイン準拠)
- 取り込み/変換: 「チェックポイント/冪等+リプレイ設計」「スロットリング回避」「スキーマ進化への追従(Iceberg/Glue)」
- データストア: 「RA3で計算/保存独立」「ライフサイクルでコールド分離」「コスト・性能の意思決定根拠」
- 運用: 「CloudWatch×GrafanaでSLO可視化」「アラート設計」「失敗時の自動再実行」
- セキュリティ/ガバナンス: 「Lake Formationのセルレベル」「DataZoneの申請フローと責任分界」
年収相場観(日本/参考)と“伸ばす指標”
目安レンジ: 首都圏でおよそ600万〜1,000万。外資/コンサル/英語要件やクラウド成熟度で大きく変動。
年収を押し上げる実績(数字で語る):
- Athena/Redshiftでのスキャン量/クエリ時間削減率(例:スキャン▲70%、p95▲35%)
- StreamingのE2E遅延と再処理SLA達成
- Lake Formation/CloudTrailでの監査対応(列/行/セル制御+証跡)
次に取ると効く認定と順序
- DAS-C01(Data Analytics – Specialty) … BI/分析の深堀り(DEAの土台を拡張)
- DBS-C01(Database – Specialty) … RDB/DynamoDB/Redshiftの設計地力を強化
- SAA-C03(Solutions Architect – Associate) … 横串の可用性・コスト最適化・ネットワーク設計
ありがちなつまずき → 予防策
- Athena費用が読めない: 事前にTBスキャン試算、Parquet/Iceberg化+パーティション設計のA/B実測をレビュー必須項目に。
- Redshiftピークで詰まる: Concurrency Scaling上限の設定と利用メトリクス監視の常態化。
- ガバナンス後追い: Lake FormationのFGAC(列/行/セル)を最初のスプリントで実装。DataZoneで申請/公開のプロセス化。
まとめ
DEA-C01はデータ基盤を“作る・回す・守る”実務力の証明です。
レイクハウス / Redshift / ストリーミング / ガバナンスのいずれかを主戦場に据え、可観測性と再処理設計、そしてコスト根拠まで一体で語れる人材になることが、市場価値を最大化する最短ルートです。
コメント