DEA-C01合格の先にある「配属・評価・年収」の具体的アクションを、設計パターン/コスト最適化/可観測性まで踏み込んで体系化し、AWS公式の試験ガイド(配点・出題範囲・範囲外)に準拠しつつ、現場導入にそのまま使える粒度で解説します。

スポンサーリンク

取得することで何ができる人材だと伝わるか

DEA-C01が公式に担保する力: データ取り込み/変換、データストア管理、運用とサポート、セキュリティとガバナンス。

試験は計65問(スコア対象50+非採点15)130分$150

言語は日/英ほか。AI/MLモデル構築やビジネス結論提示は範囲外

  • 評価される実務像: 「作る・回す・守る」を通しで設計し、可観測性再処理設計まで手当できる人。
  • 主戦場: レイクハウス、DWH(Redshift)、ストリーミング、ガバナンス&カタログ。

試験範囲ドメイン→実務マップ(出題範囲の内訳)

  • ドメイン1:取り込み/変換(34%) … Kinesis / MSK / DMS / Glue / EMR、EventBridge / MWAA / Step Functions、CSV⇄Parquet / Iceberg、スループット・遅延・リプレイ設計
  • ドメイン2:データストア管理(26%) … S3 / Redshift / DynamoDB / Lake Formation、ライフサイクル、スキーマ進化、IaC
  • ドメイン3:運用とサポート(22%) … CloudWatch / Grafanaでの監視、再処理/自動化、Runbook
  • ドメイン4:セキュリティ/ガバナンス(18%) … IAM / KMS / CloudTrail / Macie、Lake Formationの列/行/セル制御、監査対応

範囲外: モデル学習や可視化レポートでの結論提示。つまり“データ基盤を作る・回す・守る”の専門家であると資格取得によりアピールすることができる。

業務領域ごとのアピール観点

A. レイクハウス(S3 + Iceberg + Athena/EMR/Glue)

選定基準: 多様ソース、半構造、探索的クエリが多い/データメッシュ志向。

  • 要点: IcebergのMERGE/UPDATE/DELETEタイムトラベルスキーマ/パーティション進化。Glue 5.0のSpark 3.5 & Python 3.11で最新最適化。
  • 落とし穴→対策: Athenaのスキャン課金Parquet+圧縮+パーティション+列選択で削減。ピークはProvisioned Capacityも検討。

B. DWH中心(Amazon Redshift)

選定基準: 厳しめのBI SLA、結合多め、安定高負荷・定型ジョブが多い。

  • 要点: Kinesis / MSKからのRedshift Streaming(S3レス取り込み)+マテリアライズドビュー
  • RA3 + Managed Storage: 計算と保存の独立拡張でコスト/性能最適化。
  • Concurrency Scaling: 同時実行ピークの自動スケール化(上限設定と利用監視でコスト抑制)。

C. ストリーミング(リアルタイム基盤)

選定基準: クリック/IoT/取引ログなど、秒〜分SLAのデータ処理。

  • 要点: Kinesisのシャード設計(スループット/パーティションキー)、DLQ/リプレイ、チェックポイント/冪等性。
  • 実装パターン: Kinesis → Redshift Streaming もしくは Kinesis → S3(Iceberg着地)→ 集計。

D. ガバナンス/カタログ(Lake Formation & DataZone)

選定基準: 部門横断共有、権限一元化、メタデータ運用が鍵の組織。

  • 要点: Lake Formationの列/行/セル制御、Glue/EMR/Redshift/Athenaとの連携。
  • DataZone: データ申請・公開のプロセス化(用語集・契約・使用目的の一元管理)。

コスト×性能×可観測性チェックリスト

スキャン系(Athena / Spectrum)

  • 目標: 月間スキャン量 ▲50〜90%
  • 施策: Parquet化、圧縮、パーティション、Predicate Pushdown、IcebergのZ-order/Manifest最適化、列選択の徹底。

DWH系(Redshift)

  • 目標: p95クエリ時間 ▲30%、ピーク時のキュー待ちゼロ
  • 施策: RA3採用、Concurrency Scaling上限と監視、MV/ソートキー/分配スタイル再設計、CTAS最適化。

ストリーミング系

  • 目標: E2E遅延 < 60秒、再処理SLA = 24h以内
  • 施策: シャード/パーティションキー設計、チェックポイント/冪等、Redshift Streaming直結またはS3着地→Iceberg集約。

可観測性(DataOps)

  • CloudWatch + Managed Grafana でSLO(スループット/遅延/エラー率/再処理時間)を標準可視化。
  • アラートは症状ベース(遅延p95・失敗率)と原因ベース(スロット/IO/スキャン量)で二層化。
対象 KPI 90日目標 主要施策
Athena スキャン量 / 実行時間 ▲50% / ▲30% Parquet圧縮、パーティション、列選択、Iceberg最適化
Redshift p95クエリ / キュー待ち ▲30% / 0 RA3、MV、Concurrency Scaling、WLM/ソートキー見直し
Streaming E2E遅延 / リプレイ時間 <60s / <24h シャード設計、冪等化、DLQ、チェックポイント

12か月キャリアアップ・ロードマップ(業務と作品の両輪)

0–3か月:可視化と“最小レイクハウス”

  • CloudWatch/GrafanaでパイプラインSLOダッシュボード(スループット・遅延・エラー率・再処理時間)。
  • S3 + Glue Catalog + Athena(Iceberg)で最小レイクハウス構築。CSV→Parquet→Icebergで同一クエリのスキャン量/時間を計測し記録。

3–6か月:ストリーミングPoC→本番導線

  • Kinesis → Redshift Streaming(MV)でS3レス取り込み。E2E遅延・再処理手順・DLQをRunbook化。
  • Lake Formationで列/行/セル制御監査ログを標準実装。

6–12か月:拡張とガバナンスの標準化

  • Glue 5.0 へ主要ジョブを移行(Spark/Python更新)。性能比較レポートを作り横展開。
  • Amazon DataZoneでデータ申請/公開フロー・用語集・責任分界を可視化。

“採用で刺さる”ポートフォリオ作品 3 点(合格基準つき)

① 最小レイクハウス(Iceberg版)

  • 構成: S3 + Glue Data Catalog + Athena(Iceberg)
  • 合格基準: CSV→Parquet→Icebergの同一クエリで、スキャン量/実行時間の3回平均比較表CTAS/MERGE/タイムトラベルの動作ログ添付。

② ストリーム → DWH 低遅延

  • 構成: Kinesis → Redshift Streaming(MV) → BI
  • 合格基準: E2E遅延 p95 < 60s、障害時のリプレイ手順、Concurrency Scalingとコスト見積り根拠を説明。

③ ガバナンスの実演

  • 構成: Lake Formation(列/行/セル)+ EMR/Glue/Redshift/Athena
  • 合格基準: ロール別ビュー差のスクリーンキャスト、権限変更の監査証跡を提示。

面接/現場での“語り方”テンプレ(ドメイン準拠)

  • 取り込み/変換: 「チェックポイント/冪等+リプレイ設計」「スロットリング回避」「スキーマ進化への追従(Iceberg/Glue)」
  • データストア: 「RA3で計算/保存独立」「ライフサイクルでコールド分離」「コスト・性能の意思決定根拠」
  • 運用: 「CloudWatch×GrafanaでSLO可視化」「アラート設計」「失敗時の自動再実行」
  • セキュリティ/ガバナンス: 「Lake Formationのセルレベル」「DataZoneの申請フローと責任分界」

年収相場観(日本/参考)と“伸ばす指標”

目安レンジ: 首都圏でおよそ600万〜1,000万。外資/コンサル/英語要件やクラウド成熟度で大きく変動。

年収を押し上げる実績(数字で語る):

  • Athena/Redshiftでのスキャン量/クエリ時間削減率(例:スキャン▲70%、p95▲35%)
  • StreamingのE2E遅延再処理SLA達成
  • Lake Formation/CloudTrailでの監査対応(列/行/セル制御+証跡)

次に取ると効く認定と順序

  • DAS-C01(Data Analytics – Specialty) … BI/分析の深堀り(DEAの土台を拡張)
  • DBS-C01(Database – Specialty) … RDB/DynamoDB/Redshiftの設計地力を強化
  • SAA-C03(Solutions Architect – Associate) … 横串の可用性・コスト最適化・ネットワーク設計

ありがちなつまずき → 予防策

  • Athena費用が読めない: 事前にTBスキャン試算、Parquet/Iceberg化+パーティション設計のA/B実測をレビュー必須項目に。
  • Redshiftピークで詰まる: Concurrency Scaling上限の設定と利用メトリクス監視の常態化。
  • ガバナンス後追い: Lake FormationのFGAC(列/行/セル)最初のスプリントで実装。DataZoneで申請/公開のプロセス化。

まとめ

DEA-C01はデータ基盤を“作る・回す・守る”実務力の証明です。
レイクハウス / Redshift / ストリーミング / ガバナンスのいずれかを主戦場に据え、可観測性と再処理設計、そしてコスト根拠まで一体で語れる人材になることが、市場価値を最大化する最短ルートです。