データ分析の技術
データベース
データの山から宝を見つけ出す技術!DWHに貯めて、OLAPで分析して、マイニングで発見するのが基本の流れ!
データ分析の技術
簡単にいうと
データの山から宝を見つけ出す技術!DWHに貯めて、OLAPで分析して、マイニングで発見するのが基本の流れ!
① BI(ビジネスインテリジェンス)の概念
BI(Business Intelligence)とは、企業内外の事実に基づくデータを体系的に蓄積・分類・検索・分析・加工して、各種の意思決定に有用な知識を生み出したり役立てたりする仕組みの総称です。これらを実現するためのソフトウェアをBIツールとよびます。BIツールの代表的な機能には、オンライン処理分析(OLAP)、業績管理、市場分析、販売分析などがあります。
② ビッグデータの分類
ビッグデータとは、大量かつリアルタイムに発生する構造化データおよび非構造化データ(半構造化データも含む)を蓄積し、それらを処理・分析するための技術の総称です。近年はデジタルデータの多様化に伴い、構造化データに加えて半構造化データならびに非構造化データの利活用の重要性が高まっています。
| 特性 | 構造化データ | 半構造化データ | 非構造化データ |
|---|---|---|---|
| 形式 | 定義されたスキーマ、テーブル構造 | 一定の構造(キーやタグなど) | 特定の形式やルールなし |
| 例 | リレーショナルデータベースのテーブル | XML、JSON、YAML、HTML | テキスト、画像、音声、動画 |
| データ収集の容易性 | 低い | 中程度 | 高い |
| 操作・分析の容易性 | 高い(SQLなどで操作) | 中程度(特殊なツールが必要) | 低い(特殊な技術が必要) |
| 柔軟性(目的以外の用途) | 低い | 高い | 高い |
| 主な用途 | トランザクション処理、レポート作成など | WebAPI、ログファイルの記録など | 画像認識、音声認識、自然言語処理など |
③ データウェアハウス(DWH)
データウェアハウス(DWH: Data WareHouse)とは、企業のさまざまな活動を介して得られた大量のデータを目的別に整理・統合して蓄積し、意思決定支援などに利用するために基幹業務用のデータベースとは別に作成するデータベースシステム環境のことです。
DWHの4つの特徴:
- 時系列に蓄積: データを時系列に蓄積し、過去のデータも保持する
- 一元化: データのネーミングルールや形式を統一して一元化する
- 参照専用: データの蓄積に主眼を置いており、格納されているデータは更新されない
- 意思決定支援: 経営判断や分析に活用することが主目的
④ OLAP(オンライン分析処理)
OLAP(Online Analytical Processing)は、BIツールの1つで、業績管理、市場分析、販売分析などの用途に使われます。DWHに蓄積されたデータを多次元的に分析するための技術で、以下の4つの操作があります。
| 操作 | 内容 |
|---|---|
| スライシング | DWHスキーマ内の中心に位置するファクトテーブルをある断面で切り取り、2次元の表にする操作 |
| ダイシング | ファクトテーブルについて、縦軸と横軸を自由に指定することで、サイコロの転がすように視点を切り替える操作 |
| ドリルダウン | 参照するデータをより深く掘り下げて詳細化する操作。反対に集約化したデータを見る操作をロールアップ(ドリルアップ)とよぶ |
| ドリルスルー | 集計データから関連付けられた別のレポート(詳細ページなど)へのリンクやナビゲーションを指す。別のデータセットにある関連情報へページ間を移動する点がドリルダウンとの違い |
⑤ OLAP実装方式
OLAPには3つの実装方式があります。
| 項目 | ROLAP | HOLAP | MOLAP |
|---|---|---|---|
| データストレージ | リレーショナルデータベース | リレーショナルデータベースと多次元データベースの両方 | 多次元データベース |
| レスポンス | 遅い | 中程度 | 速い |
| 最新情報の参照(リアルタイム性) | 優れている | 中程度 | 劣る |
ROLAP(Relational OLAP)はデータストレージにリレーショナルデータベースを使用してオンライン分析処理を行う方式です。MOLAP(Multidimensional OLAP)はデータストレージに多次元データベースを使用してオンライン分析処理を行う方式です。HOLAP(Hybrid OLAP)はデータストレージにリレーショナルデータベースと多次元データベースの両方を使用してオンライン分析処理を行う方式です。
⑥ ETL(Extract・Transform・Load)
ETLとは、さまざまなデータソースからデータを抽出(Extract)し、扱いやすいフォーマットに変換(Transform)し、データウェアハウスに書き出し(Load)て統合して格納する処理です。これら3つの処理の頭文字をとってETLとよび、ETLを実施するにはETLツールとよばれるソフトウェアを用います。
⑦ データクレンジング
データクレンジングとは、ETLツールを使い、データ形式や値の統一、異常値や欠損値の処理などを自動化することです。多様な形式で蓄積されている生データに対し、データ形式統一、単位統一などの処理を行い、横断的な解析ができるようにデータを整えることを指します。具体的には、データの誤り、重複、表記の揺れなどを洗い出し、異質なデータ(外れ値など)を取り除いてデータの品質を高める作業などを指します。
⑧ データマイニング
データマイニングとは、大量のデータを分析して、これまで知られなかった傾性や傾向など、何らかの知見を得ることです。データマイニングで利用される具体的な分析手法には、相関分析などがあります。
⑨ その他の用語
| 用語 | 内容 |
|---|---|
| データマッピング | 異なるシステム間において、同じ内容を示している項目同士を関連付けたり当てはめたりするルールや処理のこと。データマッピングを行うことで、あるシステムの特定項目を変更すると、関連付けられた別のシステムの項目に自動で反映される |
| データマイグレーション | 異なる種類のストレージ、フォーマット、コンピュータなどの間でデータを移行することです |
| データレイク | 構造化データ・半構造化データ・非構造化データを含む多様なデータをそのままの形式で格納する一元化されたリポジトリ(データやプログラムの情報が蓄積されたデータベース)です。データをそのままの形で保存できるため、スキーマをあらかじめ定義する必要がなく、データを構造化しておく必要がありません。また、データの可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行して、より的確な意思決定に役立てることができます |
| データスワンプ | どこにどのようなデータがあるかわからず、欲しいデータを把捉することができない状態のこと。管理不全のデータレイクが陥る状態 |
具体例
ある小売企業がデータ分析の技術をどのように活用しているか、流れに沿って見てみましょう。
この企業には全国100店舗のPOSデータ、ECサイトの購買ログ、顧客アンケートなど、複数のデータソースがあります。
ステップ1: ETLでデータを収集
まず、ETLツールを使って各システムからデータを抽出(Extract)します。次に、日付形式の統一や商品コードの名寄せなどの変換(Transform)を行い、最後にDWHに格納(Load)します。この過程でデータクレンジングも実施し、重複データの除去や表記揺れの統一を行います。
ステップ2: DWHに時系列で蓄積
DWHには過去5年分の売上データが時系列で蓄積されています。基幹システムのDBとは別に存在し、分析専用(参照専用)として運用されます。データはネーミングルールが統一され、一元管理されています。
ステップ3: OLAPで多次元分析
マーケティング担当者がBIツールでOLAP分析を行います。まずスライシングで「2025年の東京エリア」という断面を切り出し、次にダイシングで縦軸を「商品カテゴリ」、横軸を「月」に変えて売上傾向を確認します。気になるカテゴリがあればドリルダウンで「食品→菓子→チョコレート」と詳細レベルまで掘り下げます。
ステップ4: データマイニングで知見発見
さらにデータマイニングの相関分析を行うと、「チョコレートとコーヒーの同時購買率が高い」という知見が得られました。これを元に店舗レイアウトの改善やクロスセル施策を展開できます。
試験のポイント
- ・要は「DWH=データの倉庫(時系列蓄積・参照専用)、OLAP=多次元分析(ドリルダウン=詳細化が頻出)、ETL=抽出→変換→格納の3ステップ」
- ・ROLAP=RDB利用(リアルタイム性高)、MOLAP=多次元DB(レスポンス速い)、HOLAP=ハイブリッド
- ・データレイク=構造問わず格納、データスワンプ=管理不全のデータレイク
- ・データクレンジング=形式統一・異常値処理でデータ品質向上
独学で診断士合格を目指すなら
過去問演習・AI添削・テキストPDFまで
すべて揃ったプレミアムプランで合格を掴む!
予備校代の1/10以下で、独学の不安をまるごと解決
- 📝1次試験 過去問演習(全7科目・年度別)無制限プレミアム限定
- 🤖2次試験 AI添削(事例I〜IV・無制限)最適なフィードバックで実力アッププレミアム限定
- 📄科目別テキストPDFダウンロード。印刷して好きな使い方で学習できるプレミアム限定
- 🔖ブックマーク機能で苦手分野・何度も確認したい部分を管理プレミアム限定
- 📊学習記録・成績管理で自分の進捗を可視化プレミアム限定
プレミアムプラン
¥9,800(税込)
自動更新なし / 1年間有効
決済は Stripe(PCI-DSS準拠)で安全に処理されます。カード情報は当サービスに保存されません。