データマイニング
でーたまいにんぐ
ひとことで言うと
大量のデータから統計・機械学習手法を用いて有用なパターンや知識を自動的に発見する技術。
解説
大量のデータから統計学や機械学習の手法を用いて、有用なパターンや知識を発見する技術。相関分析、クラスタリング、分類、回帰分析などの手法が用いられる。マーケティングにおける顧客分析や不正検知、需要予測など、ビジネスの様々な場面で活用されている。
くわしく解説
データマイニングとは、データベースやデータウェアハウスに蓄積された大量のデータを解析し、人間が気づきにくい隠れたパターン・相関関係・傾向を発見する技術の総称である。主な手法として、変数間の関係を見つける相関分析、データを類似グループに分ける クラスタリング、過去データから規則を学習して新データを分類する分類、数値を予測する回帰分析、「AとBを一緒に購入する傾向がある」といった関連規則を発見するアソシエーション分析などがある。小売業での購買行動分析(マーケットバスケット分析)、金融機関での不正検知、医療診断支援、顧客離反予測など幅広いビジネス分野で活用される。BIツールやAIと連携した高度な分析基盤の中核技術として重要性が増している。
具体例で考えよう
スーパーマーケットがPOSデータをデータマイニングで分析したところ、「おむつを購入した顧客は缶ビールも一緒に購入する傾向がある」というパターンを発見し、売り場レイアウトの改善に活用した。
試験対策ポイント
データマイニングの代表的手法(クラスタリング・分類・回帰・アソシエーション)の違いを整理すること。データウェアハウスやOLAPとの違い・関係も頻出。教師あり・なし学習との対応も確認。