MoneyForward Developers Blog

株式会社マネーフォワード公式開発者向けブログです。技術や開発手法、イベント登壇などを発信します。サービスに関するご質問は、各サービス窓口までご連絡ください。

dev

CRISP-DMに沿ってデータ分析する

こんにちは、CTO室AI推進部アナリストグループの足立です。私たちアナリストグループは、主に「プロダクトの課題発見のためのデータ分析」に取り組んでいます。ユーザの皆さんがサービスをより利用しやすくなるよう、データ分析によって得られた知見は様々な場面で活用しています。

 今回は、多くのデータアナリストが参考にしているであろう、CRISP-DMと呼ばれるデータ分析のフレームワークを紹介します。

CRISP-DM

 CRISP-DMは、Cross-industry standard process for data miningの頭文字の略であり、データ分析の道筋を表現したものです[1]。  CRISP-DMは、データを中心に、ビジネス理解から始まり共有・展開に至るまで、6つの工程があります。

では、各工程における作業をみていきましょう。

ビジネス理解

 この工程ではまず、ビジネス背景を理解し課題を選定します。課題は、現在の状態と将来の状態の差から考えてみましょう。

 次に、課題を解決するために存在する問題のうち、データを分析して解けるものに焦点を当て、分析の目標を設定します。このとき、分析の目標を達成したとみなす基準も決めておきます。例えば、モデルの精度や結果の根拠の解釈しやすさ、推論処理の速度などが挙げられます。

データ理解

 利用可能な状態にあるデータについて、データを取得・蓄積してきた背景を理解した上で、集計・可視化して傾向を理解します。

 集計は例えば、平均や標準偏差などの基礎統計量を計算します。可視化は例えば、ヒストグラムや散布図のようなグラフを描画します。これらの作業は、BI(Buisiness Intelligence)における作業と似ています。

 その結果、もしデータが目標を達成できそうにないものであれば、ビジネス理解に戻って問題を再度設定しましょう。

データ準備(前処理)

 予測など何らかのモデルを作成するために、データを機械が理解できる形(特徴量)へ変換します。特徴量は、データが持つ何らかの特徴を数値化したものです。解くべき問題によっては、特徴量と併せて正解(目的変数)も作成する必要があります。

 作成する特徴量と目的変数は、解くべき問題ごとに異なります。また、特徴量と目的変数の質は後述のモデルの精度を左右するため、時間をかけて取り組みむとよいでしょう。

モデル作成

 前処理した結果をもとに、統計解析や機械学習の手法を利用して、モデルを作成します。モデルは、特徴量の規則性を数式化したものです。この規則性は、機械が訓練と検証を繰り返しながら作成します(学習)。

 作成したモデルは、精度や誤差などの指標によって性能を測ります。目標達成基準にモデルの精度を設定していれば、それを満たしているかどうかを判断します。基準を満たしていなければ、データ準備に戻り、特徴量(や目的変数)の形を見直しましょう。

評価

 モデルが出力する結果から、分析の目標を達成できるか、さらに課題を解決できるかを評価します。もし、目標達成基準としてモデルの精度と結果の根拠の解釈しやすさの両方を設定しているとき、どちらを重視するかあるいは両立させるかを考えます。

 モデルの精度と結果の根拠の解釈しやすさは、トレードオフの関係にあります。もし、モデルの出力結果を材料に何らかの施策を立てたいとき、いくら精度が高くても根拠が不明瞭であれば実用できないかもしれません。

 重視する対象について評価し、具体的な行動に移せないときは、ビジネス理解に戻って分析問題の設定(ひいては課題の設定)から見直しましょう。

共有・展開

 分析の目標を達成できたら、実運用に向けて、得られたモデルを業務フローやシステムへ組み込みます。モデルは導入して終わりではなく、価値を保つために更新(再学習)し続けます。運用後に得られた情報は、適切な時期にモデルに反映すると良いでしょう。

まとめ

 CRISP-DMの全体像と、各工程で考えるべき内容や実行する作業の要点を紹介しました。これからデータ分析を始めようとするとき、この記事の内容が参考になれば幸いです。

参考文献

[1]Cross-industry standard process for data mining, https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining


マネーフォワードでは、エンジニアを募集しています。 ご応募お待ちしています。

【サイトのご案内】 ■マネーフォワード採用サイトWantedly福岡開発拠点京都開発拠点

【プロダクトのご紹介】 ■お金の見える化サービス 『マネーフォワード ME』 iPhone,iPad Android

ビジネス向けバックオフィス向け業務効率化ソリューション 『マネーフォワード クラウド』

おつり貯金アプリ 『しらたま』

お金の悩みを無料で相談 『マネーフォワード お金の相談』

だれでも貯まって増える お金の体質改善サービス 『マネーフォワード おかねせんせい』

金融商品の比較・申し込みサイト 『Money Forward Mall』

くらしの経済メディア 『MONEY PLUS』