データマイニングとは?

tball

組織が技術やツールを用いて長期間にわたって収集したデータから、記述的または将来予測的な有用な情報を抽出するプロセスです。

データマイニング

データマイニングとは、データセット内の情報を発見するプロセスです。データベースにおける知識発見(KDD)とも呼ばれます。データマイニングによって得られる成果には、保有するデータの記述と将来の予測の2種類があります。

データマイニングにおける最初の、そしておそらく最も難しいステップは、ビジネス目標の設定です。これは最も重要なステップでもあります。何を探しているのかが明確でなければ、必要な情報を得るために機械学習の種類、アルゴリズム、モデルを選択するのは困難です。

データマイニングは営業とマーケティングに役立ち、企業は顧客とマーケティングをより深く理解できます。学校や大学は、仮想教室での滞在時間、キー入力回数、学生が同時に受講した授業、テストの成績が良い授業など、学生の理解を深めるためにデータマイニングを活用できます。

企業もまた、データマイニングを活用して、製造、組立、故障、不具合など、さまざまな情報を把握することで業務を最適化できます。また、不正行為の検知にも役立ちます。銀行はデータマイニングを活用して、不正行為のパターンや、侵入された店舗を特定することも可能です。

2つ目のステップは、データの準備です。目的が明確であれば、データサイエンティストは適切なデータセットを決定し、ビジネスに役立つ情報を得ることができます。データサイエンティストは、この2つ目のステップで、データ、重複、欠落情報、外れ値をクリーンアップする必要があります。これらはすべて、データマイニングのアルゴリズムやツールが必要な結果を得られなくなる原因となります。

3つ目のステップは、モデルを構築し、パターンをマイニングすることです。ここで、以下の手法とツールが役立ちます。データマイニングでは、教師あり学習または教師なし学習の手法を用いたディープラーニングアルゴリズムを使用できます。

4つ目の最後のステップは、データマイニングから得られた結果を評価し、ビジネスに役立つ変更やアクションを実行することです。

データマイニング技術

データマイニング技術により、データサイエンティストや企業は大量のデータをより有効に活用できます。その技術には、以下のようなものがあります。

  • パターン追跡は、例えば嵐が近づいているときに雪かきスコップの売上が増加するといったパターンを特定するための基本的な技術です。ただし、ここで探しているのは、それほど明白ではないものです。
  • 分類は、データを異なるカテゴリに分類し、分類を割り当てるためのもう1つの技術です。例えば、銀行の顧客を金融履歴に基づいて、低リスク、中リスク、高リスクのクレジットカード顧客に分類できます。
  • 関連付けは、パターン追跡に関連するもう1つの手法です。特定の瞬間に関連付けられた変数を探します。例えば、顧客がパスタをショッピングカートに入れたときに、次にソースの選択肢があることに気づく、あるいはソースの次にパルメザンチーズがあることに気づくといったことです。
  • 外れ値検出は、例外や異常を探すためのデータマイニングのもう1つの手法です。例えば、通常は男性客が多い店舗で、6月に女性客の売上が急増するケースが挙げられます。これは、女性が父の日の1~2週間前に父親へのプレゼントを購入するからです。
  • クラスタリングは、分類手法と性質が似た別の手法です。クラスタリングでは、データは類似性に基づいてグループ化されます。顧客は、買い物頻度や可処分所得によって結び付けられる可能性があります。
  • 回帰は、過去の値に基づいて値を予測する手法です。回帰は、時間の経過に伴う平均値を求めます。住宅価格などは、現在の平均価格と比較して、時間の経過とともに少し高くなったり、少し低くなったりするからです。
  • 予測は、企業が将来の値を予測できるようにするデータマイニング手法です。

データマイニングツール

データマイニングツールは、データマイニングが企業の生産性に及ぼす効果を高めるために不可欠です。現在、特に優れたツールとして以下が挙げられます。

  • MonkeyLearn
  • RapidMiner Studio
  • Sisense for Cloud Data Teams
  • Alteryx Designer
  • Qlik Sense
  • Orange

MonkeyLearnはテキスト分析ツールです。オンラインレビューへの否定的な評価などの感情を検出したり、チケットのタグ付けやルーティングプロセスを自動化したりできます。

RapidMiner Studioは、ドラッグアンドドロップ式のインターフェースを備えたオープンソースプラットフォームで、プログラマー以外のユーザーでもユースケースをカスタマイズできます。不正検出や顧客離脱率の改善にも活用できます。プログラマー向けには、データマイニングをカスタマイズできるRおよびPython拡張機能も用意されています。また、優れたサポートコミュニティも提供されています。

Sisense for Cloud Data Teamsは、チームメンバーの技術レベルに関係なく、チームが連携してデータからインテリジェンスを抽出できるようにします。

Alteryx Designerを使用すると、データアナリストは1つのツールでデータの準備、ブレンディング、分析を行うことができます。

Qlik Senseは、「魅力的なチャートとグラフ」を備えた視覚化ソフトウェアツールです。ドラッグ&ドロップ機能で複数のデータソースを分析できます。

フェルナンド

Fernando Cardoso

プロダクトマネジメント担当バイスプレジデント

ペン

Fernando Cardosoはトレンドマイクロのプロダクトマネジメント担当バイスプレジデントとして、進化を続けるAIとクラウドの領域に注力しています。ネットワークエンジニアおよびセールスエンジニアとしてキャリアをスタートさせ、データセンター、クラウド、DevOps、サイバーセキュリティといった分野でスキルを磨きました。これらの分野は、今なお彼の情熱の源となっています。