ニュース
» 2013年4月 1日 更新

データドリブンな時代を『データ柔術』で生き残ろう 第2回 「マーケティングプロセスとオープンソース・ソフトウエア」

Data Jujitsu5.png■はじめに:
広告会社のスタッフとして約25年間、いろいろなクライアント企業の宣伝ご担当の方々のお手伝いをさせていただいてきました。半数以上のご担当者は、文系の方が多かったと思います。
以前は非常に「もやっとした」アバウトなオリエンが多かったのですが、ビジネスにおいてKGIとかKPIが導入されたりしてきて
与えられる命題や求められるゴールも非常にクリアになってきています。
そうした中で、求められるレベルも大きく変わってきています。
これは、各所で語られているように、企業のデータ活用のレベルが向上しているからと言えます(いわゆるデータドリブン経営という指向)。当然、マーケターもそれに対応するため、新たな武装をしなければなりません。

 

■今求められるのマーケティングプロセス:

ビジネスにおけるデータ活用の段階とマーケティングプロセスとの関係をSAS社の資料を基にして私なりにまとめてみました。

第2回_図1.png
ここには、3つのポイントがあると考えています。
1つ目は、「なぜこうした現象が起きているのか」データから、これまで見えなかったファインディングを行うこと。ちょっと前からインサイトということが言われていますが、まさにこれまでにないインサイトを見出すこと。
2つ目は、「この傾向でいくとどうなるのか?」経験値からの判断で戦略を提案していたものをデータを根拠に効果を予測する こと。
3つ目は、「どうすれば最良の結果が得られるか?」ベストの選択は何か?(最適化)それがベストの選択であることを立証することが求められてきています。クライアント側から求められていなくても、それを提示することは自社の信頼性につながるかと思います。

 1つ目のインサイト発掘には、「統計解析やデータマイニングによる分析(機械学習など)」

 2つ目の効果予測には、「シミュレーションを可能にする"モデル"」

 3つ目には「数理最適化(シミュレーション)」 が必要になります。

この3つには、マーケターとしての知見も必要ですが、データサイエンスの技術が必要となります。
人間の手だけでは無理ですので、ここにソフトウエアの助けが必要となると思います。

 

■オープンソース・ソフトウエア(OSS)の台頭:
従来は高額の専門的な解析ソフト(数十万から数百万円)がそうした役割を担ってきました。SASのエンタープライズマイナーとかSPSSのModeler、Stasticaが代表的なものです。しかし近年オープンソース・ソフトウエア(以降OSS)が台頭してきました。

第2回_図2.png

図2はRexer社が実施したData Minerを対象にしたデータマイニングで使用しているソフトの調査結果(2013年実施)です。
SASやSPSS Stastics、STASTISICAを抑えて、第1位はRという結果になっています。またWEKAも第4位、RapidMinerも第6位と他のOSSも健闘しています。

では時系列推移をみてみましょう。

第2回_図3.png

 このグラフは各ソフトウェアのメインLISTSERVディスカッションリストで毎月電子メールトラフィック数の推移を示しています。
2010年をピークにRは急上昇し、11年以降はペースダウンしたもののトラフィックのTOPになっています。
逆にSASは2008年以降急激にダウンして、TOPの座をRに明け渡したばかりでなくStataにも抜かれています。
OSSがこれほど急激に使われるようになったのは、無料であるものが多く、かつ有料の商業ソフトウエアに匹敵する高い性能を備えるようになってきたことが、一つの要因と思われます。代表的なOSSの一部をご紹介いたしましょう。

 

■代表的なオープンソース・ソフトウエア(OSS)のご紹介:

1.統計解析・機械学習による分析・モデリングまで全般的に対応するOSS
1-1.統計言語環境 R
  http://www.okada.jp.org/RWiki/?R%20%A4%CE%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB
  R言語は、オープンソースで常に最新のソースが実装される多次元データ解析用のフリーソフトです。市販のソフトが数十万    程度するのに比べ、『R』は無料で使用することができます。 現在最もポピュラーで、大学教育、実務においても使用されることが多く、最新の研究結果が数千のパッケージとして提供されています。
  R本体においてはGUIがなく、複雑な分析においては、プログラミングが必要となることがあり、初心者にはちょっとしたハードルになりますが、豊富なパッケージ、高い作図能力など魅力的なOSSといえます。
  また、GUIを補うものとして、RのGUI環境となるRCommanderというパッケージやRStudioがあります。
  
1-2.WEKA
  http://www.cs.waikato.ac.nz/ml/weka/
  Weka (Waikato Environment for Knowledge Analysis) は、ニュージーランドのワイカト大学で開発した機械学習ソフトウェアです。データ解析(英語版)と予測モデリング(英語版)のための視覚化ツールとアルゴリズムの集合体であり、その機能を容易に扱えるグラフィカルユーザインタフェース(GUI)を備えています。
  SPSS Modelerのようなストリーミング操作、GUIを持つため、決定木やベイジアンネットワークも使いやすくなっています。
  
1-3.RapidMiner
  http://www.rapid-i-partner.jp/product/miner/
  Rapid Miner(ラピッドマイナー)は、オープンソースのデータマイニングツールです。スタンドアローンのデータ分析アプリケーションとして、また統合されたデータマイニングエンジンとして、世界40カ国以上の様々ユーザーに利用されています。
  OSS以外に、複数ユーザー使用、サポート機能のある有料のエンタープライズ版があります。
  RapidMinerはWekaの機械学習ライブラリを内包しています。

1-4.College Analysis
  http://www.heisei-u.ac.jp/ba/fukui/analysis.html
  福山平成大学 福井先生が自作された社会科科学用の統計解析ソフトです。多変量解析のみならず、線形計画法などのORに使える機能も備えています。GUIによるわかりやすい操作性、マニュアル、サンプルデータ充実し、初心者に使いやすいツールです。

2.日本語テキストマイニング用のOSS
2-1.KHCoder
  http://khc.sourceforge.net/
  KH Coderとは、内容分析(計量テキスト分析)もしくはテキストマイニングのためのフリーソフトウェアです。新聞記事・質問紙調査における自由回答項目・インタビュー記録など、社会調査によって得られる様々なテキスト型データを計量的に分析するOSSです。形態素解析のMeCab、MySQL、Rのigraphなどを内包しています。
  GUIによる操作性、分析手順に即したメニュー、マニュアルが充実しいることから初心者にも使いやすい日本語テキストマイニングツールといえます。
  
2-2.MeCab+R(RMeCab)
  https://code.google.com/p/mecab/
  MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現Googleソフトウェアエンジニア工藤拓氏によって開発さてたツールです。MeCabをRで操作するRMeCabというパッケージを使うことで、高度なテキストマイニングが実行できます。

2-3.Tiny Text Miner
  http://mtmr.jp/ttm/
  TTMはテキストマイニングの前処理のためのフリーウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成可能です。テキストデータを数値データとした集計した後は、通常データとして解析処理に引き継げばよいとう割り切りが特徴です。

3.ネットワーク解析用のOSS
3-1.Gephi
  http://oss.infoscience.co.jp/gephi/gephi.org/index.html
  Gephi は、あらゆる種類のネットワーク、複雑系、動的グラフおよび階層グラフのためのインタラクティブな可視化・探索プラットフォームです。Gephiは"グラフのPhotshop"と言われるほどすぐれ可視化性能をもっています。

3-2.NodeXL
   http://nodexl.codeplex.com/
   NodeXLは、Microsoft?Excelのネットワークグラフ作成用のOSSのアドインです。NodeXLを使用すると、Excelのワークシートに、ネットワークエッジのリストを入力することができ、Excelウィンドウの慣れた環境でグラフ作成やネットワーク特徴量の計算が可能です。
  
3-3.igraph(Rのパッケージ)
  http://igraph.sourceforge.net/
  igraphはRの代表的なネットワーク解析パッケージです。
  Rによる各種ネットワーク特徴量の算出、コミュニティ検出、ネットワーク描画が可能です。

ご参考として、代表的な有料のソフトウエアと上記のOSSの対応をご覧ください。

ソフトウエア一覧.pdf

 ※表中のソーシャルグラフ解析のところに、ご参考として、私のチームで開発した「INSIGHTMILL」というASPツールをご紹介
 させていただきました。これは、FACEBOOKを介した、クラスタリング、ソーシャルグラフ、インタレストグラフ、ソーシャル・
 インタレストグラフ機能をもつツールです。ご興味をお持ちいただいた方、ぜひご連絡ください。


■OSSを使いこなす「データ柔術」
1.No Free Lunch定理
 この定理は「あらゆる問題で性能の良い汎用最適化戦略は理論上不可能であり、ある戦略が他の戦略より性能がよいのは、現に解こうとしている特定の問題に対して特殊化(専門化)されている場合のみである」という物理学者 David H. Wolpert と William G. Macready が生み出した組合せ最適化の領域の定理があります。
 OSSを適切に使いこなすことにおいても、あてはまるのではないかと思います。
  汎用的な解析ソフトを使うのが良い場合、テキストマイニング、ソーシャルグラフ解析など特定目的には専用のOSSの方が使いやすい場合もあるかと思います。また、その人の熟練度によっても、プログラムコードを書くのを避けたいことなどを考え適切なツールを選択する場合もあるでしょう。
 
2.集合知の助けを借りる。
 Rが人気の高い理由の一つに、Rで分析実践をするノウハウを世界中(国内でも)の研究者が共有し、サンプルコードや様々なTipsが ブログや書籍などで共有されていることがあると思います。またRの勉強会も各種開催されています。
 先人の知恵を多いに活用すること。これは「データ柔術」のもう一つの柱ではないかと思っています。

3.今後の課題として
 商用ソフトでは、ビッグデータに対応できるModelerやSAS Enterprise Minerなどがあります。ビッグデータの分析は、OSSだけで完結させてみる。というのが私の興味関心なんですが、これについては、今後の課題とさせていただきたいと思います。


次回、第3回は、OSSと集合知について、お話ししたいと思います。

 

Copyright© 2017 ITmedia, Inc. All Rights Reserved.

Loading

プロフィール

久野 麻人

久野 麻人

大手広告会社を約15年勤務後、ネットベンチャーを経て現在、日本経済社に契約社員として勤務。リアルのプロモーションからネットプロモーション、統合的なマーケティング戦略までデータマイニングを駆使し、新たなマーケティング・プランニングを追い求めています。クルマ、IT系など他業種の企業のサポートを経験。Facebookで「Web Mining 勉強会」というページもやっています。 またフリーランスのマーケティングコンサルタントとしても活動しておりますので、ぜひご連絡をお待ちしております。

「マーケター通信」購読一覧