2016年1月12日火曜日

分析の常識が変わる?「Watson Analytics」すげー!!


 以前、IBMが提供する「Bluemix」を使って過去の名作を「Watson」に分析させてみました。

いま話題のIBM「Bluemix(ワトソンくん)」が「老人と海」をサマったら。
http://sapporomkt.blogspot.jp/2015/11/ibmbluemix.html

 使った直後にビックリしましたよ。
こんなに簡単に分析出来るとは思っていなかったので。
通常、データ分析を行う際、「分析環境」を作るだけでも大仕事です。場合によってはそこで挫折することもありますね。

 それがモノの数分でデータ投入から分析アウトプットまで出力出来ちゃうのですから、テクノロジーの進歩は凄いです。

 今回は、「Watson」の技術を中核にしているIBMのクラウド型分析ソリューション「Watson Analytics」を動かしてみます。


<2016年1月15日(金)追記>
「IBM Analytics Japan」の公式アカウントさんにご紹介頂きました!



下準備


 「R言語」の勉強でも頻繁に利用される「タイタニック」のデータセットを利用します。
レオナルド・ディカプリオ主演の人気映画にもなっているので、皆さんご存知だと思いますが、一応、ご説明を。


”処女航海中の1912年4月14日深夜、北大西洋上で氷山に接触、翌日未明にかけて沈没した。犠牲者数は乗員乗客合わせて1,513人(他に1,490人、1,517人、1,522~23人など様々な説がある)であり、当時世界最悪の海難事故であった。その後、映画化されるなどして世界的にその名を知られている(Wikipediaより)。”

 上記事故に関する生存者/死者等に関する統計データが下記で公開されているのでダウンロードしてください。

The "Unusual Episode" Data Revisited
https://www.amstat.org/publications/jse/v3n3/datasets.dawson.html


「Watson Analytics」で分析してみた。


 まずは、「IBM ID」を取得してください。無料です。

IBM Watson Analytics
https://www.ibm.com/analytics/watson-analytics/

https://www.ibm.com/analytics/watson-analytics/

 次に、「Titanic」のデータを投入しましょう。「Watson Analytics」のメニュー画面から「Add」をクリックしてください。下記画像では、別作業で作ったデータセット等が表示されていますが、初めて利用された方には何も表示されないはずです。


「Or add your data」にある「Drop file or browse」から先ほど採取した「Titanic」データを選択するだけです。


画面一番左側に「Titanic」と表示されていますね。ホントにこれだけでデータ投入が完了しちゃいます。
R言語で同じことをしようとすると、
setwd("ファイルパス指定")
titanic.dat <- read.csv("titanic.csv", header=TRUE, sep=",") 的なことになりますが、いやー、とっても簡単です!
(※「titaic」はRのデータセットでデフォルトで入っているので、read.csvは不要ではありますが)


先ほど設定した「Titanic」データセットを選択すると下記のような分析メニュー候補が表示されます。「Watson」がデータ内容を自動的に解釈して最適な分析メニューを提示してくれます。


性別毎の生存者数をグラフ化してくれます。この海難事故では男性よりも女性が優先的に救助ボートに乗せられたことが知られていますが、その通りのグラフになっていますね。


「How do the values of Freq compare by Sex and Survivied?」 の「Sex」をクリックすると別のデータ項目に変更出来ます。今度は、「Age」で見てみましょう。
こちらも「子供」が優先的に救助ボートに乗せられたことが結果からわかりますね。


一応、客室クラス別も載せておきます。乗組員や3等客室の乗客の生存率が低かったことがわかりますね。


ちなみに、グラフフォーマットも先ほどのメニュー画面からクリックひとつで変更可能です。
2枚目のフォーマットはデータ項目数が多い場合は重宝しそう。



また、画面下部にあるフィルタも初見は「?」ですが、慣れると簡単です。
「Survived(生存者)」で「Yes」をクリックすると、当該母集団だけでフィルタをかけてグラフ化してくれます。


他にも様々な機能があって勉強中ですが、個人的にはいままでの分析の常識が変わるぐらい、ものすごいポテンシャルを秘めた仕組みだと思います。無料でも十分楽しめますので、ご興味ある方は、是非、一度ご利用されてはいかがでしょうか。


<その他の参考エントリー>
「データ・ビジュアライゼーション」でも便利な「Watson Analytics」。
http://sapporomkt.blogspot.jp/2016/01/watson-analytics_13.html

 いま話題のIBM「Bluemix(ワトソンくん)」が「老人と海」をサマったら。
http://sapporomkt.blogspot.jp/2015/11/ibmbluemix.html

「Watson」先生に、AdSenseビンボーの理由を聞いてみた・・・
http://sapporomkt.blogspot.jp/2016/01/watsonadsense.html

0 件のコメント:

コメントを投稿