2016年4月24日日曜日

SPSS ModelerでJリーグスタッツ分析~得失点をサクっとグラフ化


 過去3回、SPSS Modelerで「データの読み込み~フィールド操作」までやってきましたが、正直なところ、地味作業で飽きてきました(笑)
今回は息抜きで、軽くグラフを出して悦に入ってみたいです。

SPSS ModelerでJリーグスタッツ分析(「データ読み込み」編)
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj.html

SPSS ModelerでJリーグスタッツ分析(「フィールド操作」編:前編)
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj_23.html

SPSS ModelerでJリーグスタッツ分析(「フィールド操作」編:後編)
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj_90.html

※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容である点をご留意ください。

「今回やりたいこと」の概要


 「ウイイレ」は好きだけど、昨年、初めて前職の部下に連れられて、スタジアムでサッカー観戦したぐらいのワタクシです。
「6・4・3のダブルプレー」とか、「シュアなバッティング」とか言われてもよくわからんのです。
えっ、野球ですか?・・・失礼しました。

 とりあえず、「他のチームと比べ結果(得点、失点、走った距離など)がイケていたのか、イケてなかったのか」をザックリみてから、各変数間の関係性などをみたいなと思いました。
そのために、各変数の平均を個別に計算して・・・あ~、もうModelerが嫌いになりそうです。


そんなアナタに「グローバル」!


 上記のように「複数のフィールドに対し、同じ処理をしたい」場合に、「グローバル」が便利です。
EXCELにもある「関数処理」なのですが、「うわっ!関数ダメゼッタイ!」な気持ちならなくても大丈夫。

1.「出力」パレットから「グローバルの設定」ノードを配置
 前回までのエントリーで色んなノードをつなげてストリームが長くなったこともあるので、「フィルター」ノードにつなげました。



2.「グローバルの設定」ノードでフィールドの選択
 「標準偏差」の右横にあるアイコンを選択し、「フィールドの選択」ダイアログを表示してください。
 いちいち、個別に選択するのが面倒なため、「すべての連続型フィールドを選択」を選びました。


3.「デフォルトの処理」で一括設定
 ダイアログを開くと、全てのチェックボックスが選択状態になっているのですが、「デフォルトの処理」で「平均」だけを選択した状態で、「デフォルトの処理をすべてのフィールドに適用」ボタンをクリックしてください。下記のように、「平均」フィールド」行だけが選択された状態になります。


4.「フィールド作成」ノードを配置
 「フィルター」ノードに「フィールド作成」ノードをつなげて、ダイアログ上段中央の「モード」で「複数」ラジオボタンを選択すると、下記(左側のダイアログ)画面になります。
「フィールドリスト」の「利用可能なフィールドの設定から取得」ボタンをクリックし、こちらも先ほど同様、「すべての連続型フィールドを選択」で一括選択してください。

 「フィールド名拡張子」は元フィールド名に追記されるフィールド名の一部となります。デフォルトは「接尾辞」になっており、元フィールド名の後ろに追記されるようになっています。

 右側ダイアログの式ビルダーでは、 プルダウンから「@関数」を選択し、下記のようなCLEM式を入力してください。

@FIELD - @GLOBAL_MEAN(@FIELD)

意訳: 複数モードとして選択された各FIELD値から、「グローバルの設定」で生成されたデータセット全体のFIELD値の平均値を引いてね。


5.「テーブル」ノードで確認
 おー、確かに先ほど複数指定した各フィールドにおける「平均値との差」フィールドが一式で追加されていますね。チョー便利。


6.「グラフ作成」パレットから「グラフボード」ノードを設置
 ほとんどこのパレットは初見だったのですが、とても簡単です。先ほど作成した「_平均との差」フィールド作成ノードにつなげてください。


7.「基本」タブからフィールド値と「散布図」を選択
 もう説明が不要なほど直感的ですね。散布図に使いたいフィールドとして、下記画面の2値を選択します。


 「詳細」タブで「データラベル」に「チーム名」を選択すると・・・ 


 サクっと散布図が出来ました。上位チーム順に「浦和レッズ・FC東京・サンフレッチェ広島」はいずれも右下のエリアにいますね。まぁ、サッカーの勝ち点制を考えると当然なのですが、このシーズン5位だった「川崎フロンターレ」は「点もとるけど、取られるチーム」だったことがわかりますね。


その他:SPSS Moder関連エントリー


SPSS ModelerでJリーグスタッツ分析(「データ読み込み」編)
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj.html

SPSS ModelerでJリーグスタッツ分析(「フィールド操作」編:前編)
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj_23.html

SPSS ModelerでJリーグスタッツ分析(「フィールド操作」編:後編)
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj_90.html

0 件のコメント:

コメントを投稿