2015年8月31日月曜日

無料のスクレイピングサービス「import.io」が脅威の進化!(いつのまにか)

 以前から気になっていたのですが、久々に「import.io」のページを見たところ脅威の進化を遂げていたのでご紹介。


「import.io」って何?


 WEB上で超簡単に「スクレイピング」が出来るサービスです。「スクレイピング」という言葉自体、あまり馴染みがないと思いますが、HTMLで組まれた数表やレビューテキストからデータを抜き出す作業を意味します。

  以前、当ブログで紹介したR言語のパッケージ等を利用しても良いかと思いますが、ちょっと技術的にハードルが高い気もします。
他にはRubyで構文解析システムを使用したこともありますが、環境設定だけで心折れます(笑)

 「import.io」は、このようなプログラミング知識がゼロでも、数秒でサクっとデータを抜き出せる超絶便利ツールです。
以前からリリースされていたものの、ユーザーインタフェースがわかりづらく挫折しちゃいましたが、今度は余裕で理解出来ました。


使ってみよう!


 まずは、同社サイトでユーザー登録を済ませておいてください。無料です。
登録が完了しましたら「Sign in」の状態にしておいてください。


 以前、当ブログでも紹介した「J2順位表」ページにアクセスし、URLをコピペしておいてください。



 最初に掲載したimport.ioページのURL欄にURLをペースト後、「Try It Out」ボタンを押すと、下記のような画面になります。データ概要を確認したら左下の「Download CSV」ボタンを押してください。


 ダイアログが表示されます。「Download (  ) pages」の値を変更すると、同一フォーマットのページをクローリング(巡回)してデータを抜き出してくれます。


 ダウンロード直後のデータフォーマットです。R言語の「readHTMLTable関数」と比べると、行タイトルの抜き出しは出来ていませんが、それ以外は完璧です。


 「クローリング」精度については、他ページでも検証しましたが、ページ構成によって可否が別れるようです。同一ページを「Download (  ) pages」の値分ぐるぐる読み込んでいたケースもありましたので、ダウンロード後はしっかりご確認くださいね。

 参考ページ:(R言語)readHTMLTable関数でJ2の順位を音速で抜き出す。
http://sapporomkt.blogspot.jp/2015/07/rreadhtmltablej2.html

0 件のコメント:

コメントを投稿