ITが世の中に浸透し、RPAという自動化ツールで仕事したり、Pythonなどのプログラミング言語を学ぶ人や学生が増加している。
それに伴い、Webでのデータ収集も、スクレイピングやクローリングの技術を習得し、ITリテラシーの向上を実現している人が大成功をおさめ始めている。
ビッグデータやAI企業を経営するコークが、オープンデータ、ソーシャルデータの世界を解説する!

引用元:IT経済新聞

ライター

コーク

「コーク」こと、永田浩一【元プログラマ】

ソフトバンク傘下の会社社長を経て
2005年にソフトバンクからMBO 現在IT企業グループ200社を経営

IT経済新聞:https://itkeizai.com
Twitter:https://twitter.com/coke_kouichi
Youtube:https://www.youtube.com/user/cokekouichi

元記事:まだブラウザ使ってるの?ネットで自動収集オープンデータの世界 スクレイピングとクローラによる情報収集のすすめ|IT経済新聞

動画内容

まだブラウザ使ってるの?

動画内時間(0:36〜)

情報収集はインターネットサーフィンやアプリからが行うのが一般的だが、今は自動的にWebサイトのデータを取得する「クローリング」が個人でもできる時代である。

【題目】
  • インターネットの情報収集といえばWebブラウザ、ネットサーフィン当たり前
  • 毎日同じサイトで同じ情報をメモして?
  • 専用サービスはアプリダウンロード?

    スクレイピング 必要なデータのみを切り取り取得する
  • クローラ 自動で複数サイトを自動巡回して、データをためる(Googleなどの検索エンジンのロボットもクローリング)

どういうデータを集めるの?

動画内時間(2:11〜)

自分の目的に合わせてデータを収集する。(例を一部ご紹介)

【題目】
  • 口コミ、噂、流行:Twitter
  • ニュース・株・為替:Yahooニュース、Yahooファイナンス
  • 商品売れ筋:Amazonランキング、書評
  • アプリランキング:App Store、Google  Play
  • 地図、写真、音声、動画データ
  • DB、統計データ、気象、交通、コロナ
  • スクレイピング禁止のサイトもあるので注意!

データ収集方法

動画内時間(5:10〜)

情報を公開しているサイトやサービスが多くあるため、そこからデータを収集する。(例を一部ご紹介)

【題目】
  • ブラウザ:Chrome、チャット:Slack
  • Excel VBA、Google Sheets Apps  Script
  • RPAツール: Winactor、UiPath
  • プログラミング言語:Python、Ruby、Node.js etc…
  • コマンド: WGet  テスト:Selenium

データ形式と正規表現

動画内時間(10:10〜)

どのようなデータ形式の情報を収集するのかに関してや、文字列を取り出す「正規表現」のご説明。

【題目】
  • Textデータ、HTML、CSS、JavaScript
  • XML、CSV、XLSX、JPEG、PDF
  • RSS、Atom、Web API、マッシュアップ
  • 正規表現の例
  •    .   ^   $   [   ]   *   +   ?   |   (   )

統計分析と視覚化

動画内時間(17:22〜)

収集したデータを視覚化や解析することで得られる事や、ツールの代表例をご紹介。

【題目】
  • データ分析、解析をして、わかりやすくする(視覚化)
  • 翻訳ツール、画像解析、動画解析
  • エクセルでもほとんどの分析が可能
  • Python プログラミング言語
  • NumPy PythonのNo1数学ライブラリ
  • Pandas 表や時系列データなどを扱う
  • Matoplotlib グラフ描画ライブラリ
  • Scikit-lean 機械学習ライブラリ

    監視社会 情報を取り返せ!

    動画内時間(20:26〜)

    多くの情報を取得し”取捨選択”することで得られること。

    【題目】
    • ネットで情報抜かれたくなければ、ネットをやめるしかない
    • 街で監視カメラに移りたくなければ外出をやめるしかない
    • 大手サービスほど個人情報狙われる
    • スクレイピングで、情報を集めろ!
    • どういう情報が価値があるのかが理解できる
    • セキュアな行動にもつながる
    • ITリテラシーの向上が重要!