ITが世の中に浸透し、RPAという自動化ツールで仕事したり、Pythonなどのプログラミング言語を学ぶ人や学生が増加している。
それに伴い、Webでのデータ収集も、スクレイピングやクローリングの技術を習得し、ITリテラシーの向上を実現している人が大成功をおさめ始めている。
ビッグデータやAI企業を経営するコークが、オープンデータ、ソーシャルデータの世界を解説する!
それに伴い、Webでのデータ収集も、スクレイピングやクローリングの技術を習得し、ITリテラシーの向上を実現している人が大成功をおさめ始めている。
ビッグデータやAI企業を経営するコークが、オープンデータ、ソーシャルデータの世界を解説する!
引用元:IT経済新聞
ライター
コーク
「コーク」こと、永田浩一【元プログラマ】
ソフトバンク傘下の会社社長を経て
2005年にソフトバンクからMBO 現在IT企業グループ200社を経営
IT経済新聞:https://itkeizai.com
Twitter:https://twitter.com/coke_kouichi
Youtube:https://www.youtube.com/user/cokekouichi
元記事:まだブラウザ使ってるの?ネットで自動収集オープンデータの世界 スクレイピングとクローラによる情報収集のすすめ|IT経済新聞
動画内容
まだブラウザ使ってるの?
動画内時間(0:36〜)
情報収集はインターネットサーフィンやアプリからが行うのが一般的だが、今は自動的にWebサイトのデータを取得する「クローリング」が個人でもできる時代である。
【題目】
- インターネットの情報収集といえばWebブラウザ、ネットサーフィン当たり前
- 毎日同じサイトで同じ情報をメモして?
- 専用サービスはアプリダウンロード?
↓
スクレイピング 必要なデータのみを切り取り取得する - クローラ 自動で複数サイトを自動巡回して、データをためる(Googleなどの検索エンジンのロボットもクローリング)
どういうデータを集めるの?
動画内時間(2:11〜)
自分の目的に合わせてデータを収集する。(例を一部ご紹介)
【題目】
- 口コミ、噂、流行:Twitter
- ニュース・株・為替:Yahooニュース、Yahooファイナンス
- 商品売れ筋:Amazonランキング、書評
- アプリランキング:App Store、Google Play
- 地図、写真、音声、動画データ
- DB、統計データ、気象、交通、コロナ
- スクレイピング禁止のサイトもあるので注意!
データ収集方法
動画内時間(5:10〜)
情報を公開しているサイトやサービスが多くあるため、そこからデータを収集する。(例を一部ご紹介)
【題目】
- ブラウザ:Chrome、チャット:Slack
- Excel VBA、Google Sheets Apps Script
- RPAツール: Winactor、UiPath
- プログラミング言語:Python、Ruby、Node.js etc…
- コマンド: WGet テスト:Selenium
データ形式と正規表現
動画内時間(10:10〜)
どのようなデータ形式の情報を収集するのかに関してや、文字列を取り出す「正規表現」のご説明。
【題目】
- Textデータ、HTML、CSS、JavaScript
- XML、CSV、XLSX、JPEG、PDF
- RSS、Atom、Web API、マッシュアップ
- 正規表現の例
- . ^ $ [ ] * + ? | ( )
統計分析と視覚化
動画内時間(17:22〜)
収集したデータを視覚化や解析することで得られる事や、ツールの代表例をご紹介。
【題目】
- データ分析、解析をして、わかりやすくする(視覚化)
- 翻訳ツール、画像解析、動画解析
- エクセルでもほとんどの分析が可能
- Python プログラミング言語
- NumPy PythonのNo1数学ライブラリ
- Pandas 表や時系列データなどを扱う
- Matoplotlib グラフ描画ライブラリ
- Scikit-lean 機械学習ライブラリ
監視社会 情報を取り返せ!
動画内時間(20:26〜)
多くの情報を取得し”取捨選択”することで得られること。
【題目】
- ネットで情報抜かれたくなければ、ネットをやめるしかない
- 街で監視カメラに移りたくなければ外出をやめるしかない
- 大手サービスほど個人情報狙われる
- スクレイピングで、情報を集めろ!
- どういう情報が価値があるのかが理解できる
- セキュアな行動にもつながる
- ITリテラシーの向上が重要!