【J-2】Webスクレイピング（初級）

[学習フェーズ]

事前学習として以下を学習してください。
※概要のみ記載しております。

Webスクレイピング
Webスクレイピングとは、Webサイト上に公開されている情報を自動的に収集する技術です。従来、手作業で行っていたデータ収集を効率化できるため、マーケティング調査や価格比較、競合分析など幅広い分野で活用されています。特に、Pythonのようなプログラミング言語と専用ライブラリを組み合わせることで、短時間で大量のデータを取得することが可能です。
ライブラリ
ライブラリとは、特定の機能を簡単に使えるようにまとめられたプログラムの部品です。計算や図形化、機械学習など様々なライブラリが存在します。
スクレイピング分野にもライブラリが存在し、HTML解析やブラウザ操作を行う役割を担います。たとえば、Pythonには「BeautifulSoup」や「Selenium」といった代表的なライブラリがあり、複雑な処理も短いコードで実現可能です。
example.com
「example.com」とは、インターネット関連の説明や技術文書、テスト環境などで使用されるサンプル用ドメイン名です。実際の運用目的ではなく、例示や検証、教育用途に限定して使われることを前提としています。これは、誤ってインターネット上の実在するサイトにアクセスすることを防ぐために、ICANN（Internet Corporation for Assigned Names and Numbers）によって予約されています。同様に、例示用ドメインとしては「example.net」や「example.org」も存在します。これらのドメインは、誰でも自由に使用できますが、商用利用や実際のサービス公開には使用できません。システム開発やWebサイトの説明資料で頻繁に登場するため、エンジニアやIT関係者にとっては馴染み深い存在です。

[実践フェーズ]

以下を参考に、Webスクレイピングを実施してみましょう。

https://www.octoparse.jp/blog/python-web-scraping

ReplitやGoogle Colabの場合、Requests・BeautifulSoup・Scrapyを使った動作検証が可能です。

+αとして、ライブラリについても深堀学習し、Requests・BeautifulSoupを使って他の要素も取得してみましょう。