とゆ日記

文章力アップのために頑張ります。

pythonスクレイピング本第一章読了

第一章ではプログラミング言語やライブラリを使わず、Unixコマンドのみでクローリング、スクレイピングを行った。

 

序盤は説明が多かったが、中盤からクローリングしたファイルから情報を抜き出すために正規表現を使用され、なかなか思いつかず苦労した。(泣)30分ぐらい考えてやっと指定のデータを抜き出せたと思ったら本ではもっと短くわかりやすいコマンドを使っていたり・・・・。

 

つらいぜ。

勉強メモ

勉強メモ

 

卒開

 

Python、クローリング&スクレイピングを読みながら基礎を学んでいく。

 

wget技評社のページをダウンロードし、treeコマンドで表示するはずだったが、Ubuntuにはデフォルトでtreeコマンドが入っていないため、インストール。

 

ダウンロードしたファイルをtreeコマンドで表示、ファイル構造が分かりやすく表示された。

その後、Unixコマンドを使用して初めてスクレイピングを行った。以下使用したコマンド。

wget・・・HTTP通信やFTP通信を利用して、サーバーからファイルやコンテンツをダウンロードできるコマンド

cat・・・引数で与えたファイルの内容を出力

grep・・・引数で与えた文字列が含まれる行を表示

パイプ・・・あるコマンドの標準出力を別のコマンドの標準入力にする、正規表現を使えばさらに細かくできる

cut・・・特定文字で区切られた文字の抜き出す

sed・・・特定条件に当てはまる行を置換したり、削除したりできる

正規表現・・・特定パターンの文字列を表すための文字列表現、パターンを表すメタ文字と呼ばれる記号を使用する

 

 

 

今後の予定

卒論

スクレイピングをするために、Ubuntuを導入する。

Ubuntu用のHDD、インストール用のUSBメモリを購入する ○

HDDを取り付け

パーティション分け

USBにUbuntuインストール

Ubuntuインストール

 etc

就活準備

添削してもらった自己PR等を手直しする

「これが本当のSPI3だ」を進める

志望企業の目処をつける

etc