とゆ日記

文章力アップのために頑張ります。

勉強メモ

勉強メモ

 

卒開

 

Python、クローリング&スクレイピングを読みながら基礎を学んでいく。

 

wget技評社のページをダウンロードし、treeコマンドで表示するはずだったが、Ubuntuにはデフォルトでtreeコマンドが入っていないため、インストール。

 

ダウンロードしたファイルをtreeコマンドで表示、ファイル構造が分かりやすく表示された。

その後、Unixコマンドを使用して初めてスクレイピングを行った。以下使用したコマンド。

wget・・・HTTP通信やFTP通信を利用して、サーバーからファイルやコンテンツをダウンロードできるコマンド

cat・・・引数で与えたファイルの内容を出力

grep・・・引数で与えた文字列が含まれる行を表示

パイプ・・・あるコマンドの標準出力を別のコマンドの標準入力にする、正規表現を使えばさらに細かくできる

cut・・・特定文字で区切られた文字の抜き出す

sed・・・特定条件に当てはまる行を置換したり、削除したりできる

正規表現・・・特定パターンの文字列を表すための文字列表現、パターンを表すメタ文字と呼ばれる記号を使用する