KATOエンジニヤリング開発日誌

「アウトプット無きエンジニアにインプットもチャンスも無い」の精神で書いています

Software-Design 2018年2月号のPythonライブラリの記事 3

2018年1月に発売された「Software Design 2018年2月号」のPythonライブラリの記事の第3章を読み終わりました。

www.kato-eng.info

www.kato-eng.info

第3章 データ分析の前処理をさくっと終わらせよう

データサイエンスの世界ではデータ分析の工程のうち、データの前処理に要する作業は全体の8~9割と言われている。確かに私がこれまで関わったビッグデータ分析のプロジェクトではデータの前処理部分の設計や実装に一番時間を掛けていた。

今回はデータの抽出・置換・型変換・集計・結合などを行い、分析をするためのデータ形式に加工するまでを学ぶ。

事前準備

Kaggleからサンプルデータを準備しておくのと、Jupyter Notebookが実行できる環境を用意する。

Kaggleからサンプルデータを取得

下記リンクから「multipleChoiceResponses.csv」と「conversionRates.csv」をダウンロードする。

https://www.kaggle.com/kaggle/kaggle-survey-2017/data

ダウンロードしたファイルは適当なワークディレクトリに格納しておく。

SD201802_chap3 $pwd
/Users/masayuki_kato/Python/kaggle/SD201802_chap3
SD201802_chap3 $ls
conversionRates.csv     multipleChoiceResponses.csv

必要なPythonライブラリをインストールする

SD201802_chap3 $pip3 install jupyter pandas matplotlib
Collecting jupyter
  Downloading jupyter-1.0.0-py2.py3-none-any.whl
Collecting pandas
  Using cached pandas-0.22.0-cp36-cp36m-macosx_10_6_intel.macosx_10_9_intel.macosx_10_9_x86_64.macosx_10_10_intel.macosx_10_10_x86_64.whl
Collecting matplotlib
  Downloading matplotlib-2.1.2-cp36-cp36m-macosx_10_6_intel.macosx_10_9_intel.macosx_10_9_x86_64.macosx_10_10_intel.macosx_10_10_x86_64.whl (13.2MB)
...省略...

Kaggleから用意したファイルが格納されているディレクトリでJupyter Notebookを起動する。

SD201802_chap3 $jupyter notebook

ブラウザにJupyter notebookの画面が表示される。

f:id:masayuki_kato:20180207101716p:plain

これ以降はJupyter notebookでコマンドを実行していく。

Jupyter notebookの内容はGithubに公開しています。

github.com