最初の章では、データの取得を行い、加工や結合をして機械学習で使用しやすい形にしました。
データの特徴を捉えるために、グラフツールによる可視化を行いまいました。実際の作業では、データの加工を行う前にも可視化したり関連を確認します。 今回は、pandas内部に持つmatplotlibの機能を用いてグラフ化しました。matplotlibやその他の可視化ツールを用いるともっと柔軟なグラフを出力することが出来ます。
機械学習については、scikit-learnの機能で各種モデルを試しました。scikit-learnには補助ツールが備わっておりテストデータの作成や評価用の関数などが備わっています。 機械学習はトライ&エラーを繰り返し行い、良いモデル、良いパラメータを探る必要があります。関数化を行い効率を上げることが求められてきます。Pythonの知識が必要になってきます。
最後に、機械学習の学習済みモデルを評価してみました。思ったより良い結果が出たと思います。
一つひとつ、確実に作業を行うことで、既存のデータから機械学習で自分自身の予測モデルができました。みなさんも身近なデータを使って予測をしてみてください。
以下の方にレビューなど協力をしていただきました。
以下のPyData.Tokyoコミュニティのハンズオンを参考にさせていただきました。
スラスラわかるPython(予約発売) : http://amzn.to/2r1P8nG
ネットラーニング W3シリーズ : http://stage.netlearning.co.jp/campaign/W3LP/index.html
In [ ]: