はじめに
データ分析 Basicコースでは、データ分析の基礎知識・簡単なデータ処理および可視化のスキルを習得することができます。
BasicコースはPart1とPart2の2つのコンテンツから構成されており、Part1では「データ分析の基礎知識の習得・簡単なデータ処理」、Part2では「データの可視化・データ分析の実践」に取り組んでいただきます。
データ処理とは
データ分析の一部で、データの収集・加工・可視化を行うことにより複雑なデータを誰もが使えるものにすることを目的とします。
客観的な情報に基づいて合理的な意思決定を行うというデータ分析最大のメリットを生かすには、データの取捨選択、適切な見せ方などデータ処理の工程が非常に重要です。
データ処理の流れ
収集:必要なデータを集める
正しい分析結果を得るため目的にあったデータを選びます。
処理・加工:データを使いやすいものに変える
データ分析をするうえで最初から完璧なデータはほとんどありません。
分析がしやすい状態に加工する工程は非常に重要です。
<データ処理の例>
列・行の追加:新しくデータを作って追加、不要なデータを削除
欠損値処理 :欠けてしまったデータを補完あるいは削除
結合 :データ同士を横方向や縦方向に結合
可視化:複雑なデータを見える化する
きれいに加工したデータもそのままでは分かりづらいです。
グラフや図を使ってデータを誰でもよくわかる状態にします。
<データ可視化の例>
棒グラフ:複数の対象データの比較が可能
折れ線:年ごとや月ごとなど時系列での推移を知る
マップ:場所やエリアに色付け、プロット
データ処理ツール Google Colaboratory
Google colaboratoryとは誰でも簡単にPythonを記述、実行して機械学習やデータ分析を行うことができるサービスです。
本来Pythonを使うにはソフトやツールを別でインストールするなど環境構築をする必要があります。
しかし、このサービスにはGoogleアカウントさえあればすぐにPythonを記述し実行することができる環境が整っています。
また、他のGoogleサービスと同様に共有ボタンから簡単にコードをシェアできることも特徴のひとつです。
Googleアカウントを作成したことを確認したらさっそく使ってみましょう!
Google Colaboratoryの操作
- Google Colaboratoryを開いたらノートブックを新規作成します。
- ノートブックを作成するとセルと呼ばれる記述欄が一行表示されます。ここにコードを書きます。
- コードを書いたらセルの一番左にあるを押下or「Shift」+「Enter」で実行します。
- ファイルメニュー内のマークを押すと、PC内のファイルをアップロードすることができます。
データ処理チュートリアル
データ分析に適したPythonライブラリ「Pandas」を使ってデータ分析のチュートリアルを行っていきます。
Pandas_チュートリアル.ipynbをダウンロードしたら以下の手順に従って開始しましょう。
なお、本チュートリアルは参考に掲載しているPandas公式ドキュメント「10minutes to Pandas」から抜粋して作成しています。コードが分からない場合には処理内容が書かれたテキストに対応するコードを見てみましょう。
1. Google Colaboratoryを開く
2. アップロード – ファイルを選択からダウンロードした「Day1_Pandas_チュートリアル.ipynb」を選択
3. テキストに書かれている処理内容に従ってコードを書いていきましょう
演習
最後にデータ処理の演習です。
Avintonアカデミー Pandas構造化データ分析のタスクに取り組みます。
1. Day2_Pandas構造化データ分析.ipynbをダウンロード
2. train_housing.csvをダウンロード
3. チュートリアル同様の手順でGoogle Colaboratoryで「Day2_Pandas構造化データ分析.ipynb」を開きます
4. ダウンロードした「train_housing.csv」ファイルをGoogle Colaboratory上にアップロード
5. 一行目のセルに下記のコードを書いて実行したら、アカデミー内「2-1 下記のページを参考に最初の五行を表示しましょう。」からスタートしてください。
1 2 3 |
import pandas as pd df = pd.read_csv("train_housing.csv") |