
Pandasとは
PandasはPythonで構造化データを解析する際に用いるライブラリです。
ここでいう構造化データとは行と列持ったデータでSQLデータベースやExcel等で管理されるものを指します。
その対をなす概念として非構造化データというものがありますが、それは画像や音声等の構造化データの形式に当てはまらないあらゆるデータを指します。
PandasはCSVやテキストファイル、Excel、SQLデータベース等のフォーマットのデータを読み書きすることができます。
3. データの可視化
3-1 下記のページを参考に、SalesPrice列の分布の情報を表示しましょう。

3-2 下記のページを参考にPandasの組み込み関数を使ってSalesPrice列のヒストグラムを表示しましょう。

3-3 OverallQaulはSalesPriceと高い相関がありました。この列について分析しましょう。
3-3-1 OverallQualの固有値 (unique value) を表示しましょう。

3-3-2 OverallQual列からピボットテーブルを作成し、SalesPriceとの関係を表示しましょう。 (集計には平均を使いましょう)
3-3-3 上のデータフレームを棒グラフとして表示しましょう。

3-4 YearBuilt列についても分析しましょう。
3-4-1 YearBuilt列の範囲を表示しましょう。

3-4-2 下記のページを参考にYearBuiltを10年ごとにビン分割(Binning)したYearBins列を生成しましょう。

※ビン分割とは数値を大まかな範囲で分割することです。1995, 2003, 2019をそれぞれ10ごとにビン分割すると1990~1999, 2000~2009, 2010~2019となります。
3-5 下記のページを参考にSalesPriceとYearBins、OverallQualとの関係を箱ひげ図(Box Plot)で表示しましょう。

3-6 下記のページを参考にSalesPriceとGrLivArea、GarageCars、GarageArea、 TotalBsmtSFの関係を分布図(Scatter Plot)として表示しましょう。

今回のアクティビティは以上です。
より高度なデータの可視化はmatplotlibやseabornを使うことで行うことができます。
あなたも、Avintonでこのような最先端技術を習得し活用してみませんか?
社員の成長を導きながら、AIやビッグデータなどの最先端技術をプロジェクトに活用していくことが私たちのビジョンです。Avintonの充実した技術研修でスキルアップを図り、あなたのキャリア目標を一緒に達成しませんか?