• 日本語
    • English (英語)
Avinton JapanAvinton JapanAvinton JapanAvinton Japan
  • サービス
    • Avinton Data Platform
    • エッジ AIカメラ
    • AIサービス開発
    • 画像認識PoC
  • 最新情報
  • アカデミー
  • 採用情報
    • Avintonで働く魅力
    • 求人
    • よくある質問
  • 企業情報
    • 会社概要
    • 代表からご挨拶
    • CSR(企業の社会的責任)
  • お問い合わせ

Pandasによる構造化データ分析

  • Python3.6 と OpenCV のインストール (Ubuntu18.04LTS)
  • ルーティング
  • 見た目を美しくしてみましょう
  • NAT
  • 三目並べ – 2.〇×を交互にゲーム盤に入るようにしよう
  • カート内のアイテム個数を変更
  • 三目並べ – 3.勝敗がつくようにしよう
  • EC2からS3へ自動でぽいぽいアップロードするスクリプトの作成
  • 三目並べ – 4.「スタート」「リセット」ボタンをつけよう
  • 三目並べ – 5.先攻後攻を決めて、コンピュータ対戦にしよう(前編)
  • カートの設置
  • Ruby on Rails を MySQLでセットアップ
  • レイアウト調整
  • 機械学習入門者向け Support Vector Machine (SVM) に触れてみる
  • AWSアカウントの作成と必ずやるべきセキュリティ対策
  • VLAN
  • テスト
  • 機械学習を用いた画像分類
  • Ruby on Railsによる簡単なウェブアプリケーション
  • 正規表現とパイプ
  • 機械学習エンジニアに必要なスキル
  • Ubuntuの設定
  • PostgreSQL Setup
  • REDIS
  • Amazon EC2 インスタンスの初期設定をしよう
  • Pythonの設定
  • GNS3のセットアップ
  • viエディタ
  • AWSのEC2インスタンスでWordPressブログを公開してみよう
  • Pythonでデータベースを操作する
  • Python2.7とOpenCVのインストール
  • ファイル操作コマンド
  • OpenCVのテストプログラム
  • グループとユーザー
  • Pythonで画像を分類するプログラムを作成する
  • AWS CLIをインストールしてコマンド操作しよう
  • Virtualisation and Container (仮想化とコンテナ) – Ansible, Docker and Kubernetes
  • Windows Server 2012 R2 Hyper-V
  • 困った時に使うコマンド
  • PacketTracerのセットアップ
  • 一般グループのユーザーとグループ
  • AWS Route 53を使って独自ドメインのWebページを表示させてみよう
  • プライバシーポリシー
  • VMware ESXi サーバー構築
  • 三目並べ – 6.先攻後攻を決めて、コンピュータ対戦にしよう(後編)
  • フロントエンド開発のための環境構築
  • フロントエンドのデモンストレーション
  • APIのデモンストレーション
  • CISCO 1800ルータセットアップ
  • ファイル検索コマンド
  • ESXi – Switchの追加とVLAN
  • 質問
  • 仮想化環境のディスク容量を拡張する
  • ユーザー権限とアクセス権
  • 三目並べ – 0.導入
  • テキスト処理
  • ESXi - VyOS
  • データベースへのデータロード
  • 機械学習入門者向け Naive Bayes(単純ベイズ)アルゴリズムに触れてみる
  • CCNA
  • ESXi – 小規模ネットワーク 構築
  • ファイル管理
  • 機械学習入門者向け ChainerRLでブロック崩しの学習
  • AWS CLIを使ってEC2のファイルをS3へアップロードしよう
  • CSV import & export – Node.js, mySQL – 1
  • 機械学習入門者向け ランダムフォレストによる Kaggle Titanic生存者予測
  • CSV import & export – Node.js, mySQL – 2
  • PCからルータ、スイッチへのSSH接続設定
  • 【Python入門】Python Numpy チュートリアル
  • SQL 便利な関数
  • PostgreSQLによるデータ分析
  • 機械学習入門者向け 分類と回帰の違いをプログラムを書いて学ぼう
  • NodeJSでWebアプリケーション開発 – React編
  • Pythonによるマルチスレッドプログラミング実践
  • Certbotを使ってSSL証明書を発行し、HTTP通信を暗号化しよう
  • DockerとApacheを使ってWebサーバーを構築しよう
  • NodeJSでWebアプリケーション開発 – React編
  • Ruby on Rails インストール
  • AmazonEC2とVPCでネットワークとサーバーを構築しよう
  • AWS入門者向け 初心者が最初に理解すべきEC2とVPCの基本的な用語解説
  • Linuxとは
  • Pandasによる構造化データ分析
  • カート機能作成
  • Ruby on Rails Academy
  • ショッピングアプリケーション作成
  • ダイナミックルーティング
  • PostgreSQL – Python – Apache – Bootstrap
  • 三目並べ – 1.ゲーム盤を作ろう
Home Academy Pandasによる構造化データ分析

 

Pandasとは

PandasはPythonで構造化データを解析する際に用いるライブラリです。

ここでいう構造化データとは行と列持ったデータでSQLデータベースやExcel等で管理されるものを指します。

その対をなす概念として非構造化データというものがありますが、それは画像や音声等の構造化データの形式に当てはまらないあらゆるデータを指します。

PandasはCSVやテキストファイル、Excel、SQLデータベース等のフォーマットのデータを読み書きすることができます。

構造化データの処理はデータの大きさによって時間がかかるので、パフォーマンスのため重要なコードはCythonまたはC言語で実装されています。

 

 

Pandasでできること

データの変形やピボット、欠損値処理、結合、その他のデータ処理を簡単に行うことができます。

また、時系列データに特化した関数も幅広く用意されており、日付範囲作成や周波数変換、移動窓を用いた統計値や線形回帰、シフト、遅延などが使えます。

また、簡単なデータの可視化も行うことができます。

他のNumpy、statsmodels、 matplotlib、sklearn等の Pythonライブラリとも相性が良くデータ操作、および解析、そして機械学習で広く用いられています。

全くPandasに触れたことのない方はまずPandasの公式チュートリアルを一通り写経することをお勧めします。

 

 

アクティビティ

※今回のアクティビティではanaconda上のJupyter Notebookを使用します。

 

1. データ読み込み

今回使用するデータはボストンの住宅価格に関するデータです。

データはこちらからダウンロードしてください。

 

train_housingDownload

 

  1. Jupyter Notebookの新しいノートブックを作成してください。
  2. Pandasをインポートしてください。
  3. ダウンロードしたファイルをPandas Dataframeとして変数に格納してください。

 

 

2. データ操作

 

2-1 最初の五行を表示しましょう。

 

 

2-2 両データの次元数(行数, 列数)を確認しましょう。(テストデータにはSalesPriceがないため列数が1少なくなります。)

pandas.DataFrame.shape

 

 

2-4 全ての列の名前を表示しましょう。

 

 

2-5 列ごとの基本情報を表示しましょう。

pandas.DataFrame.info

 

 

2-6 数値データのみが入ったデータフレームを新しく作成しましょう。

pandas.DataFrame.select_dtypes

 

 

2-7 上で作成したデータフレームでSalesPriceと相関の高い上位10列を表示しましょう。

pandas.DataFrame.corr

 

 

3. データの可視化

 

3-1 SalesPrice列の分布の情報を表示しましょう。

pandas.DataFrame.describe

 

 

3-2 Pandasの組み込み関数を使ってSalesPrice列のヒストグラムを表示しましょう。

pandas.DataFrame.hist

 

 

3-3 OverallQaulはSalesPriceと高い相関がありました。この列について分析しましょう。

3-3-1 OverallQualの固有値 (unique value) を表示しましょう。

 

3-3-2 OverallQual列からピボットテーブルを作成し、SalesPriceとの関係を表示しましょう。 (集計には平均を使いましょう)

 

3-3-3 上のデータフレームを棒グラフとして表示しましょう。

 

 

3-4 YearBuilt列についても分析しましょう。

3-4-1 YearBuilt列の範囲を表示しましょう。

 

3-4-2 YearBuiltを10年ごとにビン分割(Binning)したYearBins列を生成しましょう。

pandas.cut

 

※ビン分割とは数値を大まかな範囲で分割することです。1995, 2003, 2019をそれぞれ10ごとにビン分割すると1990~1999, 2000~2009, 2010~2019となります。

 

3-5 SalesPriceとYearBins、OverallQualとの関係を箱ひげ図(Box Plot)で表示しましょう。

pandas.DataFrame.boxplot

 

 

3-6 SalesPriceとGrLivArea、GarageCars、GarageArea、 TotalBsmtSFの関係を分布図(Scatter Plot)として表示しましょう。

pandas.DataFrame.plot.scatter

 

今回のアクティビティは以上です。

より高度なデータの可視化はmatplotlibやseabornを使うことで行えます。

あなたも、Avintonでこのような最先端技術に日常的に
取り組んでみませんか?

優秀なエンジニアの成長を導きながら、AIやビッグデータなどの最先端技術を活用していくことが私たちのビジョンです。
Avintonの充実した技術研修でスキルアップを図り、あなたのキャリア目標を達成しませんか?

採用情報

採用情報

採用情報

Search

タグ

2017 2018 AI Avinton Avinton Academy Avinton Japan Avintonジャパン DX HTML Linux Python Ruby Webエンジニア アビントン アビントンジャパン アヴィントン アヴィントンジャパン イベント インフラエンジニア エンジニア グローバル サーバーエンジニア データサイエンス データサイエンティスト データベース データ解析 ニュービジネス研究会 ネットワークエンジニア ビックデータ ベンチャー 勉強会 就活 就職活動 成長 技術インターン 採用 新規事業 横浜 機械学習 機械学習エンジニア 派遣 第二新卒 経営者交流会 英語 起業
© 2020 Avinton | All Rights Reserved | プライバシーポリシー
  • サービス
    • Avinton Data Platform
    • エッジ AIカメラ
    • AIサービス開発
    • 画像認識PoC
  • 最新情報
  • アカデミー
  • 採用情報
    • Avintonで働く魅力
    • 求人
    • よくある質問
  • 企業情報
    • 会社概要
    • 代表からご挨拶
    • CSR(企業の社会的責任)
  • お問い合わせ
  • 日本語
    • English (英語)
Avinton Japan