• 日本語
    • English (英語)
Avinton JapanAvinton JapanAvinton JapanAvinton Japan
  • サービス
    • Avinton Data Platform
    • エッジAIカメラ
      • 自動車ナンバープレート自動認識システム
    • プライベートクラウド
    • AIサービス開発
    • AIカメラ/画像解析無料体験版
  • 最新情報
    • ニュースリリース&イベント情報
    • 技術ブログ&インタビュー
  • アカデミー
    • Avintonアカデミー
    • Academy on Campus
    • Academy with Platform
  • 採用情報
    • Avintonジャパン 採用ページ
    • 求人一覧
    • よくある質問
    • 新卒採用
  • 企業情報
    • 会社概要
    • 代表からご挨拶
    • SDGsへの貢献
  • お問い合わせ

Pandasによる構造化データ分析

  • ルーティング
  • データベースの命名規則
  • 三目並べ – 2.〇×を交互にゲーム盤に入るようにしよう
  • 三目並べ – 3.勝敗がつくようにしよう
  • クリーンコード(Clean Code)
  • 三目並べ – 4.「スタート」「リセット」ボタンをつけよう
  • 三目並べ – 5.先攻後攻を決めて、コンピュータ対戦にしよう(前編)
  • インフラストラクチャー(サーバー、コンポーネント、RAID)
  • 機械学習入門者向け Support Vector Machine (SVM) に触れてみる
  • YOLOv8を用いた物体検出
  • 正規表現とパイプ
  • 機械学習エンジニアに必要なスキル
  • 軽量版Kubernetesディストリビューション – k0s クラスターの構築
  • ファイル操作コマンド
  • グループとユーザー
  • 困った時に使うコマンド
  • 一般グループのユーザーとグループ
  • プライバシーポリシー
  • 三目並べ – 6.先攻後攻を決めて、コンピュータ対戦にしよう(後編)
  • フロントエンド開発のための環境構築
  • ファイル検索コマンド
  • 質問
  • 仮想化環境のディスク容量を拡張する
  • ユーザー権限とアクセス権
  • データ分析基礎 – Part1
  • 三目並べ – 0.導入
  • テキスト処理
  • データベースへのデータロード
  • 機械学習概要1
  • 機械学習入門者向け Naive Bayes(単純ベイズ)アルゴリズムに触れてみる
  • ファイル管理
  • SSHを使用してホストOSからゲストOSに接続する
  • 機械学習入門者向け ChainerRLでブロック崩しの学習
  • 機械学習入門者向け ランダムフォレストによる Kaggle Titanic生存者予測
  • 機械学習概要2
  • データ分析基礎 – Part 2
  • 機械学習入門者向け 分類と回帰の違いをプログラムを書いて学ぼう
  • フロントエンドのWeb開発について
  • ダイナミックルーティング
  • 三目並べ – 1.ゲーム盤を作ろう
  • 【Python入門】Python Numpy チュートリアル
  • Amazon EC2 インスタンスの初期設定をしよう
  • AmazonEC2とVPCでネットワークとサーバーを構築しよう
  • Apache NiFi Exercise
  • Apache NiFi データパイプライン基礎
  • Apache NiFiの環境設定
  • Apache Spark 基礎
  • Apache SparkとApache Zeppelinの概要と環境構築
  • Apache Superset maptoolの使い方
  • Apache Superset 基礎
  • Apache Superset 概要と環境構築
  • Apache Zeppelin 基本機能
  • APIのデモンストレーション
  • Avinton Academy コンテンツガイド
  • AWS CLIをインストールしてコマンド操作しよう
  • AWS CLIを使ってEC2のファイルをS3へアップロードしよう
  • AWS Route 53を使って独自ドメインのWebページを表示させてみよう
  • AWSアカウントの作成と必ずやるべきセキュリティ対策
  • AWSのEC2インスタンスでWordPressブログを公開してみよう
  • AWS入門者向け 初心者が最初に理解すべきEC2とVPCの基本的な用語解説
  • CCNA
  • Certbotを使ってSSL証明書を発行し、HTTP通信を暗号化しよう
  • CISCO 1800ルータセットアップ
  • CSV import & export – Node.js, mySQL – 1
  • CSV import & export – Node.js, mySQL – 2
  • Docker Compose(Nginx + Flask + MySQL)演習
  • Docker Engineのubuntu上へのinstall
  • Docker 概要とセットアップ
  • Docker, Kubernetesの学び方について
  • Dockerコンテナイメージの最適化/ベストプラクティス
  • DockerとApacheを使ってWebサーバーを構築しよう
  • EC2からS3へ自動でぽいぽいアップロードするスクリプトの作成
  • ESP32-CAMのサンプルアプリケーションを実行する
  • 01 – Sparkfun Inventor’s Kit の準備
  • 02 – Sparkfun Inventor’s KitでLチカ
  • 03 ポテンショメータでLEDの点滅間隔をアナログ入力する
  • 04 フォトレジスタで明るさに反応するシステムをつくる
  • 05 LCDに文字列を表示する
  • 06 – BME280とLCDを組み合わせて温度計をつくる
  • ESP32とArduino IDE/PlatfromIOでHello Worldアプリケーションの実行
  • ESP32と超音波センサー HC-SR04 で物体の距離を計測する
  • ESXi – Switchの追加とVLAN
  • ESXi – VyOS
  • ESXi – 小規模ネットワーク 構築
  • Gitとは
  • VS CodeでGitHub Copilotを設定する
  • VSCode リモート開発環境
  • GNS3のセットアップ
  • Kubernetesクラスター上へのOpenVINOモデルサーバーを使用したサンプルアプリケーションのデプロイ
  • Linuxとは
  • NAT
  • NodeJSでWebアプリケーション開発 – React編
  • NodeJSでWebアプリケーション開発 – React編
  • NodeJSでWebアプリケーション開発 – React編
  • NodeJSでWebアプリケーション開発 – Socket.IO編
  • NVIDIA Cumulus VX + GNS3でBGPネットワークのシミュレーション
  • OpenCVのテストプログラム
  • PacketTracerのセットアップ
  • Pandasによる構造化データ分析
  • PCからルータ、スイッチへのSSH接続設定
  • PostGIS exercise
  • PostgreSQL – Python – Apache – Bootstrap
  • MySQLとMySQL Workbench のセットアップ
  • PostgreSQL Setup
  • PostgreSQL – インデックスを利用したパフォーマンス改善方法
  • PostgreSQL – パーティショニングを利用したパフォーマンス改善方法
  • PostgreSQLによるデータ分析
  • postgreSQLへのshp fileのimport
  • Python2.7とOpenCVのインストール
  • Python3.8 と OpenCV のインストール (Ubuntu20.04LTS)
  • Pythonでデータベースを操作する
  • Pythonで画像を分類するプログラムを作成する
  • Pythonによるマルチスレッドプログラミング実践
  • Raspberry Pi 4B のセットアップ
  • Raspberry PiとBME280を使用して温度と湿度、気圧を読み取る
  • REDIS
  • Redux基礎 – 主要な概念と用語
  • Ruby on Rails を MySQLでセットアップ
  • Ruby on Railsによる簡単なウェブアプリケーション
  • SampleアプリケーションのKubernetes上へのデプロイ
  • Scala 基礎
  • scikit-learnとは
  • Spark SQL エクササイズ
  • SparkMLによるKaggle Titanic生存者予測
  • SparkMLによる住宅価格予測
  • SQL 便利な関数
  • Ubuntuの基本設定
  • uhubctlでUSBデバイスのオンオフをコントロール
  • Terraform入門 2 – Terraformのstate管理
  • Terraform入門 1 – TerraformでAWS上にEC2インスタンスを作成する
  • Virtualisation and Container (仮想化とコンテナ) – Ansible, Docker and Kubernetes
  • viエディタ
  • VLAN
  • VMware ESXi サーバー構築
  • Webアプリ開発に欠かせないGoogle Chrome DevToolsの基本
  • Windows Server 2012 R2 Hyper-V
  • YOLOv5を用いた物体検出
Home Avintonアカデミー Pandasによる構造化データ分析

 

Pandasとは

PandasはPythonで構造化データを解析する際に用いるライブラリです。

ここでいう構造化データとは行と列持ったデータでSQLデータベースやExcel等で管理されるものを指します。

その対をなす概念として非構造化データというものがありますが、それは画像や音声等の構造化データの形式に当てはまらないあらゆるデータを指します。

PandasはCSVやテキストファイル、Excel、SQLデータベース等のフォーマットのデータを読み書きすることができます。

構造化データの処理はデータの大きさによって時間がかかるので、パフォーマンスのため重要なコードはCythonまたはC言語で実装されています。

Pandasでできること

データの変形やピボット、欠損値処理、結合、その他のデータ処理を簡単に行うことができます。

また、時系列データに特化した関数も幅広く用意されており、日付範囲作成や周波数変換、移動窓を用いた統計値や線形回帰、シフト、遅延などが使えます。

また、簡単なデータの可視化も行うことができます。

他のNumpy、statsmodels、 matplotlib、sklearn等の Pythonライブラリとも相性が良くデータ操作、および解析、そして機械学習で広く用いられています。

全くPandasに触れたことのない方はまずPandasの公式チュートリアルを一通り写経することをお勧めします。

アクティビティ

※今回のアクティビティではanaconda上のJupyter Notebookを使用します。

1. データ読み込み

pandasのインポートがまだの方は、アクティビティを始める前に行ってください。

1
sudo pip3 install pandas

今回使用するデータはボストンの住宅価格に関するデータです。

データはこちらからダウンロードしてください。 train_housingDownload

1. Jupyter Notebookの新しいノートブックを作成してください。
2. Pandasをインポートしてください。
3. ダウンロードしたファイルをPandas Dataframeとして変数に格納してください。

 

2. データ操作

2-1 下記のページを参考に最初の五行を表示しましょう。

pandas.DataFrame.head 【結果の表示画面】

 

2-2  下記のページを参考に両データの次元数(行数, 列数)を確認しましょう。

pandas.DataFrame.shape 【結果の表示画面】

 

 

2-3 下記のページを参考に全ての列の名前を表示しましょう。

pandas.DataFrame.columns 【結果の表示画面】

 

2-4 下記のページを参考に列ごとの基本情報を表示しましょう。

pandas.DataFrame.info

【結果の表示画面】

 

2-5 下記のページを参考に数値データのみが入ったデータフレームを新しく作成しましょう。

pandas.DataFrame.select_dtypes

【結果の表示画面】

2-6 下記のページを参考に、上で作成したデータフレームでSalesPriceと相関の高い上位10列を表示しましょう。

pandas.DataFrame.corr 【結果の表示画面】

 

 

3. データの可視化

 

3-1  下記のページを参考に、SalesPrice列の分布の情報を表示しましょう。

pandas.DataFrame.describe

 

Pandasによる構造化データ分析

 

3-2 下記のページを参考にPandasの組み込み関数を使ってSalesPrice列のヒストグラムを表示しましょう。

pandas.DataFrame.hist

 

3-3 OverallQaulはSalesPriceと高い相関がありました。この列について分析しましょう。

3-3-1 OverallQualの固有値 (unique value) を表示しましょう。

 

 

3-3-2 OverallQual列からピボットテーブルを作成し、SalesPriceとの関係を表示しましょう。 (集計には平均を使いましょう)

3-3-3 上のデータフレームを棒グラフとして表示しましょう。

 

 

3-4 YearBuilt列についても分析しましょう。

3-4-1 YearBuilt列の範囲を表示しましょう。

 

3-4-2  下記のページを参考にYearBuiltを10年ごとにビン分割(Binning)したYearBins列を生成しましょう。

pandas.cut

 

※ビン分割とは数値を大まかな範囲で分割することです。1995, 2003, 2019をそれぞれ10ごとにビン分割すると1990~1999, 2000~2009, 2010~2019となります。

 

3-5 下記のページを参考にSalesPriceとYearBins、OverallQualとの関係を箱ひげ図(Box Plot)で表示しましょう。

pandas.DataFrame.boxplot

 

 

3-6 下記のページを参考にSalesPriceとGrLivArea、GarageCars、GarageArea、 TotalBsmtSFの関係を分布図(Scatter Plot)として表示しましょう。

pandas.DataFrame.plot.scatter

 

今回のアクティビティは以上です。

より高度なデータの可視化はmatplotlibやseabornを使うことで行うことができます。

あなたも、Avintonでこのような最先端技術を習得し活用してみませんか?

社員の成長を導きながら、AIやビッグデータなどの最先端技術をプロジェクトに活用していくことが私たちのビジョンです。Avintonの充実した技術研修でスキルアップを図り、あなたのキャリア目標を一緒に達成しませんか?

採用情報

 

採用情報

採用情報

Categories

  • 相互学習
  • 採用
  • 社員インタビュー
  • 学習&資格取得
  • 技術解説
  • イベント告知
  • 学内説明会&講義
  • 産学連携
  • 就職活動
  • イベントレポート
  • その他
  • 技術ブログ&インタビュー
  • mainpage
  • New Graduates Interviews
  • 中途エンジニア
  • カテゴリーなし
  • ニュースリリース&イベント

Avinton SDGs

SDGsへの貢献

Search

タグ

5G albumentations Apache AvintonAcacemy Avinton データプラットフォーム Digital Transformation DQN Fintech Flutter IoT IoT James Cauchi Kunernetes LTE MVI試験 PostgreSQL Predictive Maintenance Ruby Rust SE Society 5.0 TensorFlow インターン インターンシップ クラウトネイティブ サーバークラスター スマート農業 セミナー データ データオーグメンテーション(Data Augmentation) データ解析 ファンダフルリレーマラソン ベンチャー モブワーク 企業説明会 哲学 大学&専門学校 大学&専門学校 学習 教育 機械学習 環境構築 田中 研之輔 研究開発 講義
© 2023 Avinton | All Rights Reserved | プライバシーポリシー
  • サービス
    • Avinton Data Platform
    • エッジAIカメラ
      • 自動車ナンバープレート自動認識システム
    • プライベートクラウド
    • AIサービス開発
    • AIカメラ/画像解析無料体験版
  • 最新情報
    • ニュースリリース&イベント情報
    • 技術ブログ&インタビュー
  • アカデミー
    • Avintonアカデミー
    • Academy on Campus
    • Academy with Platform
  • 採用情報
    • Avintonジャパン 採用ページ
    • 求人一覧
    • よくある質問
    • 新卒採用
  • 企業情報
    • 会社概要
    • 代表からご挨拶
    • SDGsへの貢献
  • お問い合わせ
  • 日本語
    • English (英語)
Avinton Japan