• 日本語
    • English (英語)
Avinton JapanAvinton JapanAvinton JapanAvinton Japan
  • サービス
    • Avinton Data Platform
    • エッジAIカメラ
      • 自動車ナンバープレート自動認識システム
    • プライベートクラウド
    • AIサービス開発
    • AIカメラ/画像解析無料体験版
  • 最新情報
    • ニュースリリース&イベント情報
    • 技術ブログ&インタビュー
  • アカデミー
    • Avintonアカデミー
    • Academy on Campus
    • Academy with Platform
  • 採用情報
    • Avintonジャパン 採用ページ
    • 求人一覧
    • よくある質問
    • 新卒採用
  • 企業情報
    • 会社概要
    • 代表からご挨拶
    • SDGsへの貢献
  • お問い合わせ

SparkMLによる住宅価格予測

  • ルーティング
  • データベースの命名規則
  • 三目並べ – 2.〇×を交互にゲーム盤に入るようにしよう
  • 三目並べ – 3.勝敗がつくようにしよう
  • クリーンコード(Clean Code)
  • 三目並べ – 4.「スタート」「リセット」ボタンをつけよう
  • 三目並べ – 5.先攻後攻を決めて、コンピュータ対戦にしよう(前編)
  • インフラストラクチャー(サーバー、コンポーネント、RAID)
  • 機械学習入門者向け Support Vector Machine (SVM) に触れてみる
  • YOLOv8を用いた物体検出
  • 正規表現とパイプ
  • 機械学習エンジニアに必要なスキル
  • 軽量版Kubernetesディストリビューション – k0s クラスターの構築
  • ファイル操作コマンド
  • グループとユーザー
  • 困った時に使うコマンド
  • 一般グループのユーザーとグループ
  • プライバシーポリシー
  • 三目並べ – 6.先攻後攻を決めて、コンピュータ対戦にしよう(後編)
  • フロントエンド開発のための環境構築
  • ファイル検索コマンド
  • 質問
  • 仮想化環境のディスク容量を拡張する
  • ユーザー権限とアクセス権
  • データ分析基礎 – Part1
  • 三目並べ – 0.導入
  • テキスト処理
  • データベースへのデータロード
  • 機械学習概要1
  • 機械学習入門者向け Naive Bayes(単純ベイズ)アルゴリズムに触れてみる
  • ファイル管理
  • SSHを使用してホストOSからゲストOSに接続する
  • 機械学習入門者向け ChainerRLでブロック崩しの学習
  • 機械学習入門者向け ランダムフォレストによる Kaggle Titanic生存者予測
  • 機械学習概要2
  • データ分析基礎 – Part 2
  • 機械学習入門者向け 分類と回帰の違いをプログラムを書いて学ぼう
  • フロントエンドのWeb開発について
  • ダイナミックルーティング
  • 三目並べ – 1.ゲーム盤を作ろう
  • 【Python入門】Python Numpy チュートリアル
  • Amazon EC2 インスタンスの初期設定をしよう
  • AmazonEC2とVPCでネットワークとサーバーを構築しよう
  • Apache NiFi Exercise
  • Apache NiFi データパイプライン基礎
  • Apache NiFiの環境設定
  • Apache Spark 基礎
  • Apache SparkとApache Zeppelinの概要と環境構築
  • Apache Superset maptoolの使い方
  • Apache Superset 基礎
  • Apache Superset 概要と環境構築
  • Apache Zeppelin 基本機能
  • APIのデモンストレーション
  • Avinton Academy コンテンツガイド
  • AWS CLIをインストールしてコマンド操作しよう
  • AWS CLIを使ってEC2のファイルをS3へアップロードしよう
  • AWS Route 53を使って独自ドメインのWebページを表示させてみよう
  • AWSアカウントの作成と必ずやるべきセキュリティ対策
  • AWSのEC2インスタンスでWordPressブログを公開してみよう
  • AWS入門者向け 初心者が最初に理解すべきEC2とVPCの基本的な用語解説
  • CCNA
  • Certbotを使ってSSL証明書を発行し、HTTP通信を暗号化しよう
  • CISCO 1800ルータセットアップ
  • CSV import & export – Node.js, mySQL – 1
  • CSV import & export – Node.js, mySQL – 2
  • Docker Compose(Nginx + Flask + MySQL)演習
  • Docker Engineのubuntu上へのinstall
  • Docker 概要とセットアップ
  • Docker, Kubernetesの学び方について
  • Dockerコンテナイメージの最適化/ベストプラクティス
  • DockerとApacheを使ってWebサーバーを構築しよう
  • EC2からS3へ自動でぽいぽいアップロードするスクリプトの作成
  • ESP32-CAMのサンプルアプリケーションを実行する
  • 01 – Sparkfun Inventor’s Kit の準備
  • 02 – Sparkfun Inventor’s KitでLチカ
  • 03 ポテンショメータでLEDの点滅間隔をアナログ入力する
  • 04 フォトレジスタで明るさに反応するシステムをつくる
  • 05 LCDに文字列を表示する
  • 06 – BME280とLCDを組み合わせて温度計をつくる
  • ESP32とArduino IDE/PlatfromIOでHello Worldアプリケーションの実行
  • ESP32と超音波センサー HC-SR04 で物体の距離を計測する
  • ESXi – Switchの追加とVLAN
  • ESXi – VyOS
  • ESXi – 小規模ネットワーク 構築
  • Gitとは
  • VS CodeでGitHub Copilotを設定する
  • VSCode リモート開発環境
  • GNS3のセットアップ
  • Kubernetesクラスター上へのOpenVINOモデルサーバーを使用したサンプルアプリケーションのデプロイ
  • Linuxとは
  • NAT
  • NodeJSでWebアプリケーション開発 – React編
  • NodeJSでWebアプリケーション開発 – React編
  • NodeJSでWebアプリケーション開発 – React編
  • NodeJSでWebアプリケーション開発 – Socket.IO編
  • NVIDIA Cumulus VX + GNS3でBGPネットワークのシミュレーション
  • OpenCVのテストプログラム
  • PacketTracerのセットアップ
  • Pandasによる構造化データ分析
  • PCからルータ、スイッチへのSSH接続設定
  • PostGIS exercise
  • PostgreSQL – Python – Apache – Bootstrap
  • MySQLとMySQL Workbench のセットアップ
  • PostgreSQL Setup
  • PostgreSQL – インデックスを利用したパフォーマンス改善方法
  • PostgreSQL – パーティショニングを利用したパフォーマンス改善方法
  • PostgreSQLによるデータ分析
  • postgreSQLへのshp fileのimport
  • Python2.7とOpenCVのインストール
  • Python3.8 と OpenCV のインストール (Ubuntu20.04LTS)
  • Pythonでデータベースを操作する
  • Pythonで画像を分類するプログラムを作成する
  • Pythonによるマルチスレッドプログラミング実践
  • Raspberry Pi 4B のセットアップ
  • Raspberry PiとBME280を使用して温度と湿度、気圧を読み取る
  • REDIS
  • Redux基礎 – 主要な概念と用語
  • Ruby on Rails を MySQLでセットアップ
  • Ruby on Railsによる簡単なウェブアプリケーション
  • SampleアプリケーションのKubernetes上へのデプロイ
  • Scala 基礎
  • scikit-learnとは
  • Spark SQL エクササイズ
  • SparkMLによるKaggle Titanic生存者予測
  • SparkMLによる住宅価格予測
  • SQL 便利な関数
  • Ubuntuの基本設定
  • uhubctlでUSBデバイスのオンオフをコントロール
  • Terraform入門 2 – Terraformのstate管理
  • Terraform入門 1 – TerraformでAWS上にEC2インスタンスを作成する
  • Virtualisation and Container (仮想化とコンテナ) – Ansible, Docker and Kubernetes
  • viエディタ
  • VLAN
  • VMware ESXi サーバー構築
  • Webアプリ開発に欠かせないGoogle Chrome DevToolsの基本
  • Windows Server 2012 R2 Hyper-V
  • YOLOv5を用いた物体検出
Home Avintonアカデミー SparkMLによる住宅価格予測
SparkMLとkaggle

この項ではKaggle House Prices住宅価格予測をSparkMLというライブラリーを使って実施していきます。
タスクと表記のあるセクションは自分で調べながら実装して下さい。

House Pricesデータセットの用意

data_description.txt
train.csv

data_description.txt, train.csvをダウンロードして、zeppelin/data/ ディレクトリ下の任意の場所に配置します。
これらのデータはKaggleのHouse Prices住宅価格予測というコンペティションで使用されたデータです。
Kaggleに会員登録、ログインをすることで、そちらからもダウンロードすることが出来ます。

1. データ準備

1.1. ライブラリのimport

今回の処理に必要なライブラリをimportします。

1
2
3
4
5
6
7
8
9
10
11
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.types._
import org.apache.spark.sql.functions._
import org.apache.spark.ml.feature.{StringIndexer, OneHotEncoder, OneHotEncoderModel}
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.PipelineModel
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.feature.StandardScaler
import org.apache.spark.ml.regression.LinearRegression
import org.apache.spark.ml.evaluation.RegressionEvaluator

1.2. データの読み込み

まずは、データをSpark data frameとして読み込みます。

1
2
val sparkSession = SparkSession.builder().getOrCreate()
val df = sparkSession.read.option("header", "true").option("inferSchema", "true").csv("/data/housePrices/train.csv")

下記のコマンド等を使ってデータの中身を把握しましょう。

1
2
3
df.printSchema()
df.show()
df.groupBy("column_name").count().show()

また、data_description.txtを開き各カラムの意味を大まかに確認しましょう。

確認出来たら、下記のコードでトレーニングデータとテストデータに分割しましょう

1
val Array(df_train, df_test) = df.randomSplit(Array(0.70, 0.30), 12345L)

2.前処理

このコンテンツではLinearRegression(線形回帰)をつかって住宅価格を予測していきたいと思います。
下記のヒントを元にデータの前処理を調べながら実装してみましょう!

タスク1:下準備

線形回帰の予測を行うためには全てのカラムを数値データ(Numerical Columns)にする必要があります。
その為、数値データ、文字列データそれぞれで必要な前処理が異なります。
まずは、数値データのみを含むデータフレーム、文字列データフレームに分けてみましょう。

タスク2:数値データの特徴量エンジニアリング

数値データの特徴量エンジニアリングを行っていきます。
下記3点調べながら実装してみて下さい。

  • 特徴量の作成

例)YearBuiltカラム(当初の建築年)とYrSoldカラム(販売年)から、築年数を表すカラムを追加するetc

  • 欠損値処理:null, NAなどの欠損値を平均値や特定の値に置き換える
  • 特徴量改善:数値の大小が価格に直接関係するかわからないカラムを除く

タスク3:文字列データの特徴量エンジニアリング

続いて、以下の文字列のカラムを数値変換(エンコード)してみましょう

  • RoofStyl
  • ExterQual
  • ExterCond
  • BsmtQual
  • BsmtCond
  • HeatingQC

ヒント:One-Hot Encoding, Label Encoding

チャレンジ1

前処理に使用したコードを関数化して可読性とメンテナンス性を高めてみましょう

3. 線形回帰モデルでの価格予測

価格の予測に使用するカラムを一つのベクトル列featuresカラムに統合します。訓練データと検証データのそれぞれに対して行います。

1
2
3
4
5
6
7
8
9
10
11
12
13
import org.apache.spark.ml.feature.VectorAssembler
 
val featureCols = df_train_processed
.drop("Id", "SalePrice")
.columns
 
val assembler = new VectorAssembler()
.setInputCols(featureCols)
.setOutputCol("features")
 
val assembledData_train = assembler
.transform(df_train_processed)
.select("Id", "SalePrice", "features")

同様の処理を検証データに対しても実行します。

1
2
3
val assembledData_test = assembler
.transform(df_test_processed)
.select("Id", "SalePrice", "features")

線形回帰モデルのインスタンスを作成し、訓練データでモデルを作成します。

1
2
3
4
5
6
7
import org.apache.spark.ml.regression.LinearRegression
 
val lr = new LinearRegression()
.setLabelCol("SalePrice")
.setFeaturesCol("features")
 
val model_lr = lr.fit(assembledData_train)

作成した予測モデルで検証データの価格を予測します。

1
val test_predictions_lr = model_lr.transform(assembledData_test)

test_predictions_lr に予測結果のpredictionカラムが追加されます。

4. モデルの評価

タスク4:RMSEによるモデルの評価

予測モデルの性能を評価するための指標の1つに RMSE があります。これを使ってモデルの性能評価をしてください。

タスク5:線形回帰モデルの係数の確認

線形回帰モデルでは、特徴量(features)と目的変数(SalePrice)の間の線形な関係を仮定しています。

この係数は、各特徴量が目的変数に対してどのように寄与するかを示す数値です。

各カラムごとの係数をプリントして確認してください。

タスク6 標準化をした場合の予測結果・モデルの評価・係数の値

各カラムが異なるスケールをもっているため、係数の値同士を直接比較することは出来ません。 標準化(または正規化)を行うことで直接比較することが可能になります。

ヒント:VectorAssembler()で特徴量を統合後、StandardScaler()で標準化し、再度モデルの係数を確認してみましょう

採用情報

採用情報

Categories

  • 相互学習
  • 採用
  • 社員インタビュー
  • 学習&資格取得
  • 技術解説
  • イベント告知
  • 学内説明会&講義
  • 産学連携
  • 就職活動
  • イベントレポート
  • その他
  • 技術ブログ&インタビュー
  • mainpage
  • New Graduates Interviews
  • 中途エンジニア
  • カテゴリーなし
  • ニュースリリース&イベント

Avinton SDGs

SDGsへの貢献

Search

タグ

AIエンジニア AI導入 Apatch AvintonAcademy CKA DevOps KiX Kubernetes Notion PM&PMO PyTorch SDGs Innnovation Hub UI YOLOv5 アカウントマネージャー インタビュー インフラエンジニア エッジAIカメラ セキュリティエンジニア ソフトスキル ツール開発 データサイエンティスト ネットワークエンジニア フルスタックエンジニア フロントエンド ベテランエンジニア ボランティア マイクロサービス モーフィング ローカルイベント 中瀬幸子、サーバークラスター 中途採用 人材育成 協働パートナー 国際自動制御連盟 地域創生 基本情報技術者 強化学習 技術 新卒、キャリア 新卒採用 田中研之輔 社会貢献 経団連 顔認証
© 2023 Avinton | All Rights Reserved | プライバシーポリシー
  • サービス
    • Avinton Data Platform
    • エッジAIカメラ
      • 自動車ナンバープレート自動認識システム
    • プライベートクラウド
    • AIサービス開発
    • AIカメラ/画像解析無料体験版
  • 最新情報
    • ニュースリリース&イベント情報
    • 技術ブログ&インタビュー
  • アカデミー
    • Avintonアカデミー
    • Academy on Campus
    • Academy with Platform
  • 採用情報
    • Avintonジャパン 採用ページ
    • 求人一覧
    • よくある質問
    • 新卒採用
  • 企業情報
    • 会社概要
    • 代表からご挨拶
    • SDGsへの貢献
  • お問い合わせ
  • 日本語
    • English (英語)
Avinton Japan