• 日本語
    • English (英語)
Avinton JapanAvinton JapanAvinton JapanAvinton Japan
  • サービス
    • Avinton Data Platform
    • エッジAIカメラ
      • 自動車ナンバープレート自動認識システム
    • プライベートクラウド
    • AIサービス開発
    • AIカメラ/画像解析無料体験版
  • 最新情報
    • ニュースリリース&イベント情報
    • 技術ブログ&インタビュー
  • アカデミー
    • Avintonアカデミー
    • Academy on Campus
    • Academy with Platform
  • 採用情報
    • Avintonジャパン 採用ページ
    • 求人一覧
    • よくある質問
    • 新卒採用
  • 企業情報
    • 会社概要
    • 代表からご挨拶
    • SDGsへの貢献
  • お問い合わせ

KNIME, AutoMLライブラリによる住宅価格予測

  • ルーティング
  • データベースの命名規則
  • 三目並べ – 2.〇×を交互にゲーム盤に入るようにしよう
  • 三目並べ – 3.勝敗がつくようにしよう
  • クリーンコード(Clean Code)
  • 三目並べ – 4.「スタート」「リセット」ボタンをつけよう
  • 三目並べ – 5.先攻後攻を決めて、コンピュータ対戦にしよう(前編)
  • インフラストラクチャー(サーバー、コンポーネント、RAID)
  • 機械学習入門者向け Support Vector Machine (SVM) に触れてみる
  • YOLOv8を用いた物体検出
  • 正規表現とパイプ
  • 機械学習エンジニアに必要なスキル
  • 軽量版Kubernetesディストリビューション – k0s クラスターの構築
  • ファイル操作コマンド
  • グループとユーザー
  • 困った時に使うコマンド
  • 一般グループのユーザーとグループ
  • プライバシーポリシー
  • 三目並べ – 6.先攻後攻を決めて、コンピュータ対戦にしよう(後編)
  • フロントエンド開発のための環境構築
  • ファイル検索コマンド
  • 質問
  • 仮想化環境のディスク容量を拡張する
  • ユーザー権限とアクセス権
  • データ分析基礎 – Part1
  • 三目並べ – 0.導入
  • テキスト処理
  • データベースへのデータロード
  • 機械学習概要1
  • 機械学習入門者向け Naive Bayes(単純ベイズ)アルゴリズムに触れてみる
  • ファイル管理
  • SSHを使用してホストOSからゲストOSに接続する
  • 機械学習入門者向け ChainerRLでブロック崩しの学習
  • 機械学習入門者向け ランダムフォレストによる Kaggle Titanic生存者予測
  • 機械学習概要2
  • データ分析基礎 – Part 2
  • 機械学習入門者向け 分類と回帰の違いをプログラムを書いて学ぼう
  • フロントエンドのWeb開発について
  • ダイナミックルーティング
  • 三目並べ – 1.ゲーム盤を作ろう
  • 【Python入門】Python Numpy チュートリアル
  • Amazon EC2 インスタンスの初期設定をしよう
  • AmazonEC2とVPCでネットワークとサーバーを構築しよう
  • Apache NiFi Exercise
  • Apache NiFi データパイプライン基礎
  • Apache NiFiの環境設定
  • Apache Spark 基礎
  • Apache SparkとApache Zeppelinの概要と環境構築
  • Apache Superset maptoolの使い方
  • Apache Superset 基礎
  • Apache Superset 概要と環境構築
  • Apache Zeppelin 基本機能
  • APIのデモンストレーション
  • Avinton Academy コンテンツガイド
  • AWS CLIをインストールしてコマンド操作しよう
  • AWS CLIを使ってEC2のファイルをS3へアップロードしよう
  • AWS Route 53を使って独自ドメインのWebページを表示させてみよう
  • AWSアカウントの作成と必ずやるべきセキュリティ対策
  • AWSのEC2インスタンスでWordPressブログを公開してみよう
  • AWS入門者向け 初心者が最初に理解すべきEC2とVPCの基本的な用語解説
  • CCNA
  • Certbotを使ってSSL証明書を発行し、HTTP通信を暗号化しよう
  • CISCO 1800ルータセットアップ
  • CSV import & export – Node.js, mySQL – 1
  • CSV import & export – Node.js, mySQL – 2
  • Docker Compose(Nginx + Flask + MySQL)演習
  • Docker Engineのubuntu上へのinstall
  • Docker 概要とセットアップ
  • Docker, Kubernetesの学び方について
  • Dockerコンテナイメージの最適化/ベストプラクティス
  • DockerとApacheを使ってWebサーバーを構築しよう
  • EC2からS3へ自動でぽいぽいアップロードするスクリプトの作成
  • ESP32-CAMのサンプルアプリケーションを実行する
  • 01 – Sparkfun Inventor’s Kit の準備
  • 02 – Sparkfun Inventor’s KitでLチカ
  • 03 ポテンショメータでLEDの点滅間隔をアナログ入力する
  • 04 フォトレジスタで明るさに反応するシステムをつくる
  • 05 LCDに文字列を表示する
  • 06 – BME280とLCDを組み合わせて温度計をつくる
  • ESP32とArduino IDE/PlatfromIOでHello Worldアプリケーションの実行
  • ESP32と超音波センサー HC-SR04 で物体の距離を計測する
  • ESXi – Switchの追加とVLAN
  • ESXi – VyOS
  • ESXi – 小規模ネットワーク 構築
  • Gitとは
  • VS CodeでGitHub Copilotを設定する
  • VSCode リモート開発環境
  • GNS3のセットアップ
  • Kubernetesクラスター上へのOpenVINOモデルサーバーを使用したサンプルアプリケーションのデプロイ
  • Linuxとは
  • NAT
  • NodeJSでWebアプリケーション開発 – React編
  • NodeJSでWebアプリケーション開発 – React編
  • NodeJSでWebアプリケーション開発 – React編
  • NodeJSでWebアプリケーション開発 – Socket.IO編
  • NVIDIA Cumulus VX + GNS3でBGPネットワークのシミュレーション
  • OpenCVのテストプログラム
  • PacketTracerのセットアップ
  • Pandasによる構造化データ分析
  • PCからルータ、スイッチへのSSH接続設定
  • PostGIS exercise
  • PostgreSQL – Python – Apache – Bootstrap
  • MySQLとMySQL Workbench のセットアップ
  • PostgreSQL Setup
  • PostgreSQL – インデックスを利用したパフォーマンス改善方法
  • PostgreSQL – パーティショニングを利用したパフォーマンス改善方法
  • PostgreSQLによるデータ分析
  • postgreSQLへのshp fileのimport
  • Python2.7とOpenCVのインストール
  • Python3.8 と OpenCV のインストール (Ubuntu20.04LTS)
  • Pythonでデータベースを操作する
  • Pythonで画像を分類するプログラムを作成する
  • Pythonによるマルチスレッドプログラミング実践
  • Raspberry Pi 4B のセットアップ
  • Raspberry PiとBME280を使用して温度と湿度、気圧を読み取る
  • REDIS
  • Redux基礎 – 主要な概念と用語
  • Ruby on Rails を MySQLでセットアップ
  • Ruby on Railsによる簡単なウェブアプリケーション
  • SampleアプリケーションのKubernetes上へのデプロイ
  • Scala 基礎
  • scikit-learnとは
  • Spark SQL エクササイズ
  • SparkMLによるKaggle Titanic生存者予測
  • KNIME, AutoMLライブラリによる住宅価格予測
  • SparkMLによる住宅価格予測
  • SQL 便利な関数
  • Ubuntuの基本設定
  • uhubctlでUSBデバイスのオンオフをコントロール
  • Terraform入門 2 – Terraformのstate管理
  • Terraform入門 1 – TerraformでAWS上にEC2インスタンスを作成する
  • Virtualisation and Container (仮想化とコンテナ) – Ansible, Docker and Kubernetes
  • viエディタ
  • VLAN
  • VMware ESXi サーバー構築
  • Webアプリ開発に欠かせないGoogle Chrome DevToolsの基本
  • Windows Server 2012 R2 Hyper-V
  • YOLOv5を用いた物体検出
Home Avintonアカデミー KNIME, AutoMLライブラリによる住宅価格予測
knime_logo
logo

この項ではKaggle House Prices住宅価格予測をSparkMLというライブラリーを使って実施していきます。
タスクと表記のあるセクションは自分で調べながら実装して下さい。

KNIMEとは?

KNIME(ナイム)は、データの統合、前処理、分析、可視化、さらには機械学習までをノーコードで実行できるエンドツーエンドのデータ分析プラットフォームです。ワークフロー形式で直感的に操作できる点が特長で、デジタル人材や分析担当者が専門的なプログラミング知識なしで高度なデータ処理を行うことが可能です。

KNIMEはオープンソースかつ無償で提供されており、データの取得・変換から可視化、レポーティング、モデリングまで、データサイエンス全体のプロセスを一貫してサポートします。さらに、KNIMEではワークフローの構造が視覚的にわかりやすく、プロジェクトの再利用や他者との共有が容易であることから、チーム内のコラボレーションやナレッジの蓄積にも非常に適しています。

House Pricesデータセットの用意

data_description-1ダウンロード
trainダウンロード

data_description.txt, train.csvをダウンロードして、任意のディレクトリ下に配置します。
これらのデータはKaggleのHouse Prices住宅価格予測というコンペティションで使用されたデータです。
Kaggleに会員登録、ログインをすることで、そちらからもダウンロードすることが出来ます。

KNIMEアプリケーションのダウンロードとインストール

以下の公式サイトからOSに合ったKNIME Analytics Platformをダウンロード、インストールしてください。

https://www.knime.com/downloads

メールアドレス等の登録は必須ではありません。

1. データの読み込み

アプリケーション起動後、「+」のアイコンをクリックし、新規ワークフローを作成します。
左側のタブでキューブ型アイコンをクリックし、検索バーに「csv」と入力すると関連するノードが表示されます。
CSV Readerをダブルクリックまたはドラッグ&ドロップすることでノードがワークフロー上に表示されます。

ノードの表示

ノードをダブルクリックまたは左上の歯車のマークをクリックし、Fileにダウンロードしたtrain.csvのパスを入力します。

train.csvのパスを入力

2. 前処理

本来数値データであるLotFrontage, MasVnrArea, GarageYrBltカラムに、文字列”NA”が含まれているためString型と認識されています。

タスク1: 型変換

上記3つのカラムの文字列”NA”を欠損値Nullに変換し、String型からNumber型に変換してください。
正しく処理されると文字列”NA”から赤丸の?マークに変わり、カラム名の下の型表記もNumberに変わります。

型変換処理

タスク2: 数値データの特徴量エンジニアリング

数値データの特徴量エンジニアリングを行っていきます。下記3点を調べながら実装してください。

  • 特徴量生成

    • Column Expressionsノード
      例)YearBuiltカラム(建築された年)とYrSoldカラム(販売年)から、築年数を表すカラムを追加するなど
  • 欠損値処理:null, NAなどの欠損値を平均値や特定の値に置き換える

    • Missing Valueノード
  • 特徴量選択:予測精度を低下させる可能性があるカラムを除く

    • Column Filterノード

タスク3: 文字列データの特徴量エンジニアリング

以下の文字列のカラムをLabel Encodingしてください。

  • ExterQual
  • ExterCond
  • BsmtQual
  • BsmtCond
  • HeatingQC
  • BsmtFinType1
  • BsmtFinType2

KNIMEにはデフォルトでLabel Encodingするノードはないので、画面右上の”Menu”から”Install extensions”を開き、テキストボックスで”Python”と検索し、使用しているKNIMEのバージョンに合う”KNIME Python Integration”をインストールしてください。

特徴量エンジニアリング

インストール後、再起動することでKNIME上でPyhton環境を実行できる、Pyhton Scriptノードが使用できます。
こちらのノードを用いてLabel Encodingを実行してください。

3. 複数モデルでの価格予測

タスク4: データ分割

Partitioningノードで訓練データと検証データを7:3に分割してください。

タスク5: モデルの学習・予測

KNIMEではデフォルトで様々な学習モデルを使用することが可能です。 ノード一覧のテキストボックスで”Regression”と検索し、以下の4つのモデルで検証データのSalePriceカラムの値を予測してください。

  • Linear Regression
  • Random Forest
  • Gradient Boosted Trees
  • XGBoost Tress Ensemble

モデルの学習・予測

XGBoost Tress Ensembleノードは、”Install extensions”から”KNIME XGBoost Integration”をインストールすることで使用可能になります。

4. モデルの評価

 

タスク6:RMSEによるモデルの評価

予測モデルの性能を評価するための指標の1つにRMSEがあります。これを使って各モデルの性能評価をしてください。

チャレンジ 自動機械学習ライブラリーの使用

チャレンジ1.

複数の回帰モデルを手動で選定・チューニングする代わりに、自動機械学習(AutoML)ライブラリを活用することで、開発工数の削減と予測精度の向上が期待できます。 今回は、Amazonが開発したPython向けのAutoMLライブラリAutoGluonを使用します。

外部ライブラリを利用するには、Conda仮想環境を設定する必要があります。 以下の公式サイトから、OSに合ったMinicondaをダウンロード、インストールしてください。
https://www.anaconda.com/docs/getting-started/miniconda/main

Minicondaをインストールしたら、Anaconda Promptを起動し、以下のコマンドで、仮想環境py_knimeを作成し、AutoGluonをインストールします。

1
2
3
4
conda create -n py_knime python=3.9 -y
conda activate py_knime
pip install -U setuptools wheel
pip install autogluon==1.2.0

KNIMEアプリケーションの画面右上の”Preference”からインストールしたCondaを設定します。

Condaを設定

続いて、KNIMEのPythonに仮想環境py_knimeを設定します。

仮想環境py_knimeを設定

タスク2の処理を除いたパイプラインで、AutoGluonを用いたモデルの学習・予測を行ってください。

1
2
3
# モデルの学習コードサンプル
from autogluon.tabular import TabularPredictor
predictor = TabularPredictor(label=label_column).fit(train_data)

参考:AutoGluon Tabular – Quick Start

チャレンジ2.

TabularPredictor.fit()のpresetsパラメータを活用して、モデルの予測精度をさらに向上させてください。
どのような値を指定すれば精度が高くなるかを調べ、実際に適用してみましょう。

参考:TabularPredictor.fit

チャレンジ3.

一般的に、AutoGluonの方がKNIMEの標準的な回帰モデルよりも予測精度が高い傾向にあります。
その理由を、モデル構造や学習手法の違いに着目して説明してください。

採用情報

採用情報

Categories

  • 相互学習
  • 採用
  • 社員インタビュー
  • 学習&資格取得
  • 技術解説
  • イベント告知
  • 学内説明会&講義
  • 産学連携
  • 就職活動
  • イベントレポート
  • その他
  • 技術ブログ&インタビュー
  • mainpage
  • New Graduates Interviews
  • 中途エンジニア
  • カテゴリーなし
  • ニュースリリース&イベント

Avinton SDGs

SDGsへの貢献

Search

タグ

AIカメラ AI時代の経営 AI活用事例 AvintonAcademy on Campus AWS Docker Git LPIC LPIC-2 Planet OS PM&PMO PM6PMO Ruby技術者認定試験 Scratch Sound Analysis SSD イベントレポート インフラ エッジコンピューティング エリクソン エンジニア オープンイノベーション コンテナ技術 コーディング ディープラーニング リスキリング リードエンジニア 中瀬幸子 仮想化 勉強会 地引網 帰社日 強化学習、機械学習 採用 掲載告知 新年のご挨拶 未経験 深層学習 画像分類 知識蒸留 社員紹介 第一級陸上特殊無線技士 統計検定 自社開発 観光データ
© 2023 Avinton | All Rights Reserved | プライバシーポリシー
  • サービス
    • Avinton Data Platform
    • エッジAIカメラ
      • 自動車ナンバープレート自動認識システム
    • プライベートクラウド
    • AIサービス開発
    • AIカメラ/画像解析無料体験版
  • 最新情報
    • ニュースリリース&イベント情報
    • 技術ブログ&インタビュー
  • アカデミー
    • Avintonアカデミー
    • Academy on Campus
    • Academy with Platform
  • 採用情報
    • Avintonジャパン 採用ページ
    • 求人一覧
    • よくある質問
    • 新卒採用
  • 企業情報
    • 会社概要
    • 代表からご挨拶
    • SDGsへの貢献
  • お問い合わせ
  • 日本語
    • English (英語)
Avinton Japan