KNIME, AutoMLライブラリによる住宅価格予測

この項ではKaggle House Prices住宅価格予測をSparkMLというライブラリーを使って実施していきます。
タスクと表記のあるセクションは自分で調べながら実装して下さい。

KNIMEとは？

KNIME（ナイム）は、データの統合、前処理、分析、可視化、さらには機械学習までをノーコードで実行できるエンドツーエンドのデータ分析プラットフォームです。ワークフロー形式で直感的に操作できる点が特長で、デジタル人材や分析担当者が専門的なプログラミング知識なしで高度なデータ処理を行うことが可能です。

KNIMEはオープンソースかつ無償で提供されており、データの取得・変換から可視化、レポーティング、モデリングまで、データサイエンス全体のプロセスを一貫してサポートします。さらに、KNIMEではワークフローの構造が視覚的にわかりやすく、プロジェクトの再利用や他者との共有が容易であることから、チーム内のコラボレーションやナレッジの蓄積にも非常に適しています。

House Pricesデータセットの用意

data_description-1 ダウンロード

train ダウンロード

data_description.txt, train.csvをダウンロードして、任意のディレクトリ下に配置します。
これらのデータはKaggleのHouse Prices住宅価格予測というコンペティションで使用されたデータです。
Kaggleに会員登録、ログインをすることで、そちらからもダウンロードすることが出来ます。

KNIMEアプリケーションのダウンロードとインストール

以下の公式サイトからOSに合ったKNIME Analytics Platformをダウンロード、インストールしてください。

https://www.knime.com/downloads

メールアドレス等の登録は必須ではありません。

1. データの読み込み

アプリケーション起動後、「+」のアイコンをクリックし、新規ワークフローを作成します。
左側のタブでキューブ型アイコンをクリックし、検索バーに「csv」と入力すると関連するノードが表示されます。
CSV Readerをダブルクリックまたはドラッグ＆ドロップすることでノードがワークフロー上に表示されます。

ノードをダブルクリックまたは左上の歯車のマークをクリックし、Fileにダウンロードしたtrain.csvのパスを入力します。

2. 前処理

本来数値データであるLotFrontage, MasVnrArea, GarageYrBltカラムに、文字列”NA”が含まれているためString型と認識されています。

タスク1: 型変換

上記3つのカラムの文字列”NA”を欠損値Nullに変換し、String型からNumber型に変換してください。
正しく処理されると文字列”NA”から赤丸の?マークに変わり、カラム名の下の型表記もNumberに変わります。

タスク2: 数値データの特徴量エンジニアリング

数値データの特徴量エンジニアリングを行っていきます。下記3点を調べながら実装してください。

特徴量生成
- Column Expressionsノード
  例）YearBuiltカラム(建築された年)とYrSoldカラム(販売年)から、築年数を表すカラムを追加するなど
欠損値処理：null, NAなどの欠損値を平均値や特定の値に置き換える
- Missing Valueノード
特徴量選択：予測精度を低下させる可能性があるカラムを除く
- Column Filterノード

タスク3: 文字列データの特徴量エンジニアリング

以下の文字列のカラムをLabel Encodingしてください。

ExterQual
ExterCond
BsmtQual
BsmtCond
HeatingQC
BsmtFinType1
BsmtFinType2

KNIMEにはデフォルトでLabel Encodingするノードはないので、画面右上の”Menu”から”Install extensions”を開き、テキストボックスで”Python”と検索し、使用しているKNIMEのバージョンに合う”KNIME Python Integration”をインストールしてください。

インストール後、再起動することでKNIME上でPyhton環境を実行できる、Pyhton Scriptノードが使用できます。
こちらのノードを用いてLabel Encodingを実行してください。

3. 複数モデルでの価格予測

タスク4: データ分割

Partitioningノードで訓練データと検証データを7:3に分割してください。

タスク5: モデルの学習・予測

KNIMEではデフォルトで様々な学習モデルを使用することが可能です。ノード一覧のテキストボックスで”Regression”と検索し、以下の4つのモデルで検証データのSalePriceカラムの値を予測してください。

Linear Regression
Random Forest
Gradient Boosted Trees
XGBoost Tress Ensemble

XGBoost Tress Ensembleノードは、”Install extensions”から”KNIME XGBoost Integration”をインストールすることで使用可能になります。

4. モデルの評価

タスク6:RMSEによるモデルの評価

予測モデルの性能を評価するための指標の1つにRMSEがあります。これを使って各モデルの性能評価をしてください。

チャレンジ自動機械学習ライブラリーの使用

チャレンジ1.

複数の回帰モデルを手動で選定・チューニングする代わりに、自動機械学習（AutoML）ライブラリを活用することで、開発工数の削減と予測精度の向上が期待できます。今回は、Amazonが開発したPython向けのAutoMLライブラリAutoGluonを使用します。

外部ライブラリを利用するには、Conda仮想環境を設定する必要があります。以下の公式サイトから、OSに合ったMinicondaをダウンロード、インストールしてください。
https://www.anaconda.com/docs/getting-started/miniconda/main

Minicondaをインストールしたら、Anaconda Promptを起動し、以下のコマンドで、仮想環境py_knimeを作成し、AutoGluonをインストールします。

conda create -n py_knime python=3.9 -y 
conda activate py_knime 
pip install -U setuptools wheel 
pip install autogluon==1.2.0

conda create -n py_knime python=3.9 -y

conda activate py_knime

pip install -U setuptools wheel

pip install autogluon==1.2.0

KNIMEアプリケーションの画面右上の”Preference”からインストールしたCondaを設定します。

続いて、KNIMEのPythonに仮想環境py_knimeを設定します。

タスク2の処理を除いたパイプラインで、AutoGluonを用いたモデルの学習・予測を行ってください。

# モデルの学習コードサンプル
from autogluon.tabular import TabularPredictor
predictor = TabularPredictor(label=label_column).fit(train_data)

# モデルの学習コードサンプル

from autogluon.tabular import TabularPredictor

predictor = TabularPredictor(label=label_column).fit(train_data)

参考：AutoGluon Tabular – Quick Start

チャレンジ2.

TabularPredictor.fit()のpresetsパラメータを活用して、モデルの予測精度をさらに向上させてください。
どのような値を指定すれば精度が高くなるかを調べ、実際に適用してみましょう。

参考：TabularPredictor.fit

チャレンジ3.

一般的に、AutoGluonの方がKNIMEの標準的な回帰モデルよりも予測精度が高い傾向にあります。
その理由を、モデル構造や学習手法の違いに着目して説明してください。

KNIME, AutoMLライブラリによる住宅価格予測

KNIMEとは？

House Pricesデータセットの用意

KNIMEアプリケーションのダウンロードとインストール

1. データの読み込み

2. 前処理

タスク1: 型変換

タスク2: 数値データの特徴量エンジニアリング

タスク3: 文字列データの特徴量エンジニアリング

3. 複数モデルでの価格予測

タスク4: データ分割

タスク5: モデルの学習・予測

4. モデルの評価

タスク6:RMSEによるモデルの評価

チャレンジ自動機械学習ライブラリーの使用

チャレンジ1.

チャレンジ2.

チャレンジ3.

採用情報

Categories

Avinton SDGs

Search

KNIME, AutoMLライブラリによる住宅価格予測

KNIMEとは？

House Pricesデータセットの用意

KNIMEアプリケーションのダウンロードとインストール

1. データの読み込み

2. 前処理

タスク1: 型変換

タスク2: 数値データの特徴量エンジニアリング

タスク3: 文字列データの特徴量エンジニアリング

3. 複数モデルでの価格予測

タスク4: データ分割

タスク5: モデルの学習・予測

4. モデルの評価

タスク6:RMSEによるモデルの評価

チャレンジ 自動機械学習ライブラリーの使用

チャレンジ1.

チャレンジ2.

チャレンジ3.

採用情報

Categories

Avinton SDGs

Search

タグ

チャレンジ自動機械学習ライブラリーの使用