• 日本語
    • English (英語)
Avintonジャパン株式会社Avintonジャパン株式会社Avintonジャパン株式会社Avintonジャパン株式会社
  • サービス
    • Avinton Data Platform
    • エッジAIカメラ
    • プライベートクラウド
    • AIサービス開発
    • AI画像解析 – 無償PoC
  • 最新情報
    • ニュースリリース&イベント情報
    • 技術ブログ&インタビュー
  • アカデミー
    • Avintonアカデミー
    • Academy on Campus
  • 採用情報
    • Avintonで働く魅力
    • 新卒採用
    • プロジェクトコーディネーター職紹介
    • 求人
    • よくある質問
  • 企業情報
    • 会社概要
    • 代表からご挨拶
    • SDGsへの貢献
  • お問い合わせ

機械学習入門者向け ランダムフォレストによる Kaggle Titanic生存者予測

  • Python3.8 と OpenCV のインストール (Ubuntu20.04LTS)
  • ルーティング
  • postgreSQLへのshp fileのimport
  • NAT
  • PostGIS exercise
  • 三目並べ – 2.〇×を交互にゲーム盤に入るようにしよう
  • Docker 概要とセットアップ
  • 三目並べ – 3.勝敗がつくようにしよう
  • Docker Engineのubuntu上へのinstall
  • EC2からS3へ自動でぽいぽいアップロードするスクリプトの作成
  • 三目並べ – 4.「スタート」「リセット」ボタンをつけよう
  • 三目並べ – 5.先攻後攻を決めて、コンピュータ対戦にしよう(前編)
  • Apache Zeppelin 基本機能
  • Ruby on Rails を MySQLでセットアップ
  • 機械学習入門者向け Support Vector Machine (SVM) に触れてみる
  • AWSアカウントの作成と必ずやるべきセキュリティ対策
  • Scala 基礎
  • VLAN
  • Apache Spark 基礎
  • 機械学習を用いた画像分類
  • Ruby on Railsによる簡単なウェブアプリケーション
  • 正規表現とパイプ
  • 機械学習エンジニアに必要なスキル
  • Docker, Kubernetesの学び方について
  • Ubuntuの基本設定
  • PostgreSQL Setup
  • REDIS
  • Amazon EC2 インスタンスの初期設定をしよう
  • 軽量版Kubernetesディストリビューション – k0s クラスターの構築
  • Pythonの設定
  • GNS3のセットアップ
  • viエディタ
  • AWSのEC2インスタンスでWordPressブログを公開してみよう
  • Pythonでデータベースを操作する
  • Python2.7とOpenCVのインストール
  • ファイル操作コマンド
  • OpenCVのテストプログラム
  • グループとユーザー
  • Pythonで画像を分類するプログラムを作成する
  • AWS CLIをインストールしてコマンド操作しよう
  • Virtualisation and Container (仮想化とコンテナ) – Ansible, Docker and Kubernetes
  • Windows Server 2012 R2 Hyper-V
  • 困った時に使うコマンド
  • SparkMLによるKaggle Titanic生存者予測
  • PacketTracerのセットアップ
  • 一般グループのユーザーとグループ
  • AWS Route 53を使って独自ドメインのWebページを表示させてみよう
  • Kubernetesクラスター上へのOpenVINOモデルサーバーを使用したサンプルアプリケーションのデプロイ
  • プライバシーポリシー
  • VMware ESXi サーバー構築
  • 三目並べ – 6.先攻後攻を決めて、コンピュータ対戦にしよう(後編)
  • フロントエンド開発のための環境構築
  • フロントエンドのデモンストレーション
  • APIのデモンストレーション
  • CISCO 1800ルータセットアップ
  • ファイル検索コマンド
  • ESXi – Switchの追加とVLAN
  • 質問
  • 仮想化環境のディスク容量を拡張する
  • ユーザー権限とアクセス権
  • 三目並べ – 0.導入
  • テキスト処理
  • ESXi – VyOS
  • データベースへのデータロード
  • 機械学習入門者向け Naive Bayes(単純ベイズ)アルゴリズムに触れてみる
  • CCNA
  • ESXi – 小規模ネットワーク 構築
  • ファイル管理
  • 機械学習入門者向け ChainerRLでブロック崩しの学習
  • AWS CLIを使ってEC2のファイルをS3へアップロードしよう
  • Apache NiFiの環境設定
  • CSV import & export – Node.js, mySQL – 1
  • 機械学習入門者向け ランダムフォレストによる Kaggle Titanic生存者予測
  • NodeJSでWebアプリケーション開発 – Socket.IO編
  • CSV import & export – Node.js, mySQL – 2
  • Apache NiFi データパイプライン基礎
  • PCからルータ、スイッチへのSSH接続設定
  • 【Python入門】Python Numpy チュートリアル
  • SQL 便利な関数
  • PostgreSQLによるデータ分析
  • Apache NiFi Exercise
  • 機械学習入門者向け 分類と回帰の違いをプログラムを書いて学ぼう
  • NodeJSでWebアプリケーション開発 – React編
  • Pythonによるマルチスレッドプログラミング実践
  • Apache SparkとApache Zeppelinの概要と環境構築
  • Certbotを使ってSSL証明書を発行し、HTTP通信を暗号化しよう
  • DockerとApacheを使ってWebサーバーを構築しよう
  • NodeJSでWebアプリケーション開発 – React編
  • AmazonEC2とVPCでネットワークとサーバーを構築しよう
  • AWS入門者向け 初心者が最初に理解すべきEC2とVPCの基本的な用語解説
  • Linuxとは
  • Pandasによる構造化データ分析
  • ダイナミックルーティング
  • PostgreSQL – Python – Apache – Bootstrap
  • 三目並べ – 1.ゲーム盤を作ろう
Home Avintonアカデミー 機械学習入門者向け ランダムフォレストによる Kaggle Titanic生存者予測
predict survival on the Titanic

画像:wikipedia

この記事では、ランダムフォレストという機械学習アルゴリズムをTitanicのデータセットに適用します。ここでは、分類問題においてのランダムフォレスト、決定木を扱います。
ランダムフォレストによる予測の結果、テストデータに対しての予測モデルの精度を確認し、その判断を下す際に重要視された特徴を確認します。

ランダムフォレストとは

ランダムフォレストとは、決定木をベースにした集団学習アルゴリズムです。
決定木では、木の深さに制限を設けないと、訓練データに対して過剰適合してしまいます。その欠点を補うために、データの特徴の中からランダムに着目して作成した決定木を複数用意します。それら1つ1つの出力を踏まえて多数決を行い、全体として1つの予測結果を出力します。

決定木とは

決定木とは、データの特徴に関するif-thenルールでデータを分けていき、データ分岐の終端でそのデータが何のクラスに属しているかを判断するアルゴリズムです。
決定木

図のように、各データの持つ要素に関しての条件(またはQuestion)を各ノードに設定し、条件に従ってデータを分けていきます。決定木では深さの指定が無い場合には、データのクラスが完全に分けられるまで分岐を行います。深さを指定した木を途中で打ち切った場合、出力は各ノードにおいて最多数を占めるクラスとなります。

Titanicデータセットの用意

決定木 ランダムフォレスト
まずはTitanicのデータセットをkaggleからダウンロードします。
kaggle

  • 1.kaggleのトップページからSign Inを押して、お持ちのfacebookアカウント等でログインするか、アカウントの作成します。
  • 2.ログインが完了したら、ページ上部のcompetitionsに移動します。
  • 3.ページ下部のTitanic: Machine Learning from Disasterを選択し、datasetのタブをクリックします。
  • 4.そのページから、train.csvをダウンロードしてください。

プログラム

ここからは、実際にプログラムを実行していきます。
前提条件としては、Anacondaによってpythonと各種ライブラリがインストールされていることを前提とします。また、プログラムはJupyter Notebook上で動作するように書かれています。
Anacondaのインストール方法はこちらの機械学習を用いた画像分類体験アカデミーで解説しています。
こちらのJupyter Notebookをダウンロードしてプログラムを実行してください。

必要なライブラリのインポート

プログラムの実行に必要なライブラリをインポートします。

1
2
3
4
5
6
7
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
 
from sklearn.ensemble import RandomForestClassifier as RandomForest
import pandas as ps
from sklearn.model_selection import train_test_split

データの読み込みと確認

csvファイルからdataを読み込みます。
読み込んだデータは、pandasのdataframe形式で扱うことができます。

1
2
data = ps.read_csv('train.csv')
data

各列のデータ形式と、各列の要素にNaNが含まれているかを確認します。

1
2
print(data.dtypes)
print(data.isnull().any())

データの整形

性別を文字列から数値に変換します。

1
data['Gender'] = data['Sex'].map({"female": 0, "male": 1}).astype(int)

年齢の欠損値を欠損していない年齢の中央値で補完します。

1
data["Age"] = data["Age"].fillna(data["Age"].median())

分析に使用しない列を削除します。

1
data = data.drop(['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'], axis=1)

データから乗船者のidと生存ラベルを取り除いたデータと、生存ラベルとに分けます。

1
2
X = data.drop(['Survived', 'PassengerId'], axis=1).values
y = data['Survived'].values

先ほど分離したデータを訓練データとテストデータとに分けます。

1
X_train, X_test, y_train, y_test = train_test_split(X, y)

予測モデルの作成と評価

訓練データをもとに、ランダムフォレストによる予測モデルを作成します。
n_estimatorsでは、ランダムフォレストで作成する決定木の数を指定します。

1
model = RandomForest(n_estimators=100).fit(X_train, y_train)

テストデータに対する予測の正解率を出力します。
船の乗客の情報X_testを入力として生存予測(0,1)を行い、その予測とy_testで与えられる正解を比較して、その結果の正解率(数値)が表示されるはずです。

1
model.score(X_test, y_test)

ランダムフォレストの予測で用いられた各変数の重要度を出力します。

1
2
3
header = np.array(data.drop(['Survived', 'PassengerId'], axis=1).columns)
print(header)
print(model.feature_importances_)

あなたも、Avintonでこのような最先端技術に日常的に
取り組んでみませんか?

優秀なエンジニアの成長を導きながら、AIやビッグデータなどの最先端技術を活用していくことが私たちのビジョンです。
Avintonの充実した技術研修でスキルアップを図り、あなたのキャリア目標を達成しませんか?

採用情報

採用情報

採用情報

Avinton SDGs

SDGsへの貢献

Search

タグ

AI AI Big Data Big Data ccna Digital Transformation DX IoT LPIC Python Ruby SDGs Webエンジニア イベント インタビュー インフラエンジニア エンジニア オンラインセミナー キャリアチェンジ サーバーエンジニア システム開発 セミナー データサイエンス データサイエンティス データベース データ分析 データ解析 ネットワークエンジニア ビックデータ ボランティア 人工知能 勉強会 営業 就職活動 技術インターン 採用 新卒 新卒採用 新規事業 機械学習 派遣 深層学習 社員インタビュー 経営者交流会 転職
© 2022 Avinton | All Rights Reserved | プライバシーポリシー
  • サービス
    • Avinton Data Platform
    • エッジAIカメラ
    • プライベートクラウド
    • AIサービス開発
    • AI画像解析 – 無償PoC
  • 最新情報
    • ニュースリリース&イベント情報
    • 技術ブログ&インタビュー
  • アカデミー
    • Avintonアカデミー
    • Academy on Campus
  • 採用情報
    • Avintonで働く魅力
    • 新卒採用
    • プロジェクトコーディネーター職紹介
    • 求人
    • よくある質問
  • 企業情報
    • 会社概要
    • 代表からご挨拶
    • SDGsへの貢献
  • お問い合わせ
  • 日本語
    • English (英語)
Avintonジャパン株式会社