• 日本語
    • English (英語)
Avinton JapanAvinton JapanAvinton JapanAvinton Japan
  • サービス
    • Avinton Data Platform
    • エッジAIカメラ
      • 自動車ナンバープレート自動認識システム
    • プライベートクラウド
    • AIサービス開発
    • AIカメラ/画像解析無料体験版
  • 最新情報
    • ニュースリリース&イベント情報
    • 技術ブログ&インタビュー
  • アカデミー
    • Avintonアカデミー
    • Academy on Campus
    • Academy with Platform
  • 採用情報
    • Avintonジャパン 採用ページ
    • 求人一覧
    • よくある質問
    • 新卒採用
  • 企業情報
    • 会社概要
    • 代表からご挨拶
    • SDGsへの貢献
  • お問い合わせ

Apache Spark 基礎

  • ルーティング
  • データベースの命名規則
  • 三目並べ – 2.〇×を交互にゲーム盤に入るようにしよう
  • 三目並べ – 3.勝敗がつくようにしよう
  • クリーンコード(Clean Code)
  • 三目並べ – 4.「スタート」「リセット」ボタンをつけよう
  • 三目並べ – 5.先攻後攻を決めて、コンピュータ対戦にしよう(前編)
  • インフラストラクチャー(サーバー、コンポーネント、RAID)
  • 機械学習入門者向け Support Vector Machine (SVM) に触れてみる
  • YOLOv8を用いた物体検出
  • 正規表現とパイプ
  • 機械学習エンジニアに必要なスキル
  • 軽量版Kubernetesディストリビューション – k0s クラスターの構築
  • ファイル操作コマンド
  • グループとユーザー
  • 困った時に使うコマンド
  • 一般グループのユーザーとグループ
  • プライバシーポリシー
  • 三目並べ – 6.先攻後攻を決めて、コンピュータ対戦にしよう(後編)
  • フロントエンド開発のための環境構築
  • ファイル検索コマンド
  • 質問
  • 仮想化環境のディスク容量を拡張する
  • ユーザー権限とアクセス権
  • データ分析基礎 – Part1
  • 三目並べ – 0.導入
  • テキスト処理
  • データベースへのデータロード
  • 機械学習概要1
  • 機械学習入門者向け Naive Bayes(単純ベイズ)アルゴリズムに触れてみる
  • ファイル管理
  • SSHを使用してホストOSからゲストOSに接続する
  • 機械学習入門者向け ChainerRLでブロック崩しの学習
  • 機械学習入門者向け ランダムフォレストによる Kaggle Titanic生存者予測
  • 機械学習概要2
  • データ分析基礎 – Part 2
  • 機械学習入門者向け 分類と回帰の違いをプログラムを書いて学ぼう
  • フロントエンドのWeb開発について
  • ダイナミックルーティング
  • 三目並べ – 1.ゲーム盤を作ろう
  • 【Python入門】Python Numpy チュートリアル
  • Amazon EC2 インスタンスの初期設定をしよう
  • AmazonEC2とVPCでネットワークとサーバーを構築しよう
  • Apache NiFi Exercise
  • Apache NiFi データパイプライン基礎
  • Apache NiFiの環境設定
  • Apache Spark 基礎
  • Apache SparkとApache Zeppelinの概要と環境構築
  • Apache Superset maptoolの使い方
  • Apache Superset 基礎
  • Apache Superset 概要と環境構築
  • Apache Zeppelin 基本機能
  • APIのデモンストレーション
  • Avinton Academy コンテンツガイド
  • AWS CLIをインストールしてコマンド操作しよう
  • AWS CLIを使ってEC2のファイルをS3へアップロードしよう
  • AWS Route 53を使って独自ドメインのWebページを表示させてみよう
  • AWSアカウントの作成と必ずやるべきセキュリティ対策
  • AWSのEC2インスタンスでWordPressブログを公開してみよう
  • AWS入門者向け 初心者が最初に理解すべきEC2とVPCの基本的な用語解説
  • CCNA
  • Certbotを使ってSSL証明書を発行し、HTTP通信を暗号化しよう
  • CISCO 1800ルータセットアップ
  • CSV import & export – Node.js, mySQL – 1
  • CSV import & export – Node.js, mySQL – 2
  • Docker Compose(Nginx + Flask + MySQL)演習
  • Docker Engineのubuntu上へのinstall
  • Docker 概要とセットアップ
  • Docker, Kubernetesの学び方について
  • Dockerコンテナイメージの最適化/ベストプラクティス
  • DockerとApacheを使ってWebサーバーを構築しよう
  • EC2からS3へ自動でぽいぽいアップロードするスクリプトの作成
  • ESP32-CAMのサンプルアプリケーションを実行する
  • 01 – Sparkfun Inventor’s Kit の準備
  • 02 – Sparkfun Inventor’s KitでLチカ
  • 03 ポテンショメータでLEDの点滅間隔をアナログ入力する
  • 04 フォトレジスタで明るさに反応するシステムをつくる
  • 05 LCDに文字列を表示する
  • 06 – BME280とLCDを組み合わせて温度計をつくる
  • ESP32とArduino IDE/PlatfromIOでHello Worldアプリケーションの実行
  • ESP32と超音波センサー HC-SR04 で物体の距離を計測する
  • ESXi – Switchの追加とVLAN
  • ESXi – VyOS
  • ESXi – 小規模ネットワーク 構築
  • Gitとは
  • VS CodeでGitHub Copilotを設定する
  • VSCode リモート開発環境
  • GNS3のセットアップ
  • Kubernetesクラスター上へのOpenVINOモデルサーバーを使用したサンプルアプリケーションのデプロイ
  • Linuxとは
  • NAT
  • NodeJSでWebアプリケーション開発 – React編
  • NodeJSでWebアプリケーション開発 – React編
  • NodeJSでWebアプリケーション開発 – React編
  • NodeJSでWebアプリケーション開発 – Socket.IO編
  • NVIDIA Cumulus VX + GNS3でBGPネットワークのシミュレーション
  • OpenCVのテストプログラム
  • PacketTracerのセットアップ
  • Pandasによる構造化データ分析
  • PCからルータ、スイッチへのSSH接続設定
  • PostGIS exercise
  • PostgreSQL – Python – Apache – Bootstrap
  • MySQLとMySQL Workbench のセットアップ
  • PostgreSQL Setup
  • PostgreSQL – インデックスを利用したパフォーマンス改善方法
  • PostgreSQL – パーティショニングを利用したパフォーマンス改善方法
  • PostgreSQLによるデータ分析
  • postgreSQLへのshp fileのimport
  • Python2.7とOpenCVのインストール
  • Python3.8 と OpenCV のインストール (Ubuntu20.04LTS)
  • Pythonでデータベースを操作する
  • Pythonで画像を分類するプログラムを作成する
  • Pythonによるマルチスレッドプログラミング実践
  • Raspberry Pi 4B のセットアップ
  • Raspberry PiとBME280を使用して温度と湿度、気圧を読み取る
  • REDIS
  • Redux基礎 – 主要な概念と用語
  • Ruby on Rails を MySQLでセットアップ
  • Ruby on Railsによる簡単なウェブアプリケーション
  • SampleアプリケーションのKubernetes上へのデプロイ
  • Scala 基礎
  • scikit-learnとは
  • Spark SQL エクササイズ
  • SparkMLによるKaggle Titanic生存者予測
  • KNIME, AutoMLライブラリによる住宅価格予測
  • SparkMLによる住宅価格予測
  • SQL 便利な関数
  • Ubuntuの基本設定
  • uhubctlでUSBデバイスのオンオフをコントロール
  • Terraform入門 2 – Terraformのstate管理
  • Terraform入門 1 – TerraformでAWS上にEC2インスタンスを作成する
  • Virtualisation and Container (仮想化とコンテナ) – Ansible, Docker and Kubernetes
  • viエディタ
  • VLAN
  • VMware ESXi サーバー構築
  • Webアプリ開発に欠かせないGoogle Chrome DevToolsの基本
  • Windows Server 2012 R2 Hyper-V
  • YOLOv5を用いた物体検出
Home Avintonアカデミー Apache Spark 基礎
Apache Spark logo

本チュートリアルでは、Apache Spark SQLの基本的な関数を学ぶことができます。
関数についての詳細な説明に関しては、公式ドキュメントを参照ください。

前置き

Apache SparkとApache Zeppelinの概要と環境構築で説明した通り、Apache Sparkはビッグデータに対する高速分散処理が出来ることが大きなメリットの一つです。

興味のある方はぜひ複数ノードのクラスターなどを構築し、より大きいデータでの処理を体験することをおすすめします。

本チュートリアルで扱うデータの大きさと環境ではSparkのメリットを享受するには十分とは言えませんが、Sparkの基本文法等を身に着けるのに役立つはずです。

準備

  • Apache SparkとApache Zeppelinの概要と環境構築

環境

  • Apache Zeppelin 0.9.0
  • Apache Spark 2.4.5

チュートリアル

サンプルデータのダウンロード

  • 都道府県市町村区人口 japan.csv
  • 男女別人口及び世帯数-行政区 e1yokohama2204.csv
  • 出典:横浜市政策局総務部統計情報課 男女別人口及び世帯数-行政区 

 

データの整形

日本の都道府県市町村区の人口のデータを作成

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
%spark
 
 
// japan.csvをデータフレームとして読み込み
val dfPopulation = spark
.read
.format("csv")
.option("header","true")
.load("/data/japan.csv")
 
// populationカラムがnullではない値でフィルタリング
.filter(col("population").isNotNull)
 
// city_wardカラムの作成
.withColumn(
    "city_ward",
     when(col("ward").isNull, lit("c"))
    .when(col("ward").isNotNull, lit("w"))
    .otherwise(lit(null))
    )
    
// idカラムの作成
.withColumn("id", monotonically_increasing_id())
 
// population, idカラムのデータタイプをInteger型にキャスト
.withColumn("population", col("population").cast("Integer"))
.withColumn("id", col("id").cast("Integer"))
 
// データフレームをメモリにキャッシュ
.cache()
 
// カラム数と行数を表示
println(dfPopulation.columns.length, dfPopulation.count())
 
// スキーマを表示
dfPopulation
.printSchema
 
// データフレームを表示
dfPopulation
.show(1000)
 
// parquetファイル形式で保存
dfPopulation
.write
.format("parquet")
.mode("overwrite")
.option("header", "true")
.save("/data/japan_population/")

 

横浜市の区の面積のデータを作成

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
%spark
 
 
// e1yokohama2204.csvをデータフレームとして読み込み
val dfAreaYokohama = spark
.read
.option("header","true")
.csv("/data/e1yokohama2204.csv")
 
// prefecture, cityカラムの作成
.withColumn("prefecture", lit("Kanagawa-ken"))
.withColumn("city", lit("Yokohama"))
 
// カラム名の変更
.withColumnRenamed("市区名","ward")
.withColumnRenamed("面積[平方キロメートル]","area")
 
// 必要なカラムを選択
.select("prefecture","city","ward","area")
 
// 必要のない行を削除
.filter(col("ward")=!="横浜市")
 
// wardカラムを作成
.withColumn(
    "ward",
     when(col("ward")==="鶴見区", "Tsurumi-ku")
    .when(col("ward")==="神奈川区", "Kanagawa-ku")
    .when(col("ward")==="西区", "Nishi-ku")
    .when(col("ward")==="中区", "Naka-ku")
    .when(col("ward")==="南区", "Minami-ku")
    .when(col("ward")==="港南区", "Konan-ku")
    .when(col("ward")==="保土ケ谷区", "Hodogaya-ku")
    .when(col("ward")==="旭区", "Asahi-ku")
    .when(col("ward")==="磯子区", "Isogo-ku")
    .when(col("ward")==="金沢区", "Kanazawa-ku")
    .when(col("ward")==="港北区", "Kohoku-ku")
    .when(col("ward")==="緑区", "Midori-ku")
    .when(col("ward")==="青葉区", "Aoba-ku")
    .when(col("ward")==="都筑区", "Tsuzuki-ku")
    .when(col("ward")==="戸塚区", "Totsuka-ku")
    .when(col("ward")==="栄区", "Sakae-ku")
    .when(col("ward")==="泉区", "Izumi-ku")
    .when(col("ward")==="瀬谷区", "Seya-ku")
    .otherwise(lit(null))
    )
 
// データフレームをメモリにキャッシュ  
.cache()
 
// カラム数と行数を表示
println(dfAreaYokohama.columns.length, dfAreaYokohama.count())
 
// スキーマを表示
dfAreaYokohama
.printSchema
 
// データフレームを表示
dfAreaYokohama
.show()
 
// parquetファイル形式で保存
dfAreaYokohama
.write
.format("parquet")
.mode("overwrite")
.option("header", "true")
.save("/data/area_yokohama/")

 

データの加工

データのユニオン

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
%spark
 
 
// japan_populationデータの読み込み
val dfPopulation = spark
.read
.format("parquet")
.option("header","true")
.load("/data/japan_population/")
// データフレームをメモリにキャッシュ
.cache()
 
// dfPopulationHokkaidoKitamiを作成
val dfPopulationHokkaidoKitami = dfPopulation
// フィルタリング
.filter(col("prefecture")==="Hokkaido"&&col("city")==="Kitami")
// データフレームを表示
dfPopulationHokkaidoKitami.show()
 
// dfPopulationHokkaidoAkabiraを作成
val dfPopulationHokkaidoAkabira = dfPopulation
// フィルタリング
.filter(col("prefecture")==="Hokkaido"&&col("city")==="Akabira")
// データフレームを表示
dfPopulationHokkaidoAkabira.show()
 
// 2つのデータフレームをユニオン
val dfUnion = dfPopulationHokkaidoKitami
.union(dfPopulationHokkaidoAkabira)
// データフレームを表示
dfUnion.show()

データのジョイン

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
%spark
 
 
// japan_populationデータの読み込み
val dfPopulation = spark
.read
.format("parquet")
.option("header","true")
.load("/data/japan_population/")
 
// area_yokohamaデータの読み込み
val dfAreaYokohama = spark
.read
.format("parquet")
.option("header","true")
.load("/data/area_yokohama/")
 
// dfPopulationとdfAraaYokohamaのジョイン
val dfJoin = dfPopulation
.join(
    dfAreaYokohama,
    Seq("prefecture","city","ward"),
    "inner"
    )
 
// population_density(人口密度)カラムの作成
.withColumn("population_density", col("population")/col("area"))
 
// データフレームをメモリにキャッシュ  
.cache()
 
// カラム数と行数を表示
println(dfJoin.columns.length, dfJoin.count())
 
// スキーマを表示
dfJoin
.printSchema
 
// データフレームを表示
dfJoin
.show()

演習

下記のデータの集計をSparkSQLを使って実践してみましょう

  • 最も人口の多い区
  • 市の人口の標準偏差
  • 北海道の市の数
  • 全国の区の総数
  • 各県の人口を降順で
  • 各県の名前と県内で最も人口の多い市
  • 各市の名前と属す県、最も人口の少ない区と多い区、市内の総人口をそれぞれの市につき一つの行で表示

あなたも、Avintonでこのような最先端技術を習得し活用してみませんか?

社員の成長を導きながら、AIやビッグデータなどの最先端技術をプロジェクトに活用していくことが私たちのビジョンです。Avintonの充実した技術研修でスキルアップを図り、あなたのキャリア目標を一緒に達成しませんか?

採用情報

採用情報

採用情報

Categories

  • 相互学習
  • 採用
  • 社員インタビュー
  • 学習&資格取得
  • 技術解説
  • イベント告知
  • 学内説明会&講義
  • 産学連携
  • 就職活動
  • イベントレポート
  • その他
  • 技術ブログ&インタビュー
  • mainpage
  • New Graduates Interviews
  • 中途エンジニア
  • カテゴリーなし
  • ニュースリリース&イベント

Avinton SDGs

SDGsへの貢献

Search

タグ

AI時代の経営 AvintonAcademy on Campus AWS Docker DQN FINOLAB Git IoT James Cauchi LPIC LPIC-2 PM&PMO Predictive Maintenance Raspberry Pi Sound Analysis SSD イベントレポート インターン インフラ エッジコンピューティング エリクソン クラウトネイティブ セミナー ディープラーニング データ生成 データ解析 ファンダフルリレーマラソン モブワーク リスキリング リードエンジニア 中瀬幸子 企業説明会 勉強会 大学&専門学校 帰社日 強化学習、機械学習 技術ブログ 採用 掲載告知 未経験 田中 研之輔 画像分類 社員紹介 第一級陸上特殊無線技士 観光データ
© 2023 Avinton | All Rights Reserved | プライバシーポリシー
  • サービス
    • Avinton Data Platform
    • エッジAIカメラ
      • 自動車ナンバープレート自動認識システム
    • プライベートクラウド
    • AIサービス開発
    • AIカメラ/画像解析無料体験版
  • 最新情報
    • ニュースリリース&イベント情報
    • 技術ブログ&インタビュー
  • アカデミー
    • Avintonアカデミー
    • Academy on Campus
    • Academy with Platform
  • 採用情報
    • Avintonジャパン 採用ページ
    • 求人一覧
    • よくある質問
    • 新卒採用
  • 企業情報
    • 会社概要
    • 代表からご挨拶
    • SDGsへの貢献
  • お問い合わせ
  • 日本語
    • English (英語)
Avinton Japan