Apache Spark：ビッグデータ分析と機械学習の革命

By James Cauchi | 技術解説, 技術ブログ＆インタビュー | Comments are Closed | 11 1月, 2022 | 2

ビッグデータツールとして、Apache Sparkは最近のビッグデータの世界で絶大な人気を博しています。その分野のエンジニアは、Apache Sparkがビッグデータ分析と機械学習に革命をもたらしていくと予測しています。この記事では、世界が注目するApache Sparkとは何か、そしてそれがどのように活用されているのかを探っていきます。

Sparkとは？

Sparkは、大規模なデータセット（ビッグデータ）向けに高速で柔軟な分析のために設計された、オープンソースのビッグデータ処理エンジンです。 2009年にカリフォルニア大学バークレー校のAMPLabで開発されたSparkは、2010年3月にオープンソース化され、2013年にApache Software Foundationに提出され、すぐにトップレベルのプロジェクトになりました。

ApacheSparkのユースケースは数多く存在しています。約10年間で、ビッグデータアーキテクチャの中核技術になりました。データを取り扱う組織が市場のニーズに適応するため、Sparkに関するチームの知識を拡大することが必要です。

Sparkが登場するまで、機械学習のプロジェクトは実質的にスケーラブルではなく、処理時間がかかりすぎました。 Sparkは複数の言語に対応しています。大きな利点の2つは、そのスケーラビリティと処理速度です。 Scala、PySpark、R、SQLなどの複数の言語をサポートしています。 Sparkアプリケーションを最適化するための多くの構成パラメーターも提供しています。

Sparkは、単一のドライバーと複数のエグゼキューターで構成されています。単一のエグゼキュータまたはアプリケーションを処理するために必要な数のエグゼキュータを持つように構成できます。また、自動スケーリングをサポートしており、エグゼキュータの最小数と最大数を構成できます。

ビックデータをルーツとしたApacheSparkのユースケース

データソリューションを設計、開発・販売している企業にとって、高速データ処理は非常に重要です。それらを実現することができれば、ビジネスも拡張することができるからです。

Science Focusは、Google、Facebook、Microsoft、およびAmazonが少なくとも1,200ペタバイトのデータを保有していると推定しています。彼らが収集したビッグデータの量は考えられないほどであり、アクセスすることはできません。最先端のツールでデータ処理をしている場合でも、それらのデータを処理して価値的に利用することは難しいと言われています。

それがビッグデータです。収集されたデータ処理の必要量に対応でき、迅速かつ正確に実行できるということは、これらの企業がデータ製品（プラットフォーム、アルゴリズム、ツール、ウィジェットなど）をユーザーにとってより価値のあるものにすることができることを意味します。

ただし、Sparkを必要とするために必ずしも何百万ものユーザーがいる必要はありません。大規模なデータセットを操作する必要があります。データ品質SLAの基準が高い小規模なデータ駆動型組織も、Sparkを使用してより正確なデータをより高速に配信します。次に、このデータは、機械学習製品、分析製品、およびその他のデータ駆動型製品に電力を供給します。

Sparkは、一部の組織にとっては強力なソリューションですが、その他の組織にとっては性能が過度な場合があります。これらの組織では、処理するデータの量が十分に多くなく、十分に計算コストが保証されおり、データ配信する必要があるタイムラインが緊急ではない場合は、ApacheSparkのユースケースは限られています。

DataOpsがビッグデータを処理していない場合、専任のエンジニアリングチームを構築することを正当化することはできず、Sparkなどの特殊なツールを使用することを正当化することもできません。追加された複雑さとインフラストラクチャへの接続は、エラーの余地を残します。この状況では、データが抽出され、クラスターに渡され、計算され、結合され、保存されるたびに、把握するのが難しい障害やバグの可能性をパイプライン上に展開してしまいます。

ApacheSparkの主要コンポーネント

Spark Core：Sparkプラットフォームの一般的な実行エンジンであるSpark Coreには、タスクスケジューリング、メモリ管理、障害回復などの機能のためのさまざまなコンポーネントが含まれています。復元力のある分散データセット（RDD）を定義するSparkのAPIもSparkCoreに存在します。 RDDのおかげで、SparkはHadoopクラスターを利用して保存されたデータを取得し、そのデータを前例のない速度でメモリ内で処理できるため、データをリアルタイムでインタラクティブに探索できます。

Spark SQL：ビッグデータは構造化データと非構造化データで構成されており、それぞれが異なる方法でクエリされます。 Spark SQLは、SparkへのSQLインターフェースを提供します。これにより、開発者は、構造化データのSQLクエリと、RDDでサポートされる非構造化データのプログラムによる操作をすべて単一のアプリケーション内で組み合わせることができます。 SQLを複雑な分析と組み合わせるこの機能により、SparkSQLはデータウェアハウス向けの強力なオープンソースツールになります。

GraphX：Sparkの統合フレームワークには、グラフを操作したりグラフ並列計算を実行したりするための一般的なグラフアルゴリズムと演算子のライブラリであるGraphXもあります。 GraphXを使用すると、Spark RDDとAPIを拡張して、各頂点とエッジに任意のプロパティを付加した有向グラフを作成できます。 GraphXは、ソーシャルネットワーク接続パターンを明らかにするFacebookのFriendGraphなどの静的グラフの分析に最適です。

Apache Sparkの利点

ApacheSparkが提供するいくつかの利点は次のとおりです。

使いやすさ：Sparkを使用すると、ユーザーはJava、Scala、またはPythonでアプリケーションをすばやく作成し、Hadoopの分散環境を最大限に活用する並列アプリケーションを構築できます。
高速分散処理用に設計されています。Sparkのエンジンを使用すると、大量のデータをメモリ内またはバッチで迅速に処理できます。
複数の言語をサポート：Sparkを使用すると、ユーザーはSQL、Python、R、およびScalaを使用してコーディングできます。
強い信頼をおけるデータサイエンスエコシステムを提供します。Sparkを使用すると、機械学習や高度な分析のユースケースにカスタムパッケージまたはビルド済みパッケージを簡単に使用できます。
さまざまなワークロードの処理が可能。Sparkを使用すると、ストリーミングを使用して、ほぼリアルタイムのデータ処理、バッチ処理、およびさまざまなデータソース間でのアドホッククエリの実行を行うことができます。

Sparkストリーミング

Spark Streamingを使用すると、Sparkを使用してストリーム処理を行うことができます。マップジョブを作成するのと同じ方法でストリーミングジョブを作成します。実行時に、Sparkは入力ストリームを一連の小さなジョブに分割し、それらをバッチで実行します。入力は、HDFS、Kafka、Kinesis、Flumeなどのソースから取得できます。一般的な出力先は、ファイルシステム、データベース、またはダッシュボードです。

SparkStreamingはSpark0.7.0でアルファ版になりました。これは、discretized streams(DStream)のアイデアに基づいています。各DStreamはRDDのシーケンスとして表される、低レベルのRDDでバックアップされたバッチワークロードを使用している場合は簡単に使用できます。 DStreamsは多くの改善を試みたようですが、低レベルのAPIであるため、依然としてさまざまな課題がありました。

Spark構造化ストリーミング

構造化ストリーミングはSpark SQLエンジン上に構築されたスケーラブルで耐障害性のあるストリーミング処理エンジンです。構造化ストリーミングは、高速、スケーラブル、障害耐性、エンドツーエンドの確実に一回のストリーミング処理を提供します。静的データでバッチ計算を表現するのと同じ方法で、ストリーミング計算を表現できます。 Scala、Java、Python、またはRでDatasetまたはDataFrame APIを使用して、ストリーミング集計、イベントタイムウィンドウ、ストリームからバッチへの結合などを表現できます。SparkSQLエンジンは段階的、継続的に実行し、最終的な結果を到着し続けるストリーミングデータとして更新します。

計算は、同じ最適化されたSparkSQLエンジンで実行されます。

Spark構造化ストリーミングは、SparkSQL上に構築された拡張機能としてSpark2.0で導入されました。そのため、SparkSQLコードとメモリの最適化を活用します。構造化ストリーミングは、SQLだけでなく、DatasetやDataFrameAPIなどの非常に強力な抽象化も提供します。

Sparkストリーミングと構造化ストリーミング

構造化ストリーミングとDStreamsを使用したストリーミングは、どちらもマイクロバッチ処理を使用します。大きな違いは、遅延性とメッセージ配信の保証です。構造化ストリーミングは100ミリ秒以上の遅延で1回だけの配信を提供しますが、DStreamsを使用したストリーミングアプローチは少なくとも1回の配信のみを保証しますが、1ミリ秒の遅延で提供できます。

Sparkストリーミングのユースケース

これは、ApacheSparkの主なユースケースのいくつかのレビューです。

ストリーミングデータ：Apache Sparkの主なユースケースは、ストリーミングデータを処理する機能です。毎日大量のデータが処理されるため、企業はすべてのデータをリアルタイムでストリーミングおよび分析できることが不可欠になっています。また、Spark Streamingには、この余分なワークロードを処理する機能があります。一部の専門家は、Sparkは、タイプに関係なく、ストリームコンピューティングアプリケーションの頼れるプラットフォームになる可能性があるとさえ理論付けています。この主張の理由は、Spark Streamingが異種のデータ処理機能を統合し、開発者が単一のフレームワークを使用してすべての処理ニーズに対応できるようにするためです。

機械学習：Apache Sparkの多くのユースケースのもう1つは、機械学習機能です。 Sparkには、高度な分析を実行するための統合フレームワークが付属しており、ユーザーがデータセットに対して繰り返しクエリを実行するのに役立ちます。これは本質的に機械学習アルゴリズムの処理に相当します。このフレームワークに含まれるコンポーネントには、Sparkのスケーラブルな機械学習ライブラリ（MLlib）があります。 MLlibは、クラスタリング、分類、次元削減などの分野で機能します。これらすべてにより、Sparkは、予測インテリジェンス、マーケティング目的の顧客セグメンテーション、感情分析など、非常に一般的なビッグデータ機能に使用できます。ネットワークセキュリティは、Sparkの機械学習機能の優れたビジネスケースでもあります。セキュリティプロバイダーは、Sparkスタックのさまざまなコンポーネントを利用して、悪意のあるアクティビティの痕跡がないかデータパケットをリアルタイムで検査できます。

インタラクティブ分析：Sparkの最も注目すべき機能の中には、インタラクティブ分析の機能があります。 Apache Sparkは、サンプリングなしで探索的クエリを実行するのに十分な速度です。 Sparkを視覚化ツールと組み合わせることにより、複雑なデータセットをインタラクティブに処理および視覚化できます。構造化ストリーミングにより、ユーザーはライブデータに対してインタラクティブなクエリを実行できます。ライブストリーミングを他のタイプのデータ分析と組み合わせることで、Structured Streamingは、ユーザーがWeb訪問者の現在のセッションに対してインタラクティブなクエリを実行できるようにすることで、Web分析を強化します。

フォグコンピューティング：フォグコンピューティングは、低遅延性、機械学習の超並列処理、および非常に複雑なグラフ分析アルゴリズムをますます必要とするため、分散データの処理に新たな複雑さをもたらします。幸い、Spark Streaming、インタラクティブなリアルタイムクエリツール（Shark）、機械学習ライブラリ（MLib）、グラフ分析エンジン（GraphX）などの主要なスタックコンポーネントを備えたSparkは、フォグコンピューティングソリューションとしての資格を超えています。実際、IoT業界が徐々にそして必然的に収束するにつれて、多くの業界専門家は、他のオープンソースプラットフォームと比較して、Sparkが事実上のフォグインフラストラクチャとして出現する可能性があると予測しています。

Spark vs. Hadoop

Sparkがオープンソース・コミュニティの中で大きな反響を呼んでいるのは間違いありません。ビッグデータ戦略を導入しようとしている企業は、Hadoop、Spark、あるいはその両方、どちらのソリューションがより適しているのか疑問に思っているようです。この疑問に答えるために、この2つのビッグデータフレームワークを比較してみました。

SparkはスケーラブルなオープンソースのHadoop実行エンジンで、複数のフォーマットを持つ大規模なデータセットを高速かつ柔軟に分析するために設計されています（「高速」という言葉を強調しています）。Hadoopと比較して、Sparkはメモリ上では100倍、ディスク上では複雑なアプリケーションでも10倍の速度でプログラムを実行します。

Hadoopは、オープンソースのソフトウェア、分散ファイルシステム（HDFS）、およびMapReduce実行エンジンを使用して、非常に大規模なデータセットをコモディティサーバーの分散クラスターに格納し、管理し、並列処理する並列データ処理プラットフォームです。しかし、Hadoopには大きな欠点があります。それは、SparkとHadoopを比較した場合、あまり高速に動作しないことです。というのも、マップやリダクションのジョブのほとんどは、完了までに数分から数時間以上もかかる長時間のバッチジョブだからです。その上、ビッグデータへの要求は高まっており、バッチワークロードはHadoop MapReduceフレームワークでは対応できないような、よりインタラクティブな作業に変わってきています。

SparkがHadoopの他のツールと違うのは、バッチとストリーミングの両方のワークロードを圧倒的なスピードで処理できることです。

Sparkは、MapReduceのように蓄積されたデータのバッチを事後的に処理するだけではありません。Spark Streamingにより、Sparkはリアルタイムにデータを操作することができ、数秒で終わる高速でインタラクティブなクエリを実現します。

Hadoop上のSparkは、SQLクエリ、ストリーミングデータ、機械学習やグラフアルゴリズムなどの複雑な分析などの操作をサポートします。また、Sparkはこれらの複数の機能を1つのワークフローにシームレスに組み合わせることができます。

ここで指摘しておきたいのは、Sparkにはファイルを分散して整理するためのシステムが含まれていないということです。しかし、それは問題ではありません。SparkはHadoopの分散ファイルシステム（HDFS）、HBase、その他のHadoopストレージシステムと100％の互換性があるため、組織の既存データのほとんどすべてがSparkで即座に使用可能です。

Spark vs. MapReduce

MapReduceは、HDFSやYARNとともにApache Hadoopの中核を成す強力なスケーラブルな並列処理フレームワークです。どんなデータソースやフォーマットに関わらず、非構造化データを扱える基本的な柔軟性を備えています。MapReduce Hadoopは、システム内のすべてのファイルに対応するバッチジョブを実行するように設計されています。Hadoopは、システム内のすべてのファイルに対応するバッチジョブを実行するように設計されており、1日の終わりのトランザクションレポートの実行など、高速性が問題とならない大規模な分散データ処理に適しています。また、MapReduceは、過去のデータをスキャンし、短時間での洞察を必要としない分析を行うのにも適しています。

MapReduce Hadoopの機能と性能は、実際のビッグデータアプリケーションの多くに理想的です。しかし、データの量、種類、速度が爆発的に増加する中で、高遅延性のバッチモデルであるMapReduceが不足するのは、リアルタイムのデータ分析です。

一方、Sparkは、インメモリ処理をサポートするように設計されています。すべてをメモリ上に置いておくことで、MapReduceが苦手とする反復計算を圧倒的な速さで実行できるというメリットがあります。

Sparkは、Hadoopが扱えるコンピューティングワークロードの範囲を広げるという点で、MapReduceとは別の利点があります。

MapReduceとは異なり、Sparkは高度なリアルタイム・アナリティクスのために設計されており、洞察までの時間を短縮することが重要な場合に対応できるフレームワークとツールを備えています。Sparkの統合フレームワークには、Machine Learning Library（MLlib）、グラフエンジンGraphX、Spark Streaming分析エンジン、リアルタイム分析ツールSharkが含まれています。このオールインワンのプラットフォームにより、Sparkは様々なタイプの分析において、より一貫した製品結果を提供することができると言われています。

ApacheSparkトレーニングコース

最後に、Apache Sparkスキルを習得するために、3つの人気オンラインコースを収集しました。

（Udemy）Apache Sparkを学ぶ

Udemyは、需要があるテクノロジーのスキルを向上させるために、100を超える認定とプログラムを提供してます。基本的な概念を学び、実践する前に、初心者レベルの学習者向けに必要なすべての用語をカバーするレッスンがあります。ベストセラーのいくつかは、ビッグデータと機械学習のためのScalaとSpark、SparkとHadoopの認定、および分析の専門分野です。 Webサイトで利用可能なフィルタリングオプションを使用して、要件に合ったコースを選択してください。

Udemyコースは有料ですが、人気のある学習プラットフォームでは通常、大幅な割引が提供されます。一部のコース料金は最低1,800円から受講可能です。

（Coursera）ScalaとSparkを使用したビッグデータ分析

このコースでは、Sparkを使用してデータ並列パラダイムを分散ケースに拡張する方法を示します。プログラミングモデルに目を通し、他の使い慣れたモデルとの違いを理解してください。レイテンシーやネットワーク通信などのディストリブーションに関連する重要な問題をいつ検討する必要があるか、そしてそれらをより効率的に実行するためにどのように役立つかを実際に体験して理解してください。講義の終わりまでに、永続ストレージからデータを読み取り、操作し、機能的なスタイルでアルゴリズムを表現できるようになります。その他の質の高いビッグデータについてのコースも見たくなるかもしれません。

（Udemy）Sparkを学んでデータサイエンティストになる

データが私たちの日常生活でますます重要になるにつれて、使用するためにそのデータを理解する必要性も高まっています。 Sparkは、その機能とオープンソースであるという事実により、データサイエンティストの間で人気が高まっています。このコースでは、Sparkとそのアプリケーションについて学習し、多数の産業用アプリケーションで使用するためにデータを並べ替えます。業界の専門家によって教えられたインタラクティブな学習の概念を使用して、コースを進め、ライブラリとAPIを介してSparkで機械学習を使用する方法を理解します。

Avintonのチームは、ApacheSparkをマスターするための旅の幸運を祈っています。

Avintonでは、ITエンジニアリングトレーニングとチームメンバーの継続的な教育に特に重点を置いています。この分野でのスキルの活用、最先端のテクノロジーへの取り組み、国際的なクライアントへのソリューション提供に興味がある場合は、採用情報のページをご覧ください。ご連絡をお待ちしております！

Avintonで働く魅力

隔週でカジュアルなオンラインMeetUpも開催しており、ご縁あった方には社内技術勉強会への招待なども行っております。定期的に情報収集したい方、すぐの転職を考えていない方も気軽に参加してみてください！

オンラインMeetUp申込フォーム