Wave は Kubernetes のスケジューラーで Spark のクラウドインフラストラクチャを簡素化、自動化します。 セットアップ、構成から、リソースのプロビジョニング、管理、ティアダウンまで Spot の AI ベースのエンジンを使って Spark クラスタを継続的に最適化し、アプリケーションのリアルタイムな必要要件に基づいて、最適なインフラを選択します。 Spot Ocean をベースにした Wave は Spark のアプリケーションをスポット、リザーブド、オンデマンドの各インスタンスで確実に実行し、最大で 90% のコスト削減を実現します。
スポット、オンデマンド、リザーブド インスタンスを最適に組み合わせて、アプリケーションを確実に実行することで、クラスタの設置量を最小限に抑え、クラウドコストを削減します。
Spark のジョブを追跡し、実行時にパラメータを最適化することで、リソースをより効率的に利用し、高いパフォーマンスで運用することができます。
高度な自動化により、クラウドコンピュートのプロビジョニング、スケーリング、モニタリングに関する運用上の障害を取り除きます。
安定性のあるコストメトリクスと分析により、クラウド上の
データ アプリケーションとパイプラインの真のコストを明らかにします。
Wave は、高度な AI アルゴリズムを活用し、アプリケーションを最高のパフォーマンスで実行するために最適なインフラを自動的に選択し、CPU や RAM などのリソースをアプリケーションの仕様に合わせてリアルタイムにマッチングします。
コンピュートとメモリの構成を実際の使用状況と比較することで、アプリケーションのサイズを適正化し、オーバープロビジョニングを減らし、CPU のスロットリングやメモリ不足を回避します。
複数のコンテナを同じインスタンスに配置する必要がある場合、またはそれらをグループ全体に分散させる必要がある場合、複数のコンテナを認識するビン パッキング アルゴリズムを介して、リソースの割り当てを最適化します。
JupyterHub、Airflow、Spark History Server、spark-submit との統合があらかじめ用意されています。Jupyter や Zeppelin のノートブックをローカルに設定しながら、Kubernetes 上の Spark アプリケーションをリモートで実行できます。spark-submit をサポートしているため、新しいワークフローを学ぶ必要がありません。
自動的にヘッドルームを確保することで、インフラが新たな容量を確保するのを待たずに、Spark アプリケーションを瞬時に実行できます。