Prestoとは？

主なイノベーション

世界最大級の企業の一部がPrestoオープンソースプロジェクトに貢献しています。これらの重要なイノベーションは、現在Linux Foundation Prestoでのみ利用可能です。

最先端の実行エンジンであるVelox上に構築されたPrestoクエリ実行エンジンの完全な書き換えで、コンピュートエンジン間で構成可能になるように設計されています。目標は、パフォーマンスとスケーラビリティを3～4倍向上させることです。
ブログ | ドキュメント

HBOフレームワークは、履歴実行統計を活用することにより、高度なクエリ最適化手法を可能にします。このアプローチは、独自のコスト見積もり、プラン変換、および履歴データの組み込みを通じて、より効率的なクエリ実行戦略を提供します。
ブログ | 論文

OLAPおよびインタラクティブなユースケースに、統合された、安価で高速かつスケーラブルなソリューションを提供するために、コンピュートからストレージを分離します。
ブログ | プレゼンテーション

コーディネーターを水平方向にスケールアウトし、RPCスタックを刷新します。
Github | ブログ

Presto on Sparkは、Prestoのコンパイラ/評価をライブラリとして、Sparkの大規模処理機能を活用したPrestoとSparkの統合です。インタラクティブなユースケースとバッチユースケース間で、統合されたSQLエクスペリエンスを可能にします。
ドキュメント

動的SQL関数のサポート（実験モードで利用可能）
ドキュメント

ワークロードごとに異なるエンジンを使用するということは、いずれリプラットフォームする必要があるということです。

Prestoを使用すると、データ分析用に1つの使い慣れたANSI SQL言語と1つのエンジンを利用できるため、別のレイクハウスエンジンに移行する必要はありません。Prestoは、インタラクティブおよびバッチワークロード、少量および大量のデータに使用でき、数人から数千人のユーザーにスケールできます。

ほとんどのデータチームは、データレイクストレージ上のさまざまなワークロードに対して異なるエンジンを使用しており、各エンジンには独自の言語とインターフェースがあります。

Prestoは、さまざまなサイロ化されたデータシステム内のすべてのデータに対して1つのシンプルなANSI SQLインターフェースを提供し、データエコシステムを結合するのに役立ちます。Prestoのコネクタアーキテクチャにより、データが存在する場所でクエリを実行できます。

データインフラストラクチャのコストは、データサイズとユーザーワークロードが増加するにつれて、データウェアハウスのような独自システムでは特に爆発的に増加する可能性があります。

PrestoはMetaとUberで実証されており、増大するデータサイズとワークロードに対応するためにスケールできます。多数の小規模クエリ向けに最適化されているため、他のエンジンよりも高速で効率的であり、独自のシステムと比較して、より優れた価格性能でデータをクエリできます。

SQLを使用して、いつでも、データが存在する場所でアドホッククエリを実行します。Prestoを使用すると、データが保存されている場所でクエリを実行できるため、データを別のシステムにETLする必要はありません。

複数のソースにまたがるデータをクエリして、PrestoセルフサービスBIビジネスインテリジェンス用のレポートとダッシュボードの1つのPrestoビューを作成します。

単一のインターフェースを通じて、Prestoは単なるクエリエンジン以上の役割を果たし、データエコシステムの中心に位置することで、大規模なデータ問題を解決し、すべてを結びつけるのに役立ちます。