Prestoとは?

    データ分析とオープンレイクハウスのための高速で信頼性の高いSQLクエリエンジン

    サイロ化されたデータベースやストレージへの複数のクエリ言語とインターフェースの管理に苦労しているデータエンジニアにとって、Prestoはすべてのデータ分析とオープンレイクハウスに1つのシンプルなANSI SQLインターフェースを提供する、高速で信頼性の高いエンジンです。

    Presto Tech Talk: Intro to Presto and Superset video

    主なイノベーション

    世界最大級の企業の一部がPrestoオープンソースプロジェクトに貢献しています。これらの重要なイノベーションは、現在Linux Foundation Prestoでのみ利用可能です。

    Presto C++

    最先端の実行エンジンであるVelox上に構築されたPrestoクエリ実行エンジンの完全な書き換えで、コンピュートエンジン間で構成可能になるように設計されています。目標は、パフォーマンスとスケーラビリティを3~4倍向上させることです。
    ブログ | ドキュメント

    履歴ベース最適化フレームワーク

    HBOフレームワークは、履歴実行統計を活用することにより、高度なクエリ最適化手法を可能にします。このアプローチは、独自のコスト見積もり、プラン変換、および履歴データの組み込みを通じて、より効率的なクエリ実行戦略を提供します。
    ブログ | 論文

    RaptorXによるキャッシュ

    OLAPおよびインタラクティブなユースケースに、統合された、安価で高速かつスケーラブルなソリューションを提供するために、コンピュートからストレージを分離します。
    ブログ | プレゼンテーション

    分散コーディネーター(別名:Fireball)

    コーディネーターを水平方向にスケールアウトし、RPCスタックを刷新します。
    Github | ブログ

    Presto-on-SparkによるETL

    Presto on Sparkは、Prestoのコンパイラ/評価をライブラリとして、Sparkの大規模処理機能を活用したPrestoとSparkの統合です。インタラクティブなユースケースとバッチユースケース間で、統合されたSQLエクスペリエンスを可能にします。
    ドキュメント

    ユーザー定義関数

    動的SQL関数のサポート(実験モードで利用可能)
    ドキュメント

    Prestoを選ぶ理由

    1つの言語

    ワークロードごとに異なるエンジンを使用するということは、いずれリプラットフォームする必要があるということです。

    Prestoを使用すると、データ分析用に1つの使い慣れたANSI SQL言語と1つのエンジンを利用できるため、別のレイクハウスエンジンに移行する必要はありません。Prestoは、インタラクティブおよびバッチワークロード、少量および大量のデータに使用でき、数人から数千人のユーザーにスケールできます。

    1つのインターフェース

    ほとんどのデータチームは、データレイクストレージ上のさまざまなワークロードに対して異なるエンジンを使用しており、各エンジンには独自の言語とインターフェースがあります。

    Prestoは、さまざまなサイロ化されたデータシステム内のすべてのデータに対して1つのシンプルなANSI SQLインターフェースを提供し、データエコシステムを結合するのに役立ちます。Prestoのコネクタアーキテクチャにより、データが存在する場所でクエリを実行できます。

    高速、信頼性、効率性

    データインフラストラクチャのコストは、データサイズとユーザーワークロードが増加するにつれて、データウェアハウスのような独自システムでは特に爆発的に増加する可能性があります。

    PrestoはMetaとUberで実証されており、増大するデータサイズとワークロードに対応するためにスケールできます。多数の小規模クエリ向けに最適化されているため、他のエンジンよりも高速で効率的であり、独自のシステムと比較して、より優れた価格性能でデータをクエリできます。

    ユースケース

    アドホッククエリ

    SQLを使用して、いつでも、データが存在する場所でアドホッククエリを実行します。Prestoを使用すると、データが保存されている場所でクエリを実行できるため、データを別のシステムにETLする必要はありません。

    レポートとダッシュボード

    複数のソースにまたがるデータをクエリして、PrestoセルフサービスBIビジネスインテリジェンス用のレポートとダッシュボードの1つのPrestoビューを作成します。

    オープンレイクハウス

    単一のインターフェースを通じて、Prestoは単なるクエリエンジン以上の役割を果たし、データエコシステムの中心に位置することで、大規模なデータ問題を解決し、すべてを結びつけるのに役立ちます。