アジェンダ
午前8時30分~午前8時45分(太平洋時間) | 開会の挨拶 | カート・フー、Presto Foundation 会長 | Uber シニアエンジニアマネージャー アリ・ルクレール、Presto Foundation アウトリーチ委員会 会長 | IBM オープンソース&プロダクト |
午前8時45分~午前9時15分(太平洋時間) | TSC 基調講演 | ティム・ミーハン、Presto Foundation TSC 会長 | IBM ソフトウェアエンジニア |
午前9時15分~午前9時35分(太平洋時間) | エティサラート・エジプトにおけるデータ分析の最適化:エッジでのPresto | モハメド・タハ、エティサラート・エジプト ビッグデータエンジニア |
午前9時35分~午前9時55分(太平洋時間) | ApnaにおけるPrestoによる分析の実現 | ドヴァニット・トリヴェディ、Apna データエンジニア ピユシュ・ムジャヴァディヤ、Apna リードデータエンジニア スバム・トディ、Apna リードデータエンジニア |
午前9時55分~午前10時00分(太平洋時間) | スポンサーセッション:オープンデータレイクハウス向けPresto C++とIBM watsonx.data | ケビン・シェン、IBM プロダクトマネージャー |
午前10時00分~午前10時30分(太平洋時間) | 休憩 | |
午前10時30分~午前11時00分(太平洋時間) | Prestissimoの検証における非決定論的なクエリの謎を解き明かす | ゲ・ガオ、Meta ソフトウェアエンジニア クリシュナ・パイ、Meta ソフトウェアエンジニア ウェイ・ヘ、Meta ソフトウェアエンジニア |
午前11時00分~午前11時20分(太平洋時間) | PrestoネイティブIcebergサポート | イン・スー、IBM ソフトウェアエンジニア |
午前11時20分~午前11時40分(太平洋時間) | Presto C++ TPC-DSアップデートとPbench | アディティ・パンディット、IBM ソフトウェアエンジニア イーサン・チャン、IBM エンジニアリングマネージャー |
午前11時40分~午後12時00分(太平洋時間) | Prestoパフォーマンスの障害の検出と解決 | ゴータム・ヴェルマ、WSO2 ソフトウェアエンジニア |
午後12時00分~午後12時10分(太平洋時間) | データプライバシーとパフォーマンスのためのPrestoのローカルキャッシュにおけるTTLの活用 | チュンシュ・タン、Alluxio スタッフレサーチャー ジャンジャン・シエ、Alluxio スタッフソフトウェアエンジニア |
午後12時10分~午後12時30分(太平洋時間) | IBMにおけるPresto 2.0ベンチマーク内部構造への深い洞察 - Presto C++とクエリオプティマイザーの結果 | ベルトルド・ラインヴァルト、IBM プリンシパルリサーチャー アショク・クマール、IBM プログラムディレクター |
午後12時30分~ 午後1時00分(太平洋時間) | 休憩 | |
午後1時00分~午後1時20分(太平洋時間) | クラウドインテリジェンスの探求:AWSクラウドでのデータ分析にPrestoを活用 | ヘンリー・クラボ、政府機関 データプロフェッショナル |
午後1時20分~午後1時30分(太平洋時間) | Presto OpenAPI/HTTPコネクター | アンドレイ・サヴ、Rippling ソフトウェアエンジニア |
午後1時30分~午後1時40分(太平洋時間) | MoRとEquality DeletesによるCDCのためのIcebergクエリを高速化した方法 | ロイ・ハッソン、Upsolver プロダクト担当VP |
午後1時40分~午後2時00分(太平洋時間) | Presto Pinot DataLakeセグメントリーダー | ミンジア・ハン、Uber シニアソフトウェアエンジニア |
午後2時00分~午後2時20分(太平洋時間) | HudiによるPrestoのクエリパフォーマンスとデータ管理の強化:イノベーションと将来 | イーサン・グオ、Onehouse データインフラストラクチャエンジニア |
午後2時20分~午後2時40分(太平洋時間) | NeuroBladeのSPU HWアクセラレーションによるデータ分析の合理化 | ディパック・ナレイン、Neuroblade プロダクト担当VP |
午後2時40分~午後3時00分(太平洋時間) | PrestoはMLユーザーをどのようにサポートできるか? | ペドロ・ペドレイラ、Meta ソフトウェアエンジニア |
午後3時00分~午後3時30分(太平洋時間) | 休憩 | |
午後3時30分~午後3時50分(太平洋時間) | 隔たりを埋める:Lanceを搭載したベクターデータレイクでPresto SQLを実行 | レイ・シュー、LanceDB CTO/共同創業者 ベイナン・ワン、ソフトウェアエンジニア兼Presto TSCメンバー |
午後3時50分~午後4時10分(太平洋時間) | 言語インサイトの解き放ち:大規模言語モデル向けのPrestoコネクターを構築 | サテジ・サフ、ボーイング社 シニアソフトウェアデータアーキテクト |
午後4時10分~午後4時30分(太平洋時間) | 大規模データセットのための新しいファイル形式、Nimble | ジャリアン・タン、Meta ソフトウェアエンジニア ジミー・ルー、Meta ソフトウェアエンジニア |
開会の挨拶
PrestoCon Dayへようこそ!オープンソースのPrestoに関するあらゆる情報に触れる一日をご一緒しましょう。Presto Foundationの会長であるカートとアリから、コミュニティの最新情報や一日のスケジュールについて共有があります。
カート・フー
Presto Foundation 会長 | Uber シニアエンジニアマネージャー
アリ・ルクレール
Presto Foundation アウトリーチ委員会 会長 | IBM オープンソース&プロダクト
TSC 基調講演
ティム・ミーハン
Presto Foundation TSC 会長 | IBM ソフトウェアエンジニア
エティサラート・エジプトにおけるデータ分析の最適化:エッジでのPresto
エティサラート・エジプトはエジプト有数の携帯電話事業者です。このセッションでは、エティサラートにおけるデータ関連の課題や、データチームが分断されたデータという課題を処理するためにPrestoの力をどのように活用しているかについて詳しく学びます。
モハメド・タハ
エティサラート・エジプト ビッグデータエンジニア
ApnaにおけるPrestoによる分析の実現
Apnaは、インドで最大かつ最も急速に成長している専門家の機会プラットフォームです。このセッションでは、Kubernetesでのデプロイやクエリ時間を大幅に短縮するために実装された最適化など、ApnaのPrestoの歩みを探ります。Apnaが効率的でスケーラブルなデータ分析を達成するのに役立った戦略を発見してください。
ドヴァニット・トリヴェディ
Apna データエンジニア
ピユシュ・ムジャヴァディヤ
Apna リードデータエンジニア
スバム・トディ
Apna リードデータエンジニア
スポンサーセッション:オープンデータレイクハウス向けPresto C++とIBM watsonx.data
より優れた価格性能を実現するPresto C++を提供する初のプラットフォームである、オープンデータレイクハウスのIBM watsonx.dataについて詳しく学びましょう。このセッションでは、ケビンがPresto C++、Apache Spark、Milvusなどを含むwatsonx.dataコンポーネントについて詳しく説明します。企業がwatsonx.dataプラットフォームを使用して、すべてのワークロードを大規模に強化している方法を学びましょう。
ケビン・シェン
IBM プロダクトマネージャー
Prestissimoの検証における非決定論的なクエリの謎を解き明かす
MetaのPresto本番リリースにおける非決定論的クエリでのPrestissimoの正確性検証を可能にするための私たちの取り組みについて説明します。非決定論的クエリは本番トラフィックの大部分を占めていますが、その結果はエンジン間およびエンジンバージョン間で比較できないため、Prestissimoの正確性検証に大きな課題をもたらします。この講演では、問題をどのように分割し、Presto VerifierとVelox Fuzzerを活用して非決定論的クエリを書き換え、クエリレベルおよび式レベルで正確性を検証する方法を共有します。
ゲ・ガオ
Meta ソフトウェアエンジニア
クリシュナ・パイ
Meta ソフトウェアエンジニア
ウェイ・ヘ
Meta ソフトウェアエンジニア
PrestoネイティブIcebergサポート
インは、Apache Icebergの簡単な紹介と、PrestoネイティブC++エンジンでのIcebergのサポートに費やされた最新の取り組み(読み取り、タイムトラベル、キャッシュなどを含む)について共有します。また、設計と実装の詳細についても共有します。
イン・スー
IBM ソフトウェアエンジニア
Presto C++ TPC-DSアップデートとpbench
PrestoネイティブC++プロジェクトの大きな動機の1つは、新しいアーキテクチャによる価格性能の向上です。ベクトル化、組み込みのメモリ管理/キャッシュ、およびランタイム最適化の使用は、効率性を追求して構築された最先端のデータエンジンに役立っています。
IBMでは、TPC-DSベンチマークを追跡することで、Presto C++を常に改善しています。この業界ベンチマークは、複雑な意思決定サポートの機能を示しており、SQLエンジン製品を購入する際に顧客が考慮する重要な要素です。
この講演では、TPC-DS 1K、10K、および100K実行のためのPresto C++オープンソースにおける最新の数値を紹介します。障害、修正された問題、および提案された次回の改善について詳しく掘り下げます。また、Benchtoの代替として意図されたベンチマークランナーであるpbenchで確認している結果についても共有します。
アディティ・パンディット
IBM ソフトウェアエンジニア
イーサン・チャン
IBM エンジニアリングマネージャー
Prestoパフォーマンスの障害の検出と解決
このセッションでは、ゴータムがPrestoクラスターのパフォーマンス問題を検出および解決するための高度な監視戦略を探ります。クエリ遅延の急増、リソースの競合、ノード障害などの問題を特定するのに役立つ特定のメトリクスとツールについて詳しく説明します。実際の例とケーススタディを通して、参加者は監視設定を最適化して問題をプロアクティブに検出および解決する方法を学び、Prestoデプロイのスムーズな動作と高性能を保証します。
セッションは、Prestoクラスターの概要とパフォーマンスを最適化する上での監視の重要な役割から始まります。次に、クエリ遅延の急増、リソースの競合、ノード障害などの一般的なパフォーマンスの障害について、プロアクティブな監視の必要性を強調しながら説明します。次に、ゴータムは、クエリ実行時間、リソース使用率、ネットワーク遅延など、監視する必要のある主要なメトリクスと、これらのメトリクスがパフォーマンス問題の特定と対処にどのように役立つかについて詳しく掘り下げます。ゴータムは、Prometheus、Grafana、およびPrestoの組み込みメトリクスなどの監視ツールの概要についても説明し、監視データの収集と分析におけるそれらの機能を紹介します。セッションの終了前に、参加者はPrestoクラスターのパフォーマンス問題を検出および解決する際のこれらの監視戦略の有効性を示す実例を探ります。
ゴータム・ヴェルマ
WSO2 ソフトウェアエンジニア
データプライバシーとパフォーマンスのためのPrestoのローカルキャッシュにおけるTTLの活用
一定期間を超えてキャッシュされたデータの自動削除は、GDPRやCCPAなどのデータプライバシー規制を遵守する必要があるPrestoユーザーにとって非常に便利な機能です。このセッションでは、チュンシュとジャンジャンがローカルディスクにキャッシュされたデータのキャッシュ有効期限(TTL)の実装について共有します。この機能は、Prestoユーザーが規制遵守に役立つだけでなく、Prestoのローカルキャッシュを最新かつ最も関連性の高いデータで埋めることもできます。
学習内容
– PrestoローカルキャッシュにおけるTTLの実装
– 最適なTTL値を選択するための構成と戦略
– ローカルキャッシュのパフォーマンス向上を最大化しながら、データプライバシー要件を満たすためのTTLの使用例
チュンシュ・タン
Alluxio スタッフレサーチャー
ジャンジャン・シエ
Alluxio スタッフソフトウェアエンジニア
IBMにおけるPresto 2.0ベンチマーク内部構造への深い洞察 - Presto C++とクエリオプティマイザーの結果
IBMでは最近、IBM Storage Fusion HCI上でのPresto C++ v0.286とクエリ最適化の最新ベンチマーク結果を公開しました。このセッションでは、ベンチマークの内部構造について議論し、すべての実行結果の詳細な分析と結果を共有します。
ベルトルド・ラインヴァルト
IBM Research プリンシパル・リサーチ・スタッフ・メンバー
アショク・クマール
IBM データ&AI担当プログラムディレクター
クラウドインテリジェンスの探求:AWSクラウドでのデータ分析にPrestoを活用
このセッションでは、オンプレミスからAWSへのデータシームレス移行と、高度なSQLクエリのためのPrestoの活用方法について探ります。分析ワークフローを加速し、データに基づいた意思決定を行うための実践的な洞察を得ることができます。
ヘンリー・クラボ
政府機関のデータプロフェッショナル
Presto OpenAPI/HTTPコネクター
Thrift Prestoコネクタの代替となるOpenAPI HTTP/JSONコネクタ。機能は少ないですが、決して役に立たないわけではありません。
アンドレイ・サヴ
Ripplingのソフトウェアエンジニア
MoRとEquality DeletesによるCDCのためのIcebergクエリを高速化した方法
トランザクションデータベースからの変更データキャプチャ(CDC)のストリームをIcebergレイクハウスに取り込み、維持するのは容易ではありません。特に、変更の頻度と量が増加するにつれて、クエリパフォーマンスが急速に低下し、CoWとMoR、小さいファイルと大きいファイル、さらにはテーブルのリフレッシュを遅らせるべきかどうかなど、難しい選択を迫られます。このライトニングトークでは、Apache Icebergが削除された行をどのように管理するか、位置削除ファイルと等価削除ファイルの違い、そして最近のPrestoの拡張機能が、結合を使用した等価削除によるMoRを最適化してクエリを400倍向上させる方法について学びます。
ロイ・ハッソン
Upsolver VP 製品担当
Presto Pinot DataLakeセグメントリーダー
現在、既存のPresto Pinotコネクタは主にホットデータをサポートしており、Pinotサーバーに負荷がかかる可能性があります。拡張されたデータ保持と高度な結合クエリに対するユーザーの要求に対応するために、新しいPresto Pinot Datalakeコネクタを導入します。このコネクタは、ディープストアに保存されているPinotセグメントへの直接アクセスを可能にし、冗長なデータ取り込みを排除し、データ処理能力を最適化します。
ハン・ミンジャ
Uber シニアソフトウェアエンジニア
HudiによるPrestoのクエリパフォーマンスとデータ管理の強化:イノベーションと将来
ビッグデータとアナリティクスの絶え間ない変化の世界において、効果的なデータ管理と検索システムは不可欠です。このプレゼンテーションでは、Presto Hudiコネクタの開発とイノベーションについて、初期のHiveコネクタからその起源を辿りながら、洞察に満ちた探求を行います。
Prestoのようなシステムのクエリ最適化における従来のファイルリストとパーティションプルーニングのアプローチとは異なる、Hudiコネクタの独特な機能について詳しく掘り下げます。カラム統計とレコードインデックスのサポートを統合した、マルチモーダルインデックスフレームワークを含むHudiのユニークな機能について学び、これらの属性がポイントルックアップと範囲ルックアップの両方でクエリ効率をどのように向上させるかを示します。
この講演では、マルチモーダルインデックスフレームワークの成長とDDL/DMLサポートの追加を特徴とする、Presto Hudiコネクタの将来に向けたアジェンダを紹介します。これらの拡張機能は、Presto Hudiコネクタによるデータ管理機能をさらに改善し、大規模なデータ操作における柔軟性と効率性を向上させることを目的としています。
イーサン・グオ
Onehouse.ai データインフラストラクチャエンジニア
NeuroBladeのSPU HWアクセラレーションによるデータ分析の合理化
このプレゼンテーションでは、NeuroBladeがオープンソースコミュニティと協力して、専用のハードウェアアクセラレーションを通じてVelox分析エンジンを強化する方法について説明します。NeuroBlade SQL Processing Unit(SPU)によって実現される技術的な拡張とパフォーマンスの向上について詳しく掘り下げます。Data Analytics Acceleration(DAXL)フレームワークを利用することで、このアプローチは基盤となるハードウェアの複雑さを抽象化し、データ分析プラットフォームとの統合を効率化します。クリシュナ・マヘシュワリは、SPUとPresto-Veloxのシームレスな統合について、Iceberg、Parquet、ClickHouseを含む主要なデータ形式との互換性に焦点を当てて説明します。また、SPUのパイプライン処理機能を示すベンチマーク結果を提示し、効率と処理速度の大幅な向上を示します。
ディーパック・ナライン
Neuroblade VP 製品担当
PrestoはMLユーザーをどのようにサポートできるか?
この講演では、MLユーザーがPrestoを活用して大規模なトレーニングデータセットを準備する際に直面する課題について説明します。Metaでのこれらのワークロードをサポートした経験に基づいて、従来の分析ワークロードとはどのように異なるのかを提示し、このような新しい要件が最新のコンピューティングエンジンの設計にどのような機会を提供するかについて議論します。3つの異なる側面から調査結果を提示します。
- より効率的なストレージとインメモリデータレイアウト。
- 圧縮された実行とその演算子設計への影響。
- (非常に)遅いマテリアライゼーション。
また、これらのワークロードをサポートするためにMetaチームが最近行った進捗状況、初期結果、このスタックをサポートする既存および新しいオープンソースプロジェクトを紹介し、さらに研究、開発、およびコラボレーションが必要な分野を提示します。
ペドロ・ペドレイラ
Meta ソフトウェアエンジニア
隔たりを埋める:Lanceを搭載したベクターデータレイクでPresto SQLを実行
近年、GenAI、LLM、コンピュータビジョン、ロボティクスの進歩により、膨大な計算能力と革新的なデータ実践に対する需要が大幅に増加しています。これらの需要は、従来のビッグデータインフラストラクチャではこれまで見られなかったものであり、AIデータが別々のサイロに保存され、別々のシステムを使用してクエリされるため、コストと複雑さが増加します。
代わりに、検索や取得、さらにはトレーニングに使用されるのと同じデータセットで、Prestoを使用して大規模なOLAPクエリとデータ変換を実行できたらどうでしょうか?これにより、AIチームは異なる形式間の変換に時間と労力を費やす必要がなくなり、データ変換のために複雑で高価なPythonスクリプトではなく、SQLを記述できるようになります。
これを実現するために、Lance形式に基づくベクターデータレイクを提案します。これは、シンプルなSQLクエリを介して豊富なコンピューティングカーネルを備えた成熟した分散分析エンジンである高性能Prestoによってアクセスされます。Lanceはリアルタイム検索クエリで10倍のパフォーマンス向上を実現し、高速な分散OLAPクエリをサポートするためにPrestoと互換性があります。この統合されたアプローチにより、データ管理が簡素化され、パフォーマンスが向上し、インフラストラクチャコストが大幅に削減されます。
レイ・シュー
LanceDB CTO/共同創業者
ベイナン・ワン
ソフトウェアエンジニア&Presto TSCメンバー
言語インサイトの解き放ち:大規模言語モデル向けのPrestoコネクターを構築
自然言語理解とデータ分析の領域に飛び込み、Prestoで大規模言語モデル(LLM)の力を活用する画期的な旅に乗り出しましょう。この魅力的なセッションでは、カスタムPrestoコネクタを使用して、LLMをデータエコシステムにシームレスに統合するための先見的なアプローチを明らかにします。
大規模言語モデルは、自然言語処理と理解において比類のない機能を提供し、テキストデータとのやり取りと分析方法に革命をもたらしました。ただし、従来のデータ分析パイプライン内でLLMの可能性を最大限に引き出すことは困難な場合があります。そこでPrestoが登場します。
LLMとPrestoの革新的な融合を探求し、リアルタイム分析と洞察抽出のために、膨大なテキストデータへの直接アクセスを可能にします。このセッションを通して、LLM統合に特化したカスタムPrestoコネクタの設計と実装に関する貴重な洞察を得ることができます。
主なハイライトは次のとおりです。
– データ分析ワークフローにLLMを統合する変革の可能性の理解
– LLMとシームレスにインターフェイスし、効率的なデータ検索と処理を保証するPrestoコネクタのアーキテクチャの設計
– 大量のテキストデータを処理するために最適化されたカスタムコネクタを開発するためのPrestoの拡張性の活用
– リアルタイム分析と洞察抽出の課題の克服とパフォーマンスの最適化
– LLM-Presto統合がさまざまな業界とアプリケーションに与える変革的な影響を示す実世界のケーススタディとユースケース
サテージ・サフ
ボーイング社 シニアソフトウェアデータアーキテクト
大規模データセットのための新しいファイル形式、Nimble
この講演では、Metaが最近オープンソース化した、大規模データセット向けの新しいファイル形式であるNimbleを紹介します。Nimbleは、既存のファイル形式の効率、柔軟性、拡張性を向上させるように設計されました。MLトレーニングテーブルのデータ準備ワークロードでよく見られる非常に幅広いテーブルのサポートが優れており、Apache ORCやParquetなどの既存の形式よりも優れています。Nimbleは、サポートするエンコーディングにおいてより柔軟性と拡張性を提供し、SIMDとGPUを使用した並列デコードに適しています。私たちの最終的な目標は、Metaのデータウェアハウスを最終的にNimbleに移行することです。
このセッションには、次の概要が含まれます。
- Metaのトレーニングデータ準備ワークロード、それらがORCやParquetなどの既存のファイル形式に適していない理由、およびそれらにおけるPrestoの役割。
- Nimbleファイル形式とのPresto Nativeの新しい統合。
- MetaでのNimbleの現在の状況。
- 分析用のファイル形式における新しいコラボレーション機会を創出することを目的とした、進行中の開発と将来の作業。
ジャリアン・タン
Meta ソフトウェアエンジニア
ジミー・ルー
Meta ソフトウェアエンジニア