分散ソート

分散ソートを使用すると、query.max-memory-per-nodeを超えるデータをソートできます。分散ソートは、distributed_sortセッションプロパティ、またはコーディネーターのetc/config.propertiesで設定されたdistributed-sort構成プロパティで有効になります。分散ソートはデフォルトで有効になっています。

分散ソートが有効になっている場合、ソート演算子はクラスター内の複数のノードで並行して実行されます。各 Presto ワーカーノードからの部分的にソートされたデータは、最終的なマージのために単一のワーカーノードにストリーミングされます。この手法により、ソートのために複数の Presto ワーカーノードのメモリを利用できます。分散ソートの主な目的は、通常は単一ノードのメモリに収まらないデータセットをソートできるようにすることです。パフォーマンスの向上は期待できますが、データは単一のノードでマージする必要があるため、ノード数に比例して直線的にスケーリングされることはありません。