分散ソート¶
分散ソートを使用すると、query.max-memory-per-node
を超えるデータをソートできます。分散ソートは、distributed_sort
セッションプロパティ、またはコーディネーターのetc/config.properties
で設定されたdistributed-sort
構成プロパティで有効になります。分散ソートはデフォルトで有効になっています。
分散ソートが有効になっている場合、ソート演算子はクラスター内の複数のノードで並行して実行されます。各 Presto ワーカーノードからの部分的にソートされたデータは、最終的なマージのために単一のワーカーノードにストリーミングされます。この手法により、ソートのために複数の Presto ワーカーノードのメモリを利用できます。分散ソートの主な目的は、通常は単一ノードのメモリに収まらないデータセットをソートできるようにすることです。パフォーマンスの向上は期待できますが、データは単一のノードでマージする必要があるため、ノード数に比例して直線的にスケーリングされることはありません。