Rust-nativer Spark-Ersatz Sail beansprucht 4× höhere Leistung und 94% Kostensenkung

lakehq/sail ist ein Rust-nativer Drop-in-Ersatz für Apache Spark, aufgebaut auf Apache DataFusion und Arrow. TPC-H-Benchmark: 387s (Spark) → 102s (Sail), Spitzenspeicher 54 GB → 22 GB, Shuffle-Spill von über 110 GB auf null reduziert. PySpark-Code läuft dank Spark-Connect-Protokollkompatibilität unverändert.

Rust-nativer Spark-Ersatz Sail: 4× schneller, 94% Kostensenkung

lakehq/sail ist eine Rust-native Ausführungsmaschine, die das Apache Spark Connect-Protokoll implementiert — bestehender PySpark- und Spark-SQL-Code läuft daher ohne Anpassungen, sobald er auf den Sail-Server verwiesen wird. TPC-H-Benchmarkergebnisse: 387 Sekunden (Spark) → 102 Sekunden (Sail), Spitzenspeicher von 54 GB auf 22 GB gesunken, Shuffle-Spill von über 110 GB auf null reduziert. Die behauptete Kostensenkung von 94% leitet sich aus dem Effizienzunterschied bei Arbeitsspeicher und Compute in der Cloud-Abrechnung ab. Unterstützte Storage-Backends umfassen S3, Azure, GCS, HDFS sowie HuggingFace; die Lakehouse-Formate Delta und Iceberg werden ebenfalls unterstützt.

Warum das relevant ist

Apache Spark dominiert die großskalige Datenverarbeitung für KI-Trainingspipelines, Feature Engineering und Batch-Inferenz-Workloads. Ein Drop-in-Ersatz mit 4× höherer Leistung ohne Codeänderungen ist genau jene Migrationsstory, die große ML-Plattform-Teams anhand eines einzigen TPC-H-Laufs intern rechtfertigen können. Das Fundament aus Rust, DataFusion und Arrow ist derselbe Technologie-Stack, der heute auch andere hochperformante Query-Engines antreibt — ein reifes Ökosystem, kein Experiment.