Rust-nativer Spark-Ersatz Sail: 4× schneller, 94% Kostensenkung
lakehq/sail ist eine Rust-native Ausführungsmaschine, die das Apache Spark Connect-Protokoll implementiert — bestehender PySpark- und Spark-SQL-Code läuft daher ohne Anpassungen, sobald er auf den Sail-Server verwiesen wird. TPC-H-Benchmarkergebnisse: 387 Sekunden (Spark) → 102 Sekunden (Sail), Spitzenspeicher von 54 GB auf 22 GB gesunken, Shuffle-Spill von über 110 GB auf null reduziert. Die behauptete Kostensenkung von 94% leitet sich aus dem Effizienzunterschied bei Arbeitsspeicher und Compute in der Cloud-Abrechnung ab. Unterstützte Storage-Backends umfassen S3, Azure, GCS, HDFS sowie HuggingFace; die Lakehouse-Formate Delta und Iceberg werden ebenfalls unterstützt.
Warum das relevant ist
Apache Spark dominiert die großskalige Datenverarbeitung für KI-Trainingspipelines, Feature Engineering und Batch-Inferenz-Workloads. Ein Drop-in-Ersatz mit 4× höherer Leistung ohne Codeänderungen ist genau jene Migrationsstory, die große ML-Plattform-Teams anhand eines einzigen TPC-H-Laufs intern rechtfertigen können. Das Fundament aus Rust, DataFusion und Arrow ist derselbe Technologie-Stack, der heute auch andere hochperformante Query-Engines antreibt — ein reifes Ökosystem, kein Experiment.