TALOS-V2: Vollständiger Transformer im FPGA mit 53.000 tok/Sek. ohne GPU

TALOS-V2 kompiliert Karpathys microGPT mit 4.192 Parametern vollständig in einen Cyclone-V-FPGA und erreicht 53.000 Token pro Sekunde bei Batteriebetrieb – ohne GPU, ohne Python-Interpreter und ohne Software-Runtime-Schicht.

1 Min. Lesezeit|agenticonsult Intelligence

TALOS-V2: Vollständiger Transformer im FPGA mit 53.000 tok/Sek. ohne GPU

TALOS-V2 kompiliert Karpathys microGPT mit 4.192 Parametern vollständig in einen Cyclone-V-FPGA und erreicht dabei 53.000 Token pro Sekunde auf einer kreditkartengroßen, batteriebetriebenen Platine – ohne GPU, ohne Python-Interpreter und ohne jede Software-Laufzeitschicht. Sämtliche Transformer-Komponenten – Embeddings, Attention, Normalisierung, MLP und Token-Sampling – sind als FPGA-Logik implementiert. Das Repository enthält JTAG-Build-Werkzeuge zur Reproduktion.

Einordnung

Das Projekt zeigt, dass die Software-Laufzeitschicht für die Inferenz kleiner Modelle nicht zwingend erforderlich ist, und erzielt extreme Durchsatz-pro-Watt-Verhältnisse, die die gängige Annahme in Frage stellen, dass GPU-Software-Stacks der einzig gangbare Inferenzpfad an der Edge sind.

Primaerquelle

AlphaSignal

#fpga #edge-inference #hardware-ai #talos-v2 #transformers

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

Alle Live-News anzeigen

Live News Feed

10:50Coupang Q1 2026: 266 Mio. USD Nettoverlust auf Koreanischen Datenschutzverletzung 2025 zurückgeführt 10:50Analysten warnen vor zirkulärer KI-Investitionsstruktur zwischen Hyperscalern und Frontier-Labs 10:50BlackRock-CEO Larry Fink prognostiziert die Entstehung eines Compute-Futures-Markts