TALOS-V2: Vollständiger Transformer im FPGA mit 53.000 tok/Sek. ohne GPU
TALOS-V2 kompiliert Karpathys microGPT mit 4.192 Parametern vollständig in einen Cyclone-V-FPGA und erreicht dabei 53.000 Token pro Sekunde auf einer kreditkartengroßen, batteriebetriebenen Platine – ohne GPU, ohne Python-Interpreter und ohne jede Software-Laufzeitschicht. Sämtliche Transformer-Komponenten – Embeddings, Attention, Normalisierung, MLP und Token-Sampling – sind als FPGA-Logik implementiert. Das Repository enthält JTAG-Build-Werkzeuge zur Reproduktion.
Einordnung
Das Projekt zeigt, dass die Software-Laufzeitschicht für die Inferenz kleiner Modelle nicht zwingend erforderlich ist, und erzielt extreme Durchsatz-pro-Watt-Verhältnisse, die die gängige Annahme in Frage stellen, dass GPU-Software-Stacks der einzig gangbare Inferenzpfad an der Edge sind.