Taalas HC1 : 17 000 tokens/s, un LLM gravé dans le silicium

22 févr. 2026 2 min de lecture Paul Forcadel

Et si, au lieu de charger un modèle IA dans la mémoire d'un GPU, on le gravait directement dans les transistors ? C'est le pari radical de Taalas, une startup canadienne fondée il y a deux ans et demi par d'anciens ingénieurs de Tenstorrent, AMD, Nvidia, Apple et Google. Leur première puce, le HC1, vient d'être dévoilée : un ASIC monolithique qui intègre Llama 3.1 8B de Meta non pas comme logiciel, mais comme circuit.

17 000 tokens par seconde

Les chiffres annoncés sont vertigineux. Fabriqué en TSMC 6 nm sur un die de 815 mm² (comparable à un H100), le HC1 embarque 53 milliards de transistors et débite 17 000 tokens par seconde pour un seul utilisateur. À titre de comparaison, un GPU Nvidia H200 atteint environ 230 tokens/s sur le même modèle Llama 3.1 8B — soit un facteur 70×.

La clé : les poids du modèle sont encodés en ROM directement dans le tissu de transistors, via une quantification propriétaire en 3 bits et 6 bits. Plus besoin de HBM, de packaging 3D ou de refroidissement liquide. Dix cartes à ~200 W chacune tiennent dans un serveur x86 standard à 2 500 W — l'équivalent d'un cluster GPU entier dans un seul rack.

Un modèle, une puce

Le revers de la médaille est radical : le HC1 ne peut exécuter que Llama 3.1 8B. Les poids sont physiquement câblés — impossible de charger un autre modèle. Taalas revendique un délai de deux mois entre la réception des poids et la livraison de cartes PCIe, et affirme qu'il est « 100× moins cher de personnaliser une puce que d'entraîner un modèle ».

Le support de LoRA permet toutefois du fine-tuning par-dessus les poids figés, et les fenêtres de contexte sont configurables. Mais aucun benchmark indépendant n'a encore validé les performances annoncées.

Roadmap ambitieuse

Taalas ne compte pas rester sur un modèle 8B. Au printemps 2026, un second LLM de raisonnement de taille moyenne tournera sur le même silicium HC1. D'ici fin 2026, la plateforme HC2 visera des modèles de 20 milliards de paramètres, avec à terme des modèles frontier via du pipeline parallelism multi-puces.

L'entreprise a levé plus de 200 millions de dollars, dont seulement 30 millions dépensés à ce jour, pour une équipe de 24 personnes. Le message est clair : si l'inférence IA doit devenir aussi omniprésente que le Wi-Fi, il faut sortir du paradigme GPU — quitte à sacrifier la flexibilité pour la vitesse brute.