Cerebras nie buduje lepszego GPU. Buduje inną architekturę dla AI

Niezależna ocena technologii, firmy i ryzyk konkurencyjnych. Stan na kwiecień 2026.

Apr 26, 2026

Niniejszy materiał ma charakter informacyjno-analityczny i nie stanowi porady inwestycyjnej.

🗣️

latency

Rynek infrastruktury AI jest dziś opisany językiem GPU. Ile akceleratorów trzeba kupić, ile HBM dostajemy w jednym racku, jak wygląda NVLink, jaka jest cena za godzinę i jak szybko da się skalować trening. Cerebras idzie w inną stronę. Nie próbuje zbudować kolejnego układu zgodnego z logiką GPU. Próbuje usunąć sam problem, który duże klastry GPU tworzą: koszt komunikacji między chipami, koszt shardingu modeli i koszt pamięciowy inferencji [1][2][3].

To podejście jest na tyle odmienne, że Cerebras trzeba oceniać osobno. Nie jako słabszą lub mocniejszą kopię NVIDIA, ale jako własną klasę systemu. Dobra wiadomość jest taka, że to już nie jest eksperyment w laboratorium. Cerebras ma trzecią generację układu, własny system CS-3, własną warstwę cloud i API, partnerstwo z OpenAI oraz oficjalną integrację z AWS Bedrock. Trudniejsza część analizy zaczyna się dopiero potem: gdzie ta architektura naprawdę wygrywa, gdzie przegrywa, a gdzie jest po prostu źle rozumiana [3][4][8][9][43].

Cerebras robi trzy rzeczy inaczej niż reszta rynku

Pierwsza różnica jest fizyczna. Cerebras WSE-3 nie jest klasycznym chipem. To procesor wafer-scale, czyli układ zbudowany na powierzchni całego wafla. Według oficjalnej specyfikacji WSE-3 ma 46 225 mm² powierzchni, 4 biliony tranzystorów, 900 tys. rdzeni AI, 44 GB pamięci SRAM na chipie i 125 PFLOPS mocy AI. CS-3, czyli system oparty na WSE-3, oferuje 21 PB/s przepustowości pamięci, 214 Pb/s przepustowości interconnectu na waflu, 1,2 Tb/s systemowego I/O i mieści się w obudowie 16RU [1][2][3][4].

Druga różnica dotyczy pamięci. Większość akceleratorów AI opiera się na HBM, czyli bardzo szybkiej pamięci poza logiką obliczeniową. Cerebras stawia na ogromną lokalną SRAM i bardzo gęstą komunikację wewnątrz jednego wafla. To przesuwa punkt ciężkości. Zamiast budować system wokół wielu oddzielnych chipów, które muszą stale synchronizować się przez zewnętrzną sieć i przełączać dane między układami, Cerebras stara się utrzymać jak najwięcej pracy w jednej domenie obliczeniowej [1][2][5].

Trzecia różnica jest software’owa. Cerebras nie sprzedaje wyłącznie metalu. Sprzedaje model wykonania. W klasycznym klastrze GPU duży model wymaga kombinacji tensor parallelism, pipeline parallelism, expert parallelism, zarządzania pamięcią i świadomego dopasowania do topologii systemu. W systemie Cerebras kompilator mapuje warstwy na cały wafer, a w trybie weight streaming wagi są podawane warstwa po warstwie z zewnętrznej pamięci MemoryX. Dzięki temu firma obiecuje „single-device simplicity” nawet wtedy, gdy model jest dużo większy niż pamięć na jednym układzie [3][4][17].

To ostatnie jest kluczowe, bo oddziela realne zalety Cerebras od marketingu. WSE-3 ma tylko 44 GB SRAM. To bardzo dużo jak na pamięć na chipie i bardzo mało jak na pełny model frontier. Cerebras nie ukrywa tego ograniczenia. Obchodzi je przez architekturę strumieniowania wag, zewnętrzną pamięć 1,5 TB, 12 TB lub 1,2 PB oraz klastrowanie do 2048 systemów CS-3. Pojedynczy system ma według producenta trenować modele do 24 bilionów parametrów jako jedna logiczna przestrzeń pamięci [3][4][17].

Dlaczego ta architektura ma sens właśnie teraz

W generatywnym AI najważniejszym problemem nie jest już tylko trening. Coraz większą część wartości tworzy inferencja. A inferencja nie jest jedną rzeczą. Składa się co najmniej z dwóch etapów. Prefill przetwarza prompt. Decode generuje kolejne tokeny. Prefill lubi przepustowość. Decode karze za każdą dodatkową latencję i za każdy nieefektywny ruch danych [6][9].

To właśnie dlatego Cerebras tak mocno akcentuje szybkość dekodowania. W swoim materiale z 2024 roku firma tłumaczy problem na przykładzie Llama 3.1 70B. W 16-bitowych wagach taki model wymaga około 140 GB pamięci. Każdy nowy token oznacza kolejne przejście przez wagi modelu. Przy 1000 tokenów na sekundę system musiałby dostarczać wagi z efektywną przepustowością rzędu 140 TB/s. Punkt nie polega na tym, że to jedyny prawidłowy model liczenia. Punkt polega na kierunku: przy dekodowaniu ograniczeniem bardzo często staje się pamięć i ruch danych, a nie sama liczba FLOPS [5].

Na tym tle Cerebras ma mocny argument. 44 GB SRAM na chipie i 21 PB/s przepustowości pamięci to profil wyjątkowo dobrze dopasowany do zadań, w których liczy się czas generacji pojedynczego użytkownika, nie tylko zbiorczy throughput klastra. Firma pokazała najpierw 450 tokenów na sekundę dla Llama 3.1 70B i 1800 tokenów na sekundę dla 8B w 2024 roku, a później 3000 tokenów na sekundę dla gpt-oss-120B w 2025 roku. To są wyniki vendorowe lub oparte o zewnętrzne rankingi partnerów, więc trzeba je traktować ostrożnie. Mimo to dobrze pokazują, gdzie Cerebras chce wygrać: w interaktywnym, niskolatencyjnym inference dla agentów, kodowania, długich odpowiedzi i wieloetapowego rozumowania [5][7].

Rynek zaczął to czytać podobnie. OpenAI podało oficjalnie, że wprowadza do swojego stosu 750 MW niskolatencyjnej mocy obliczeniowej Cerebras, wdrażanej etapami od 2026 roku. W komunikacie OpenAI sens tej decyzji został opisany wprost: chodzi o szybsze odpowiedzi, bardziej naturalne interakcje i lepszą bazę pod real-time AI, w tym kod, obraz i agentic workloads [8].

Jeszcze ciekawszy jest ruch AWS. Amazon nie próbuje udawać, że jeden typ układu rozwiąże cały problem. Oficjalna współpraca z Cerebras zakłada architekturę rozdzieloną: Trainium obsługuje prefill, a CS-3 dekodowanie. Ten układ jest ważny z dwóch powodów. Po pierwsze, potwierdza tezę, że różne etapy inferencji mają różną optymalną architekturę. Po drugie, sugeruje, że najsilniejsza pozycja Cerebras nie musi polegać na zastąpieniu GPU lub Trainium. Może polegać na byciu najlepszym silnikiem decode w większym, heterogenicznym systemie [6][9].

Gdzie przewaga Cerebras jest realna

Pierwszy obszar to inference o niskiej latencji. W praktyce chodzi o produkty, w których użytkownik czeka na odpowiedź i odczuwa opóźnienie na każdym kroku. Chat, code completion, tool calling, copilots, agenci wieloetapowi, systemy z długimi odpowiedziami i workflow, w których model musi kilka razy z rzędu wywołać własne rozumowanie. W takich środowiskach przewaga nie wynika z samej „szybkości modelu”, ale z tego, że końcowy czas do pierwszego tokenu i czas generacji dalszych tokenów spada na tyle mocno, że da się uruchomić bardziej złożone procedury w tym samym budżecie czasu [5][7][8][9].

Drugi obszar to prostota uruchomienia dużego modelu w porównaniu z klasycznym GPU shardingiem. Cerebras nie usuwa całej złożoności, ale przenosi ją do kompilatora i warstwy systemowej. Z perspektywy użytkownika ważne jest to, że firma oferuje OpenAI-compatible API dla inference, własne SDK oraz warstwę cloud i dedykowane endpointy. To obniża koszt wejścia na poziomie aplikacyjnym. Jednocześnie na poziomie głębszej integracji pozostaje vendor specificity, bo pełna ścieżka training i custom execution nadal zależy od kompilatora, obsługiwanych jąder i wzorców modelowych [18][43][44].

Trzeci obszar to wybrane zastosowania HPC. Cerebras nie jest dziś tylko firmą od LLM API. W pracy naukowej z Los Alamos i współautorami pokazano 179-krotną poprawę liczby kroków czasowych na sekundę względem platformy Frontier w konkretnym scenariuszu molecular dynamics. To nie oznacza, że Cerebras nagle zastępuje wszystkie superkomputery GPU. Oznacza, że architektura wafer-scale może mieć bardzo mocne nisze także poza LLM, tam gdzie ekstremalna lokalność danych i gęsta komunikacja przynoszą wyraźną przewagę [41][42].

Największe ograniczenia tej technologii

Najważniejsze ograniczenie nie jest ukryte. 44 GB SRAM to ogromna przepustowość, ale mała pojemność w porównaniu z nowoczesnymi rack-scale systemami GPU. To oznacza, że większość dużych modeli frontier nie „mieszka” w całości na jednym waflu. Musi być strumieniowana lub rozpięta na kilka systemów. Z technicznego punktu widzenia to nie jest wada konstrukcyjna, tylko wybrany kompromis. Z biznesowego punktu widzenia oznacza jednak, że przewaga Cerebras nie jest uniwersalna. Zależy od rodzaju modelu, długości kontekstu, charakteru decode, poziomu batchowania i jakości mapowania przez kompilator [1][3][17].

Drugie ograniczenie dotyczy software’u. Oficjalna dokumentacja Cerebras dla PyTorch mówi wprost, że wspierany jest podzbiór operacji, a lista wspieranych opów jest wstępna i mieszanie ich w modelach nie jest gwarantowane poza sposobem użycia znanym z Model Zoo. To jest ważna informacja, bo pokazuje granicę między łatwym demo a pełną swobodą platformy. Inference przez zgodne API jest stosunkowo łatwe. Głębokie portowanie nietypowych modeli, custom ops i eksperymentalnych architektur może już wymagać znacznie większej pracy niż w dojrzałym ekosystemie CUDA [15][16][18].

Trzecie ograniczenie dotyczy benchmarków. W AI hardware sama liczba PFLOPS jest coraz mniej przydatna jako samodzielna metryka. Różne firmy podają różne precyzje, różne założenia o sparsity i różne scenariusze obciążenia. MLCommons stale aktualizuje benchmarki właśnie dlatego, że profile inference i training szybko się zmieniają. Dla realnej oceny systemu ważniejsze są dziś time-to-first-token, output tokens per second per user, P95 i P99 latencji, jakość odpowiedzi przy tej samej precyzji, koszt na milion tokenów i energia na token [19][20][21][22].

Czwarte ograniczenie jest ekonomiczne. Wiemy, że Cerebras dowiózł trzy generacje układu i sprzedaje systemy produkcyjne. Nie wiemy publicznie wystarczająco dużo o ekonomice wafer-scale na poziomie, którego oczekiwałby kupujący duży wolumen. Nie ma pełnej transparentności co do kosztu funkcjonalnego wafla, yieldów, marż systemowych i kosztu serwisowania. Dla klienta oznacza to prostą zasadę: nie kupuje się Cerebras na podstawie prezentacji o 4 bilionach tranzystorów. Kupuje się po benchmarku na własnym modelu, własnym kontekście i własnym concurrency [3][11][12].

Firma Cerebras jest dziś bardziej wiarygodna niż rok temu, ale ryzyka nie zniknęły

Najmocniejszy sygnał po stronie biznesowej jest prosty. Cerebras przestał być tylko „ambitnym producentem nietypowego chipu”. Stał się dostawcą pełnego stosu: systemów, cloud inference, API i usług enterprise. Własna strona cenowa, partnerstwo z AWS, listing na AWS Marketplace i oficjalny komunikat OpenAI pokazują, że firma chce sprzedawać nie tylko pudełko, ale gotową zdolność obliczeniową [8][9][43][44].

Przychody też urosły. Reuters podał, że Cerebras zwiększył revenue do 510 mln USD w 2025 roku z 290,3 mln USD rok wcześniej. Jednocześnie trzeba czytać ten wzrost ostrożnie. Tom’s Hardware i Barron’s zwracały uwagę, że firma pozostaje operacyjnie nie w pełni zdrowa, a część poprawy wyniku netto miała charakter księgowy. To nie unieważnia wzrostu. Pokazuje tylko, że skala przychodów nie rozwiązuje automatycznie problemu jakości biznesu [11][12][13].

Największy problem firmy jest nadal widoczny w koncentracji klientów. W S-1 z 2024 roku Cerebras ujawnił, że jeden klient odpowiadał za 83 proc. przychodów 2023 roku, a w pierwszej połowie 2024 jeden klient odpowiadał za 87 proc. przychodów. W 2025 koncentracja się zmieniła, ale nie zniknęła. Z relacji rynkowych po złożeniu nowego S-1 wynika, że MBZUAI odpowiadał za 62 proc. przychodów 2025, a G42 za 24 proc., czyli łącznie dwa podmioty odpowiadały za 86 proc. sprzedaży. To jest ryzyko pierwszego rzędu, nie przypis drobnym drukiem [10][12][14][47][48][49].

Drugi duży problem to geopolityka i łańcuch dostaw. Poprzednia próba IPO została opóźniona przez przegląd bezpieczeństwa narodowego związany z G42. Sama spółka w dokumentach SEC szeroko opisuje ryzyka regulacyjne, eksportowe i dostawcze. To nie jest problem specyficzny wyłącznie dla Cerebras, ale dla firmy z tak wysoką koncentracją klientów i tak wyspecjalizowanym produktem wpływ tych ryzyk jest szczególnie duży [10][14][51].

Jak Cerebras wypada na tle konkurencji

NVIDIA. To wciąż najpełniejsza platforma AI na rynku. DGX B200 daje 1 440 GB pamięci GPU i 64 TB/s przepustowości HBM3e w systemie 8-GPU. GB300 NVL72 idzie znacznie dalej: 72 GPU, 20 TB pamięci GPU, do 576 TB/s przepustowości i 130 TB/s NVLink. To zupełnie inna filozofia skali niż pojedynczy wafer. NVIDIA wygrywa ekosystemem, uniwersalnością, pamięcią i narzędziami. Cerebras może wygrać tam, gdzie liczy się dekodowanie z bardzo niską latencją i uproszczenie topologii. Nie wygląda dziś na zamiennik całej platformy NVIDIA. Wygląda na silną kontrę w konkretnym segmencie inference [23][24].

AMD. MI350X oferuje 288 GB HBM3e i 8 TB/s przepustowości. MI300X daje 192 GB HBM3 i 5,3 TB/s. AMD jest bliżej klasycznego modelu zakupu akceleratora niż Cerebras. Dla wielu klientów będzie bezpieczniejszą alternatywą numer dwa wobec NVIDIA, bo nie wymaga zmiany paradygmatu. Cerebras ma bardziej radykalną tezę. Jeśli dla danej aplikacji najważniejszy jest per-user latency, może wygrać. Jeśli ważniejsza jest szeroka kompatybilność i standardowy model wdrożenia, AMD często będzie prostszym wyborem [25][26].

Google TPU. TPU v6e daje 32 GB HBM i 918 TFLOPS BF16 na chip, a TPU7x ma 192 GB HBM i około 7,37 TB/s przepustowości na chip. Google ma tu przewagę pionowej integracji: własne układy, własna chmura, własne modele i ogromne wewnętrzne obciążenia. TPUs zasilają Gemini i szeroką gamę usług Google. To bardzo mocna pozycja, ale głównie wewnątrz ekosystemu Google Cloud. Cerebras ma większy sens tam, gdzie klient chce dedykowanego, prywatnego lub alternatywnego do Google rozwiązania zoptymalizowanego pod latencję [27][28][29][50].

AWS Trainium i Inferentia. Trn2 dostarcza 20,8 PFLOPS FP8 i 1,5 TB pamięci akceleratorów na instancję, a Trn3 skaluje do 362 PFLOPS FP8 i 20,7 TB HBM3e w UltraServerze. Inferentia 2 oferuje do 384 GB pamięci akceleratorów i 9,8 TB/s w instancji Inf2. Najciekawsze jest jednak to, że AWS sam ustawił Cerebras jako uzupełnienie, nie rywala. Prefill na Trainium, decode na Cerebras. To moim zdaniem najtrafniejsza interpretacja pozycji rynkowej Cerebras na dziś: nie „wszystko dla wszystkich”, tylko bardzo mocny silnik do konkretnego fragmentu pipeline’u [9][30][31][32][33][34].

Groq. To najbliższy konkurent intelektualny, bo też sprzedaje tezę o szybkości inference zamiast ogólnej dominacji w training. Groq stawia na LPU z dużą SRAM jako pamięcią główną dla wag oraz deterministyczne, statycznie planowane wykonanie przez kompilator. To podejście jest bardzo eleganckie i dobrze pasuje do szybkiego inference. Różnica polega na skali i ambicji systemowej. Groq jest bardziej czytelny jako engine inference i API. Cerebras łączy inference z dużo większym systemem sprzętowym i z ambicją wejścia głębiej w infrastrukturę hyperscale i enterprise [35][36].

SambaNova i Intel Gaudi 3. SambaNova buduje ofertę wokół architektury dataflow i pamięci trójwarstwowej dla agentic inference. Intel Gaudi 3 daje 128 GB HBM, 3,7 TB/s przepustowości i standardowy model akceleratora z Ethernet scale-out. Obie firmy poruszają się bliżej znanego rynkowi sposobu zakupu AI compute niż Cerebras. Żadna z nich nie ma tak radykalnej propozycji architektonicznej jak wafer-scale, ale obie mogą być prostsze do wpięcia w istniejące środowiska procurementowe i operacyjne [37][38][39][40].

Mój werdykt

Cerebras jest technologią realną i ważną. Nie dlatego, że „ma największy chip świata”, choć to robi wrażenie. Jest ważny dlatego, że jako jedna z niewielu firm w branży stawia sensowną tezę architektoniczną o tym, gdzie będzie tworzyć się wartość w AI w drugiej połowie dekady. Tą wartością nie jest już wyłącznie trening wielkich modeli. Coraz częściej jest nią inferencja o niskiej latencji, wysoka jakość odpowiedzi w ograniczonym budżecie czasu oraz możliwość uruchamiania bardziej złożonych agentów bez mnożenia opóźnień [1][5][8][9].

Nie kupuję jednak narracji, że Cerebras zastąpi GPU jako uniwersalny standard AI infrastructure. Na dziś nie widać na to wystarczających przesłanek. Ograniczona pamięć on-chip, zależność od kompilatora i obsługiwanych wzorców modelowych, mniejszy ekosystem narzędzi oraz wysoka koncentracja biznesowa to zbyt duże ograniczenia, by traktować Cerebras jako pełny zamiennik NVIDIA, AMD czy TPU [14][15][16][23][24].

Kupuję natomiast znacznie węższą i bardziej przekonującą tezę. Cerebras może być jednym z najlepszych systemów na rynku dla latency-critical inference, zwłaszcza w zastosowaniach agentic, coding i real-time reasoning. Może też mieć mocne nisze w HPC. Jeśli ta interpretacja jest poprawna, najrozsądniejsza strategia dużych organizacji nie polega na wyborze jednej architektury. Polega na budowie portfela. GPU i TPU do szerokiego trainingu oraz batch inference. Cerebras tam, gdzie liczy się czas odpowiedzi i gdzie benchmark na własnym obciążeniu pokaże przewagę w P95, P99 i koszcie dostarczenia sensownego doświadczenia użytkownika [8][9][19][20][41][42].

Najkrótszy uczciwy opis Cerebras w 2026 roku brzmi więc tak: to nie jest nowy standard całego rynku AI. To jedna z niewielu architektur, które mają szansę wygrać jego najszybciej rosnący, najbardziej wrażliwy na latencję fragment.

---

Materiał ma charakter wyłącznie edukacyjny i informacyjny. Nie stanowi rekomendacji inwestycyjnej ani oferty w rozumieniu przepisów prawa. Autor nie ponosi odpowiedzialności za decyzje inwestycyjne podjęte na jego podstawie.

Źródła

[1] [Cerebras, “Product – Chip”](https://www.cerebras.ai/chip)

[2] [Cerebras, “Product – System”](https://www.cerebras.ai/system)

[3] [Cerebras, “Cerebras Systems Unveils World’s Fastest AI Chip with Whopping 4 Trillion Transistors”](https://www.cerebras.ai/press-release/cerebras-announces-third-generation-wafer-scale-engine)

[4] [Cerebras, “Cerebras CS-3: the world’s fastest and most scalable AI supercomputer”](https://www.cerebras.ai/blog/cerebras-cs3)

[5] [Cerebras, “Introducing Cerebras Inference: AI at Instant Speed”](https://www.cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed)

[6] [Cerebras, “The GPU Is Being Split in Half”](https://www.cerebras.ai/blog/disaggregated-inference)

[7] [Cerebras, “OpenAI GPT OSS 120B Runs Fastest on Cerebras”](https://www.cerebras.ai/blog/openai-gpt-oss-120b-runs-fastest-on-cerebras)

[8] [OpenAI, “OpenAI partners with Cerebras”](https://openai.com/index/cerebras-partnership/)

[9] [AWS, “AWS and Cerebras collaboration aims to set a new standard for AI inference speed and performance in the cloud”](https://www.aboutamazon.com/news/aws/aws-cerebras-ai-inference)

[10] [SEC, “Cerebras – S-1 (April 2026)”](https://www.sec.gov/Archives/edgar/data/2021728/000162828026025762/cerebras-sx1april2026.htm)

[11] [Reuters, “Nvidia rival Cerebras discloses US IPO filing as AI boom drives listings”](https://www.reuters.com/technology/nvidia-rival-cerebras-reveals-us-ipo-filing-ai-boom-drives-listings-2026-04-17/)

[12] [Tom’s Hardware, “Cerebras files for IPO – company remains unprofitable despite 20x revenue growth”](https://www.tomshardware.com/tech-industry/artificial-intelligence/cerebras-files-for-ipo-company-remains-unprofitable-despite-20x-revenue-growth)

[13] [Barron’s, “Cerebras Files for IPO Again. Its AI Chip Has Big Backers – and Big Risks.”](https://www.barrons.com/articles/cerebras-ipo-ai-chip-openai-contract-ff890d70)

[14] [SEC, “Cerebras S-1 (2024)”](https://www.sec.gov/Archives/edgar/data/2021728/000162828024041596/cerebras-sx1.htm)

[15] [Cerebras Training API, “Supported PyTorch Ops”](https://training-api.cerebras.ai/en/1.6.1/pytorch-docs/pytorch-ops/index.html)

[16] [Cerebras Training API, “Software Release Notes”](https://training-api.cerebras.ai/en/2.1.0/wsc/release-notes/rel-notes-cumulative.html)

[17] [Cerebras Training Docs, “Weight Streaming Execution”](https://training-docs.cerebras.ai/rel-2.5.0/concepts/weight-streaming-execution)

[18] [Cerebras Inference Docs, “OpenAI Compatibility”](https://inference-docs.cerebras.ai/resources/openai)

[19] [MLCommons, “MLPerf Inference v6.0 Results”](https://mlcommons.org/2026/04/mlperf-inference-v6-0-results/)

[20] [MLCommons, “MLPerf Training Benchmarks”](https://mlcommons.org/benchmarks/training/)

[21] [Reuters, “New AI benchmarks test speed of running AI applications”](https://www.reuters.com/technology/artificial-intelligence/new-ai-benchmarks-test-speed-running-ai-applications-2025-04-02/)

[22] [Reuters, “Nvidia chips make gains in training largest AI systems, new data shows”](https://www.reuters.com/business/nvidia-chips-make-gains-training-largest-ai-systems-new-data-shows-2025-06-04/)

[23] [NVIDIA, “DGX B200”](https://www.nvidia.com/en-us/data-center/dgx-b200/)

[24] [NVIDIA, “GB300 NVL72”](https://www.nvidia.com/en-us/data-center/gb300-nvl72/)

[25] [AMD, “Instinct MI350X”](https://www.amd.com/en/products/accelerators/instinct/mi350/mi350x.html)

[26] [AMD, “Instinct MI300X Data Sheet”](https://www.amd.com/content/dam/amd/en/documents/instinct-tech-docs/data-sheets/amd-instinct-mi300x-data-sheet.pdf)

[27] [Google Cloud, “TPU v6e”](https://docs.cloud.google.com/tpu/docs/v6e)

[28] [Google Cloud, “TPU7x (Ironwood)”](https://docs.cloud.google.com/tpu/docs/tpu7x)

[29] [Google Cloud, “Tensor Processing Units (TPUs)”](https://cloud.google.com/tpu)

[30] [AWS, “Amazon EC2 Trn2 instances and UltraServers”](https://aws.amazon.com/ec2/instance-types/trn2/)

[31] [AWS, “Amazon EC2 Trn3 UltraServers”](https://aws.amazon.com/ec2/instance-types/trn3/)

[32] [AWS, “Trainium”](https://aws.amazon.com/ai/machine-learning/trainium/)

[33] [AWS, “Amazon EC2 Inf2 instances”](https://aws.amazon.com/ec2/instance-types/inf2/)

[34] [AWS, “Inferentia”](https://aws.amazon.com/ai/machine-learning/inferentia/)

[35] [Groq, “LPU Architecture”](https://groq.com/lpu-architecture)

[36] [Groq, “What is a Language Processing Unit?”](https://groq.com/blog/the-groq-lpu-explained)

[37] [SambaNova, “RDU | Next-Gen AI Chip for Inference at Scale”](https://sambanova.ai/products/rdu-ai-chips)

[38] [SambaNova, Home Page](https://sambanova.ai/)

[39] [GIGABYTE, “Intel Gaudi 3 Platform with GIGABYTE solutions”](https://www.gigabyte.com/Solutions/intel-gaudi)

[40] [Intel, “Gaudi 3 AI Accelerators now available as a PCIe Card”](https://cdrdv2-public.intel.com/817488/Gaudi%203%20PCIe%20Product%20Brief_RB_1_V6.pdf)

[41] [arXiv, “Breaking the Molecular Dynamics Timescale Barrier Using a Wafer-Scale System”](https://arxiv.org/pdf/2405.07898)

[42] [ACM/SC, “Breaking the Molecular Dynamics Timescale Barrier Using a Wafer-Scale System”](https://dl.acm.org/doi/10.1109/SC41406.2024.00014)

[43] [Cerebras, “Pricing”](https://www.cerebras.ai/pricing)

[44] [AWS Marketplace, “Cerebras Fast Inference Cloud”](https://aws.amazon.com/marketplace/pp/prodview-ph4bdvplhhz3o)

[45] [Reuters, “OpenAI to buy compute capacity from startup Cerebras for around $10 billion”](https://www.reuters.com/technology/openai-buy-compute-capacity-startup-cerebras-around-10-billion-wsj-reports-2026-01-14/)

[46] [Reuters, “OpenAI may spend more than $20 billion on Cerebras chips and receive equity stake”](https://www.reuters.com/technology/openai-spend-more-than-20-billion-cerebras-chips-receive-equity-stake-2026-04-17/)

[47] [MarketWatch, “Nvidia rival Cerebras is taking another swing at an IPO”](https://www.marketwatch.com/story/nvidia-rival-cerebras-is-taking-another-swing-at-an-ipo-057f4deb)

[48] [Yahoo Finance, “Breaking down AI chipmaker Cerebras’ S-1”](https://finance.yahoo.com/markets/stocks/articles/breaking-down-ai-chipmaker-cerebras-225603481.html)

[49] [EE Times, “Cerebras’ IPO Paperwork Sheds Light on Relationship with G42”](https://www.eetimes.com/cerebras-ipo-paperwork-sheds-light-on-relationship-with-g42/)

[50] [Google Cloud, “TPU Developer Hub”](https://cloud.google.com/products/tpu/tpu-developer)

[51] [Reuters, “Cerebras likely to postpone IPO due to CFIUS review delay on G42 deal, sources say”](https://www.reuters.com/technology/cerebras-likely-postpone-ipo-due-cfius-review-delay-g42-deal-sources-say-2024-10-08/)

Discussion about this post

Ready for more?