Jesteś tutaj

Dyfuzyjne modele językowe (dLLM) – nowa technologia, większa wydajność i mniejsze koszty

Większość współczesnych modeli językowych, zarówno tych małych, jak i dużych, bazuje na tej samej metodzie działania. Jednak na scenę wkroczyło przełomowe rozwiązanie od Inception Labs – model Mercury, który wykorzystuje podejście znane z innego segmentu sztucznej inteligencji. Jest to pierwsza rodzina dyfuzyjnych dużych modeli językowych (dLLM), które zamiast generować tekst sekwencyjnie od lewej do prawej, pozyskują dane wyjściowe poprzez proces odszumiania.

Zalety podejścia dyfuzyjnego

Obecne duże modele językowe (LLM) działają w sposób autoregresyjny, co oznacza, że generują tekst krok po kroku – każdy nowy token powstaje dopiero po wygenerowaniu poprzedniego. Metoda ta, choć skuteczna, wymaga ogromnych zasobów obliczeniowych, co zwiększa koszty operacyjne i czas generowania treści.

mercury inception Labs

Modele dyfuzyjne eliminują ten problem, ponieważ nie muszą działać w sposób liniowy. Dzięki zastosowaniu procesu odszumiania mogą generować całe fragmenty tekstu jednocześnie, co znacząco zwiększa wydajność i redukuje błędy (tzw. halucynacje) poprzez ciągłe korygowanie wyników w trakcie generacji.

Mercury Coder – nowa jakość w generowaniu kodu

Pierwsze komercyjne modele AI od Inception Labs bazujące na tym podejściu właśnie ujrzały światło dzienne. Mercury Coder, bo tak nazywa się ta nowa linia dLLM, dostępna jest w dwóch wariantach: Mini oraz Small.

Modele Mercury oferują przełomową prędkość działania – od 5 do 10 razy większą w porównaniu do klasycznych LLM. W połączeniu z akceleratorem NVIDIA H100, Mercury Coder Mini osiąga prędkość generowania ponad 1100 tokenów na sekundę. Żadne dotychczasowe rozwiązania od Google, Anthropic, DeepSeek czy OpenAI nie oferują podobnych osiągów. Co więcej, modele Mercury zostały zoptymalizowane pod kątem generowania kodu, a użytkownicy mogą nie tylko testować ich możliwości, ale również uruchamiać wygenerowany kod na dedykowanej platformie.

Kto stoi za Inception Labs?

Za Inception Labs stoją naukowcy z czołowych amerykańskich uczelni: Uniwersytetu Stanforda, Uniwersytetu Kalifornijskiego oraz Uniwersytetu Cornella. Zespół składa się z byłych pracowników gigantów technologicznych, takich jak NVIDIA, OpenAI, Microsoft, Meta i Google DeepMind. Ich wspólna wiedza i doświadczenie zaowocowały stworzeniem modelu, który może zrewolucjonizować rynek sztucznej inteligencji.

Czy modele dyfuzyjne staną się przyszłością AI? Mercury Coder pokazuje, że taka możliwość jest coraz bardziej realna.