Modele de limbaj prin difuzie: O analiză detaliată a arhitecturii DLM Nemotron-Labs de la NVIDIA

NVIDIA a lansat Nemotron-Labs Diffusion, o familie de modele de limbaj prin difuzie (DLM) care combină generarea autoregresivă și prin difuzie pentru o inferență mai rapidă. Acest articol oferă o analiză tehnică detaliată a arhitecturii, antrenamentului, modurilor de generare și modul de rulare cu SGLang.

Rezumat Detaliat

NVIDIA a lansat Nemotron-Labs Diffusion, o familie de modele de limbaj prin difuzie (DLM) care combină generarea autoregresivă și prin difuzie pentru o inferență mai rapidă. Articolul detaliază arhitectura, metodologia de antrenament, modurile de generare și modul de rulare cu SGLang. Inovația principală constă în ruperea buclei autoregresive, care este limitată de lățimea de bandă a memoriei, și în activarea procesării paralele pentru o generare mai rapidă.

Modelele de limbaj prin difuzie (DLM) aplică paradigma difuziei de denoise la text, începând cu jetoane zgomotoase și rafinându-le iterativ. Spre deosebire de modelele autoregresive (AR) care generează jetoane secvențial, DLM-urile rafinează toate jetoanele dintr-un bloc simultan, îmbunătățind profilul computațional. Articolul face referire la Modelele de Limbaj prin Difuzie Mascată (MDLM) ca bază conceptuală pentru DLM, evidențiind provocările care au împiedicat adoptarea lor pe scară largă, în special în ceea ce privește acuratețea și stabilitatea antrenamentului în comparație cu modelele AR.

Articolul explică provocările cu care s-au confruntat DLM-urile, inclusiv lacunele de acuratețe și instabilitatea antrenamentului, care au împiedicat competitivitatea lor față de modelele AR. Nemotron-Labs Diffusion de la NVIDIA abordează aceste probleme prin ruperea buclei autoregresive și activarea procesării paralele. Această abordare permite o utilizare mai eficientă a GPU-ului, deoarece blocajul lățimii de bandă a memoriei este ocolit. Articolul atinge, de asemenea, economia servirii LLM-urilor și limitările generării autoregresive, subliniind necesitatea unor abordări inovatoare precum DLM-urile pentru a îmbunătăți performanța.

⚠️ Notă: Acesta este un rezumat generat automat. Drepturile asupra conținutului aparțin sursei originale. Citește articolul complet aici

Sursa originală

Citește articolul complet aici

Deschide Original

Articole similare

AI & ML•3 aug.

Instrumentul AI Preferat al Congresului: ChatGPT

Birourile Congresului utilizează intens ChatGPT de la OpenAI, înregistrările de cheltuieli indicând că este instrumentul AI plătit dominant. Angajații folosesc chatbot-ul pentru sarcini precum redactarea de memorii, rezumarea legislației și gestionarea comunicărilor cu alegătorii.

AI & ML•3 aug.

Alibaba lansează Qwen3.8-Max, pretinzând performanțe competitive cu cele mai bune modele AI din SUA

Gigantul tehnologic chinez Alibaba a lansat cel mai mare și mai capabil model AI de până acum, Qwen3.8-Max, pe care compania susține că rivalizează performanța sistemelor de top de la Anthropic, OpenAI și concurenți interni. Lansarea publică a acestui model AI puternic din China intensifică tensiunile existente în peisajul dezvoltării AI.

AI & ML•3 aug.

Alibaba lansează Qwen3.8-Max cu 2.4 trilioane de parametri și fereastră de context de 1 milion

Alibaba a lansat oficial Qwen3.8-Max, un model lingvistic mare care dispune de 2.4 trilioane de parametri și o fereastră de context de 1 milion de tokeni. Modelul include, de asemenea, capabilități de agent pe termen lung, iar o versiune open-source este așteptată în cursul săptămânii.

AI & ML•3 aug.

MiniMax Înoată Disperat Peste Linia de Plutire: Open-Source H3 Între Tavanul de Performanță Kimi K3 și Podeaua de Preț DeepSeek, cu Cheltuieli R&D Triplu Veniturilor

Startup-ul chinez de AI, MiniMax, se confruntă cu presiuni financiare semnificative, cheltuielile de R&D triplându-i veniturile, ceea ce forțează o orientare strategică către modele open-source precum H3. Compania este prinsă între performanța ridicată a modelelor precum Kimi K3 și prețurile competitive ale alternativelor precum DeepSeek.