
Modele de limbaj prin difuzie: O analiză detaliată a arhitecturii DLM Nemotron-Labs de la NVIDIA
NVIDIA a lansat Nemotron-Labs Diffusion, o familie de modele de limbaj prin difuzie (DLM) care combină generarea autoregresivă și prin difuzie pentru o inferență mai rapidă. Acest articol oferă o analiză tehnică detaliată a arhitecturii, antrenamentului, modurilor de generare și modul de rulare cu SGLang.
Rezumat Detaliat
NVIDIA a lansat Nemotron-Labs Diffusion, o familie de modele de limbaj prin difuzie (DLM) care combină generarea autoregresivă și prin difuzie pentru o inferență mai rapidă. Articolul detaliază arhitectura, metodologia de antrenament, modurile de generare și modul de rulare cu SGLang. Inovația principală constă în ruperea buclei autoregresive, care este limitată de lățimea de bandă a memoriei, și în activarea procesării paralele pentru o generare mai rapidă.
Modelele de limbaj prin difuzie (DLM) aplică paradigma difuziei de denoise la text, începând cu jetoane zgomotoase și rafinându-le iterativ. Spre deosebire de modelele autoregresive (AR) care generează jetoane secvențial, DLM-urile rafinează toate jetoanele dintr-un bloc simultan, îmbunătățind profilul computațional. Articolul face referire la Modelele de Limbaj prin Difuzie Mascată (MDLM) ca bază conceptuală pentru DLM, evidențiind provocările care au împiedicat adoptarea lor pe scară largă, în special în ceea ce privește acuratețea și stabilitatea antrenamentului în comparație cu modelele AR.
Articolul explică provocările cu care s-au confruntat DLM-urile, inclusiv lacunele de acuratețe și instabilitatea antrenamentului, care au împiedicat competitivitatea lor față de modelele AR. Nemotron-Labs Diffusion de la NVIDIA abordează aceste probleme prin ruperea buclei autoregresive și activarea procesării paralele. Această abordare permite o utilizare mai eficientă a GPU-ului, deoarece blocajul lățimii de bandă a memoriei este ocolit. Articolul atinge, de asemenea, economia servirii LLM-urilor și limitările generării autoregresive, subliniind necesitatea unor abordări inovatoare precum DLM-urile pentru a îmbunătăți performanța.
⚠️ Notă: Acesta este un rezumat generat automat. Drepturile asupra conținutului aparțin sursei originale. Citește articolul complet aici
Sursa originală
Citește articolul complet aici
Articole similare

DXC va integra Claude de la Anthropic în sistemele pentru industrii reglementate
DXC Technology colaborează cu Anthropic pentru a integra asistentul AI Claude în soluțiile sale cloud pentru companii. Această integrare vizează aducerea capabilităților AI avansate în sectoare critice precum sectorul bancar și cel aviatic, îmbunătățind eficiența operațională și serviciile pentru clienți. Colaborarea se concentrează pe oferirea unei implementări AI sigure și fiabile pentru industriile cu cerințe de reglementare stricte.

Anthropic Răspunde Directivei Guvernului SUA de Suspendare a Accesului la Fable 5 și Mythos 5
Anthropic a emis o declarație referitoare la o directivă a guvernului SUA de suspendare a accesului la modelele sale Fable 5 și Mythos 5. Compania cooperează cu directiva, subliniind în același timp angajamentul său față de siguranță și dezvoltarea responsabilă a AI.

Guvernul SUA dispune Anthropic să retragă modelele Fable 5 și Mythos 5
Anthropic a fost obligat de guvernul SUA să dezactiveze noile sale modele AI, Fable 5 și Mythos 5, la doar trei zile după lansare. Această acțiune survine în urma unei dispoziții guvernamentale federale, ale cărei detalii specifice nu sunt prezentate, dar care se referă la reglementările de export.

DiffusionGemma: Noul LLM Open de la Google Atinge 1.000 Tokeni/sec și Schimbă Economia Inferenței
Google DeepMind a lansat DiffusionGemma, un LLM open-weight care utilizează difuzia discretă pentru generarea de text, atingând peste 1.000 de tokeni/sec pe un singur GPU H100. Această nouă arhitectură procesează tokenii în blocuri, oferind îmbunătățiri semnificative de viteză față de modelele autoregresive tradiționale, în detrimentul unei precizii ușor reduse.