
Flux Attention înjumătățește costul inferenței pe contexte lungi
Flux Attention introduce un router la nivel de strat pentru a comuta dinamic între atenția densă și cea rară, obținând accelerări de 2-3x la inferența pe contexte lungi. Această metodă menține calitatea raționamentului, reducând în același timp costul computațional asociat cu atenția standard în modelele lingvistice mari.
Rezumat Detaliat
Flux Attention prezintă o abordare inovatoare pentru optimizarea inferenței în modelele lingvistice mari, vizând în mod specific provocările computaționale ale contextelor lungi. Inovația de bază constă într-un router la nivel de strat care decide dinamic dacă fiecare strat transformer ar trebui să utilizeze atenție densă sau rară. Această strategie de rutare adaptivă urmărește să reducă costul quadratic al atenției de sine standard, care devine prohibitiv pe măsură ce ferestrele de context se extind.
Din punct de vedere tehnic, metoda integrează un Layer Router ușor într-un model pre-antrenat înghețat. În timpul inferenței, acest router direcționează fiecare strat către atenție completă (FA) sau atenție rară (SA) pe baza intrării. Acest design evită limitările abordărilor hibride anterioare care utilizau rapoarte FA/SA fixe. Autorii raportează îmbunătățiri semnificative ale vitezei, de până la 2,8x în timpul prefill și 2,0x în timpul decodificării. Antrenarea routerului este, de asemenea, eficientă, necesitând doar 12 ore pe un nod A800 cu 8 GPU. Costul suplimentar al routerului este minim, cu o medie de doar 0,20 ms per strat.
Implicațiile Flux Attention sunt semnificative pentru echipele care servesc LLM-uri de tip chat cu ferestre extinse. Capacitatea de a antrena rapid un router la nivel de strat și de a-l integra în punctele de control existente oferă o soluție practică pentru îmbunătățirea debitului. Prin confirmarea câștigurilor de viteză pe lungimile de context țintă, echipele pot transforma raționamentul pe context lung dintr-o capacitate de nișă într-o caracteristică gata de producție. Concentrarea pe scenariile cu context lung și sarcinile grele de matematică sugerează potențialul pentru o aplicabilitate mai largă, deși este necesară o evaluare suplimentară pe repere cu solicitări scurte sau multilingve.
⚠️ Notă: Acesta este un rezumat generat automat. Drepturile asupra conținutului aparțin sursei originale. Citește articolul complet aici
Sursa originală
Citește articolul complet aici
Articole similare

DXC va integra Claude de la Anthropic în sistemele pentru industrii reglementate
DXC Technology colaborează cu Anthropic pentru a integra asistentul AI Claude în soluțiile sale cloud pentru companii. Această integrare vizează aducerea capabilităților AI avansate în sectoare critice precum sectorul bancar și cel aviatic, îmbunătățind eficiența operațională și serviciile pentru clienți. Colaborarea se concentrează pe oferirea unei implementări AI sigure și fiabile pentru industriile cu cerințe de reglementare stricte.

Anthropic Răspunde Directivei Guvernului SUA de Suspendare a Accesului la Fable 5 și Mythos 5
Anthropic a emis o declarație referitoare la o directivă a guvernului SUA de suspendare a accesului la modelele sale Fable 5 și Mythos 5. Compania cooperează cu directiva, subliniind în același timp angajamentul său față de siguranță și dezvoltarea responsabilă a AI.

Guvernul SUA dispune Anthropic să retragă modelele Fable 5 și Mythos 5
Anthropic a fost obligat de guvernul SUA să dezactiveze noile sale modele AI, Fable 5 și Mythos 5, la doar trei zile după lansare. Această acțiune survine în urma unei dispoziții guvernamentale federale, ale cărei detalii specifice nu sunt prezentate, dar care se referă la reglementările de export.

DiffusionGemma: Noul LLM Open de la Google Atinge 1.000 Tokeni/sec și Schimbă Economia Inferenței
Google DeepMind a lansat DiffusionGemma, un LLM open-weight care utilizează difuzia discretă pentru generarea de text, atingând peste 1.000 de tokeni/sec pe un singur GPU H100. Această nouă arhitectură procesează tokenii în blocuri, oferind îmbunătățiri semnificative de viteză față de modelele autoregresive tradiționale, în detrimentul unei precizii ușor reduse.