
TTT-E2E: Modelul AI care învață în timp ce citește (Adio KV Cache?)
Cercetătorii de la Stanford, NVIDIA și UC Berkeley au dezvoltat TTT-E2E, un model AI care își evoluează starea internă în timp ce citește, redefinind modelarea contextului lung ca o problemă de învățare continuă. Această abordare inovatoare comprimă contextul în parametri interni, oferind un cost constant de inferență și performanță de atenție completă chiar și la 128K de jetoane.
Rezumat Detaliat
Modelul TTT-E2E, o colaborare între Stanford, NVIDIA și UC Berkeley, abordează costurile computaționale ale arhitecturilor Transformer tradiționale atunci când gestionează contexte lungi. Spre deosebire de Transformatoarele standard care se bazează pe un KV Cache, care crește liniar cu lungimea secvenței, TTT-E2E își actualizează greutățile în timpul citirii, tratând intrarea ca un set de antrenament. Această alegere de proiectare are ca rezultat un cost constant de inferență și menține calitatea mecanismelor tradiționale de atenție. Inovația de bază a modelului constă în comprimarea contextului în parametrii săi interni, înlocuind KV cache-ul voluminos cu o stare ascunsă actualizată printr-un obiectiv de învățare auto-supervizată în timpul parcurgerii înainte. Această abordare permite procesarea eficientă a documentelor masive sau a bazelor de cod în timp real. Trecerea de la procesarea bazată pe memorie la învățarea din mers deschide noi posibilități pentru edge computing și analiza de conținut pe termen lung. TTT-E2E face legătura între eficiența RNN/SSM și puterea Transformatoarelor, transformând starea ascunsă într-o rețea neuronală dinamică. Deși există limitări în comparație cu modelele de atenție completă în sarcini specifice de raționament, schimbarea arhitecturală către modele care se adaptează datelor în timp real este semnificativă. Lucrarea oficială și codul sursă sunt disponibile pentru o explorare suplimentară.
⚠️ Notă: Acesta este un rezumat generat automat. Drepturile asupra conținutului aparțin sursei originale. Citește articolul complet aici
Sursa originală
Citește articolul complet aici
Articole similare

Elon Musk evidențiază capacitatea Grok AI de a genera solicitări mai bune pentru imagini și videoclipuri
Elon Musk a lăudat modelul Grok al xAI pentru capacitatea sa îmbunătățită de a crea solicitări sofisticate pentru imagini și videoclipuri de înaltă calitate. Acest lucru a fost evidențiat într-o postare virală pe X, primind peste 1,6 milioane de vizualizări.

AI Central în Războiul SUA-Iran 2026, deoarece sistemele de țintire accelerează atacurile, dar stârnesc întrebări despre acuratețe și etică
Inteligența artificială joacă un rol cheie în campania militară continuă SUA-Israel împotriva Iranului, permițând o țintire mai rapidă și o rată mai mare de atacuri. Cu toate acestea, acest lucru ridică îngrijorări cu privire la acuratețea tehnologiei și costul uman potențial.

Ce este proiectul de dezvoltare Anthropic dezvăluit de scurgerea codului sursă Claude?
Articolul discută despre un proiect de dezvoltare Anthropic dezvăluit prin scurgerea codului sursă Claude. Probabil implică detalii despre modelele AI și eforturile de dezvoltare ale Anthropic.

Anthropic restricționează utilizarea neautorizată a Claude
Anthropic ia măsuri împotriva utilizării neautorizate a modelului său AI, Claude, de către terți. Articolul subliniază eforturile companiei de a controla modul în care este utilizată tehnologia sa.