NVIDIA dezvăluie o metodă de antrenare a agenților AI folosind date sintetice și GRPO

NVIDIA a dezvoltat o nouă metodă de antrenare a agenților CLI. Această abordare combină generarea de date sintetice cu învățarea prin întărire, reducând semnificativ timpul de antrenare.

Rezumat Detaliat

NVIDIA a introdus o metodă nouă pentru antrenarea agenților de interfață de linie de comandă (CLI), utilizând date sintetice și algoritmul GRPO (Generative Reinforcement Policy Optimization). Această abordare inovatoare permite antrenarea agenților AI pe un singur GPU, accelerând dramatic procesul de antrenare. Utilizarea datelor sintetice evită necesitatea unor seturi de date extinse din lumea reală, în timp ce GRPO optimizează politica agentului pentru o învățare eficientă, conducând la o convergență mai rapidă și o performanță îmbunătățită.

⚠️ Notă: Acesta este un rezumat generat automat. Drepturile asupra conținutului aparțin sursei originale. Citește articolul complet aici

Sursa originală

Citește articolul complet aici

Deschide Original

Articole similare

AI & ML•23 mai

Anthropic va strânge încă 30 de miliarde de dolari pentru o evaluare de 900 de miliarde de dolari: Raport

Potrivit informațiilor, Anthropic se pregătește să asigure o nouă rundă de finanțare, care ar putea depăși 30 de miliarde de dolari. Aceasta ar crește semnificativ evaluarea companiei.

AI & ML•23 mai

Imaginile ChatGPT conțin markere AI invizibile pe care oricine le poate detecta: Ce trebuie să știe utilizatorii care nu pot dezvălui AI generativ

Imaginile generate de ChatGPT și API-ul OpenAI din 19 mai 2026 conțin markere invizibile care le identifică ca fiind produse de AI. Aceste markere persistă prin diverse manipulări, cum ar fi capturi de ecran și modificări de format. O unealtă publică gratuită este disponibilă pentru verificare.

AI & ML•23 mai

Decizia Curții Supreme ar putea expune conversațiile AI și căutările de cuvinte cheie poliției

Curtea Supremă este pe cale să decidă într-un caz privind mandatele de geofence, ceea ce ar putea afecta în mod semnificativ confidențialitatea digitală. Această hotărâre, Chatrie v. United States, are implicații asupra modului în care autoritățile accesează datele de localizare și, potențial, alte informații digitale.

AI & ML•23 mai

Google a acceptat 6.000 de contribuții Gemini CLI, apoi a închis instrumentul doar pentru Enterprise

Google a acceptat contribuții de cod pentru un instrument terminal AI open-source timp de aproape un an. Pe 19 mai 2026, au anunțat retragerea accesului API pentru utilizatorii care nu plătesc, mutând viitorul proiectului către clienții enterprise. Un succesor closed-source a înlocuit originalul, lipsindu-i unele caracteristici.