
NVIDIA dezvăluie o metodă de antrenare a agenților AI folosind date sintetice și GRPO
NVIDIA a dezvoltat o nouă metodă de antrenare a agenților CLI. Această abordare combină generarea de date sintetice cu învățarea prin întărire, reducând semnificativ timpul de antrenare.
Rezumat Detaliat
NVIDIA a introdus o metodă nouă pentru antrenarea agenților de interfață de linie de comandă (CLI), utilizând date sintetice și algoritmul GRPO (Generative Reinforcement Policy Optimization). Această abordare inovatoare permite antrenarea agenților AI pe un singur GPU, accelerând dramatic procesul de antrenare. Utilizarea datelor sintetice evită necesitatea unor seturi de date extinse din lumea reală, în timp ce GRPO optimizează politica agentului pentru o învățare eficientă, conducând la o convergență mai rapidă și o performanță îmbunătățită.
⚠️ Notă: Acesta este un rezumat generat automat. Drepturile asupra conținutului aparțin sursei originale. Citește articolul complet aici
Sursa originală
Citește articolul complet aici
Articole similare

Anthropic va strânge încă 30 de miliarde de dolari pentru o evaluare de 900 de miliarde de dolari: Raport
Potrivit informațiilor, Anthropic se pregătește să asigure o nouă rundă de finanțare, care ar putea depăși 30 de miliarde de dolari. Aceasta ar crește semnificativ evaluarea companiei.

Imaginile ChatGPT conțin markere AI invizibile pe care oricine le poate detecta: Ce trebuie să știe utilizatorii care nu pot dezvălui AI generativ
Imaginile generate de ChatGPT și API-ul OpenAI din 19 mai 2026 conțin markere invizibile care le identifică ca fiind produse de AI. Aceste markere persistă prin diverse manipulări, cum ar fi capturi de ecran și modificări de format. O unealtă publică gratuită este disponibilă pentru verificare.

Decizia Curții Supreme ar putea expune conversațiile AI și căutările de cuvinte cheie poliției
Curtea Supremă este pe cale să decidă într-un caz privind mandatele de geofence, ceea ce ar putea afecta în mod semnificativ confidențialitatea digitală. Această hotărâre, Chatrie v. United States, are implicații asupra modului în care autoritățile accesează datele de localizare și, potențial, alte informații digitale.

Google a acceptat 6.000 de contribuții Gemini CLI, apoi a închis instrumentul doar pentru Enterprise
Google a acceptat contribuții de cod pentru un instrument terminal AI open-source timp de aproape un an. Pe 19 mai 2026, au anunțat retragerea accesului API pentru utilizatorii care nu plătesc, mutând viitorul proiectului către clienții enterprise. Un succesor closed-source a înlocuit originalul, lipsindu-i unele caracteristici.