
NVIDIA și MIT Colaborează: O Lansare Open-Source Majoră a unei Echipe Chineze Reduce Memoria de Inferență a Modelelor Mari de 10 Ori
NVIDIA și MIT colaborează la o lansare open-source a unei echipe chineze care reduce semnificativ amprenta de memorie pentru inferența modelelor lingvistice mari (LLM). Această realizare permite o implementare mai eficientă a modelelor AI complexe.
Rezumat Detaliat
O echipă de cercetare chineză, în colaborare cu NVIDIA și MIT, a lansat un nou proiect open-source conceput pentru a optimiza utilizarea memoriei modelelor lingvistice mari în timpul inferenței. Acest proiect urmărește să reducă amprenta de memorie de zece ori, făcând posibilă rularea modelelor AI complexe pe hardware cu resurse mai limitate. Colaborarea dintre NVIDIA și MIT subliniază importanța inițiativelor open-source în avansarea tehnologiei AI și în creșterea accesibilității acesteia.
Detaliile tehnice ale proiectului implică tehnici noi pentru a comprima și optimiza ponderile și activările modelului în timpul inferenței. Aceasta include metode de cuantificare, tăiere și alte strategii de compresie. Scopul este de a menține acuratețea, reducând în același timp dramatic cerințele de memorie, permițând timpi de inferență mai rapizi și costuri hardware mai mici. Acest lucru este deosebit de relevant pentru implementarea LLM-urilor pe dispozitivele edge sau în medii cu resurse limitate.
Implicațiile acestei lansări open-source sunt semnificative pentru industria AI. Ar putea democratiza accesul la modele AI puternice, permițând implementarea lor pe o gamă mai largă de hardware. Acest lucru ar putea duce la noi aplicații și inovații în domenii precum edge computing, AI mobil și sisteme încorporate. Natura open-source a proiectului încurajează dezvoltarea și colaborarea ulterioară, accelerând potențial ritmul progreselor în optimizarea modelelor AI.
⚠️ Notă: Acesta este un rezumat generat automat. Drepturile asupra conținutului aparțin sursei originale. Citește articolul complet aici
Sursa originală
Citește articolul complet aici
Articole similare

DXC va integra Claude de la Anthropic în sistemele pentru industrii reglementate
DXC Technology colaborează cu Anthropic pentru a integra asistentul AI Claude în soluțiile sale cloud pentru companii. Această integrare vizează aducerea capabilităților AI avansate în sectoare critice precum sectorul bancar și cel aviatic, îmbunătățind eficiența operațională și serviciile pentru clienți. Colaborarea se concentrează pe oferirea unei implementări AI sigure și fiabile pentru industriile cu cerințe de reglementare stricte.

Anthropic Răspunde Directivei Guvernului SUA de Suspendare a Accesului la Fable 5 și Mythos 5
Anthropic a emis o declarație referitoare la o directivă a guvernului SUA de suspendare a accesului la modelele sale Fable 5 și Mythos 5. Compania cooperează cu directiva, subliniind în același timp angajamentul său față de siguranță și dezvoltarea responsabilă a AI.

Guvernul SUA dispune Anthropic să retragă modelele Fable 5 și Mythos 5
Anthropic a fost obligat de guvernul SUA să dezactiveze noile sale modele AI, Fable 5 și Mythos 5, la doar trei zile după lansare. Această acțiune survine în urma unei dispoziții guvernamentale federale, ale cărei detalii specifice nu sunt prezentate, dar care se referă la reglementările de export.

DiffusionGemma: Noul LLM Open de la Google Atinge 1.000 Tokeni/sec și Schimbă Economia Inferenței
Google DeepMind a lansat DiffusionGemma, un LLM open-weight care utilizează difuzia discretă pentru generarea de text, atingând peste 1.000 de tokeni/sec pe un singur GPU H100. Această nouă arhitectură procesează tokenii în blocuri, oferind îmbunătățiri semnificative de viteză față de modelele autoregresive tradiționale, în detrimentul unei precizii ușor reduse.