
Când AI învață să vadă și să gândească în același timp
Modelul Kimi K2.5 de la Moonshot AI integrează limbajul și viziunea și folosește Agent Swarm pentru a aborda probleme complexe. Aceasta reprezintă o schimbare în designul AI, permițând procesarea paralelă și o înțelegere unificată a limbajului și a imaginilor.
Rezumat Detaliat
Articolul discută despre modelul Kimi K2.5 de la Moonshot AI, care își propune să îmbunătățească capacitatea AI de a gestiona sarcini complexe. Modelul integrează limbajul și viziunea ca o singură abilitate, spre deosebire de multe sisteme AI actuale, unde viziunea este adăugată ulterior. Mai mult, introduce Agent Swarm, un sistem care descompune sarcinile complexe în sub-probleme gestionate de lucrători specializați în paralel. Această abordare contrastează cu procesarea secvențială, cu un singur fișier, comună în majoritatea modelelor AI de astăzi, care încetinește adesea performanța.
Designul Kimi K2.5 abordează provocările integrării viziunii și limbajului în modelele AI. Modelele tradiționale antrenează adesea mai întâi limbajul și apoi adaugă viziune, ceea ce duce la conflicte interne între cele două abilități. K2.5, totuși, integrează textul și viziunea încă din fazele inițiale de antrenament, amestecând jetoane de text și viziune. Această integrare timpurie permite modelului să dezvolte o înțelegere mai fluidă, intermodală, similară modului în care persoanele bilingve folosesc ambele limbi. Această abordare ajută AI să înțeleagă atât limbajul, cât și imaginile ca o singură abilitate unificată.
O constatare cheie este eficacitatea "zero-vision SFT" în timpul fazei de reglare fină supravegheată. Echipa K2.5 a constatat că arătând modelului niciun exemplu vizual în această fază, de fapt, a îmbunătățit capacitățile sale de raționament vizual. Acest lucru sugerează că faza de pre-antrenament, cu legăturile sale profunde între limbaj și viziune, a permis deja modelului să gândească vizual. Demonstrațiile concepute de oameni de raționament vizual, în acest caz, au constrâns modelul. Această abordare demonstrează o nouă modalitate de a antrena modelele AI.
⚠️ Notă: Acesta este un rezumat generat automat. Drepturile asupra conținutului aparțin sursei originale. Citește articolul complet aici
Sursa originală
Citește articolul complet aici
Articole similare

DXC va integra Claude de la Anthropic în sistemele pentru industrii reglementate
DXC Technology colaborează cu Anthropic pentru a integra asistentul AI Claude în soluțiile sale cloud pentru companii. Această integrare vizează aducerea capabilităților AI avansate în sectoare critice precum sectorul bancar și cel aviatic, îmbunătățind eficiența operațională și serviciile pentru clienți. Colaborarea se concentrează pe oferirea unei implementări AI sigure și fiabile pentru industriile cu cerințe de reglementare stricte.

Anthropic Răspunde Directivei Guvernului SUA de Suspendare a Accesului la Fable 5 și Mythos 5
Anthropic a emis o declarație referitoare la o directivă a guvernului SUA de suspendare a accesului la modelele sale Fable 5 și Mythos 5. Compania cooperează cu directiva, subliniind în același timp angajamentul său față de siguranță și dezvoltarea responsabilă a AI.

Guvernul SUA dispune Anthropic să retragă modelele Fable 5 și Mythos 5
Anthropic a fost obligat de guvernul SUA să dezactiveze noile sale modele AI, Fable 5 și Mythos 5, la doar trei zile după lansare. Această acțiune survine în urma unei dispoziții guvernamentale federale, ale cărei detalii specifice nu sunt prezentate, dar care se referă la reglementările de export.

DiffusionGemma: Noul LLM Open de la Google Atinge 1.000 Tokeni/sec și Schimbă Economia Inferenței
Google DeepMind a lansat DiffusionGemma, un LLM open-weight care utilizează difuzia discretă pentru generarea de text, atingând peste 1.000 de tokeni/sec pe un singur GPU H100. Această nouă arhitectură procesează tokenii în blocuri, oferind îmbunătățiri semnificative de viteză față de modelele autoregresive tradiționale, în detrimentul unei precizii ușor reduse.