
JD.com va face open-source un model de interacțiune vizual-lingvistică în timp real, trecând de la "Întrebare-și-Răspuns" la "Vezi-și-Spune"
JD.com se pregătește să facă open-source modelul său proprietar de interacțiune vizual-lingvistică în timp real, marcând o schimbare semnificativă de la sistemele tradiționale de întrebare-răspuns către un model mai intuitiv de "vezi-și-spune". Această mișcare urmărește să îmbunătățească interacțiunea utilizatorilor, permițând modelelor să înțeleagă și să răspundă simultan la intrări vizuale și auditive.
Rezumat Detaliat
JD.com a anunțat intenția sa de a face open-source un model sofisticat de interacțiune vizual-lingvistică în timp real, o dezvoltare ce semnifică un progres notabil în interacțiunea om-calculator. Acest model depășește formatul convențional bazat pe text de întrebare-răspuns, permițând o interacțiune mai naturală și dinamică, în care utilizatorii pot "vedea" și "vorbi" cu sistemul. Tehnologia subiacentă permite modelului să proceseze informații vizuale concomitent cu limbajul vorbit, creând o experiență de interacțiune mai bogată și mai conștientă de context.
Nucleul tehnic al acestui model implică o fuziune a capabilităților de computer vision și procesare a limbajului natural, proiectat pentru performanță în timp real. Acesta procesează date vizuale, cum ar fi imagini sau fluxuri video, și integrează această înțelegere cu comenzi sau interogări vorbite. Acest lucru permite interacțiuni complexe în care sistemul se poate referi la elemente vizuale, făcându-l potrivit pentru aplicații care necesită o înțelegere profundă atât a contextului vizual, cât și a intrării lingvistice. Specificul arhitecturii și metodologiilor de antrenament sunt așteptate să fie detaliate la lansarea sa open-source.
Prin transformarea acestui model în open-source, JD.com își propune să stimuleze inovația și colaborarea la scară largă în cadrul comunității de dezvoltatori, accelerând potențial dezvoltarea aplicațiilor AI de generație următoare. Această inițiativă ar putea duce la asistenți virtuali mai sofisticați, instrumente de accesibilitate îmbunătățite și modalități noi prin care utilizatorii pot interacționa cu conținutul digital și mediile fizice. Impactul în industrie constă în împingerea limitelor AI-ului multimodal și stabilirea unor noi standarde pentru sistemele interactive.
⚠️ Notă: Acesta este un rezumat generat automat. Drepturile asupra conținutului aparțin sursei originale. Citește articolul complet aici
Sursa originală
Citește articolul complet aici
Articole similare

Serviciul de identitate și plăți bazat pe AI de la Alchemy se integrează cu rețeaua Visa
Alchemy și-a integrat serviciul de identitate și plăți bazat pe AI, AgentCard, cu rețeaua Visa prin intermediul Visa Intelligent Commerce. Această integrare permite agenților AI de la orice furnizor să efectueze tranzacții comerciale, reprezentând un pas important pentru AI în comerț.

Difuzorul Google Home cu Gemini se lansează oficial pe 25 iunie
Google a anunțat oficial lansarea noului Google Home Speaker, primul difuzor smart al companiei conceput special pentru Gemini. Precomenzile sunt deja deschise, iar livrările vor începe pe 25 iunie, la un preț de 99,99 dolari.

Baseten strânge 1,5 miliarde USD, ajungând la o evaluare de 13 miliarde USD pe fondul cererii crescute pentru modele AI mai ieftine
Baseten, o companie axată pe infrastructura AI, a reușit să strângă 1,5 miliarde USD, atingând o evaluare de 13 miliarde USD. Această rundă semnificativă de finanțare reflectă cererea crescândă a pieței pentru soluții mai rentabile de implementare și gestionare a modelelor AI.

Figma Se Confrontă cu Presiuni din Partea Activistilor din Cauza Legăturii cu Anthropic, CEO-ul Apără Planul AI
Figma se confruntă cu presiuni din partea unui investitor activist din cauza parteneriatului său cu compania AI Anthropic. CEO-ul Dylan Field apără strategia AI a companiei, subliniind importanța acesteia pentru dezvoltarea viitoare a produselor.