
Microsoft Research lansează Webwright: Un cadru de lucru pentru agenți web nativi pentru terminale
Microsoft Research a lansat Webwright, un cadru de lucru pentru agenți web nativi pentru terminale. Webwright a obținut un scor de 60,1% pe Odysseys, depășind semnificativ scorul de 33,5% obținut de GPT-5.4 de bază.
Rezumat Detaliat
Microsoft Research a dezvoltat Webwright, un nou cadru de lucru conceput pentru agenți web care operează într-un mediu terminal. Acest cadru de lucru permite interacțiuni mai eficiente și mai simplificate cu informațiile și sarcinile bazate pe web. Obiectivul principal al Webwright este de a îmbunătăți performanța agenților web în sarcini complexe, așa cum demonstrează performanța sa pe benchmark-ul Odysseys.
Din punct de vedere tehnic, Webwright este proiectat să fie nativ pentru terminal, ceea ce înseamnă că poate interacționa direct cu interfața liniei de comandă. Această alegere de proiectare permite un flux de lucru mai integrat și mai eficient. Performanța cadrului de lucru a fost evaluată folosind benchmark-ul Odysseys, unde a obținut un scor de 60,1%. Acest scor reprezintă o îmbunătățire substanțială față de scorul de 33,5% obținut de modelul GPT-5.4 de bază, indicând progrese semnificative în capacitățile agenților web.
Lansarea Webwright are implicații pentru dezvoltatorii și cercetătorii care lucrează la aplicații AI și bazate pe web. Performanța îmbunătățită a Webwright sugerează că agenții web nativi pentru terminal pot fi mai eficienți. Acest lucru ar putea duce la noi aplicații și instrumente care valorifică capacitățile cadrului de lucru, potențial afectând modul în care dezvoltatorii interacționează cu serviciile web și automatizează sarcinile.
⚠️ Notă: Acesta este un rezumat generat automat. Drepturile asupra conținutului aparțin sursei originale. Citește articolul complet aici
Sursa originală
Citește articolul complet aici
Articole similare

Elon Musk ar urmări achiziționarea unei startup fondate de patru absolvenți de facultate pentru 60 miliarde dolari
Elon Musk ar fi în discuții pentru achiziționarea unei startup fondate de patru absolvenți de facultate pentru suma impresionantă de 60 miliarde dolari. Natura specifică a tehnologiei startup-ului sau focusul său pe piață rămân nedezvăluite, făcând evaluarea imensă un subiect de intrigă semnificativă.

Artificial Analysis lansează benchmark-uri pentru agenți de codare cu un eveniment în San Francisco
Artificial Analysis a introdus noi benchmark-uri concepute pentru a evalua performanța agenților AI de codare. Evenimentul de lansare, desfășurat în San Francisco, a subliniat nevoia crescândă de testare standardizată în acest domeniu în rapidă evoluție.

The Download: "Olimpiadele cu steroizi" și Mythos mai sigur
Această ediție a newsletterului The Download acoperă fenomenul cultural al "olimpiadelor cu steroizi" și introduce o abordare mai sigură pentru framework-ul Mythos. Articolul analizează spectacolul acestor evenimente și modul în care reflectă valorile societale, explorând în același timp progresele tehnice în designul securizat al sistemelor.

The Download: Renașterea datelor în fotbal și planurile nucleare ambițioase ale Chinei
Această ediție a newsletterului The Download abordează utilizarea tot mai extinsă a analizei datelor în fotbal, transformând modul în care sportul este jucat și înțeles. De asemenea, atinge progresele semnificative și planurile Chinei în domeniul tehnologiei energiei nucleare.