
Modelul Māori Text-to-Speech Prioritizează Proprietatea Comunitară
Un nou model text-to-speech pentru limba Māori a fost dezvoltat pentru a aborda preocupările legate de proprietatea datelor de către companiile mari de tehnologie. Proiectul s-a concentrat pe un dialect specific, asigurând că vocea sintetică și toate resursele aferente rămân sub controlul comunității.
Rezumat Detaliat
Articolul discută despre crearea unui model text-to-speech pentru limba Māori, dezvoltat pentru a contracara dominația companiilor mari de tehnologie în domeniul tehnologiei lingvistice. Proiectul, condus de Te Taka Keegan și Kingsley Eng, a avut ca scop crearea unei voci sintetice pentru un dialect specific al limbii te reo Māori, asigurând proprietatea comunității asupra tehnologiei și datelor. Această abordare a fost un răspuns direct la preocupările legate de companiile mari care folosesc datele lingvistice Māori fără permisiune și controlează rezultatul, ceea ce a ridicat probleme legate de transferul de cunoștințe și conservarea culturală. Principiul de bază al proiectului a fost menținerea controlului și proprietății locale, stabilind un precedent pentru alte comunități lingvistice minoritare.
Din punct de vedere tehnic, proiectul s-a confruntat cu provocări din cauza caracteristicilor lingvistice unice ale limbii te reo Māori, cum ar fi lungimea vocalelor și digramele, care diferă de engleză. Echipa a abordat aceste probleme folosind o abordare bazată pe foneme, care a oferit modelului reguli fonetice pentru a îmbunătăți acuratețea pronunției. De asemenea, au abordat natura cu resurse puține a limbii prin recrutarea unui vorbitor nativ, Ngaringi Katipa, pentru a oferi înregistrările vocale. Echipa a folosit instrumente open-source precum eSpeak NG și a testat diferite arhitecturi neuronale precum Matcha-TTS, Tacotron2 și Piper pentru a antrena și transforma înregistrările într-o voce sintetică. Setul de date final a constat în 7 ore și 45 de minute de înregistrări, care au fost apoi utilizate pentru a antrena modelul.
Implicațiile acestui proiect sunt semnificative pentru comunitățile lingvistice minoritare din întreaga lume, oferind un model replicabil pentru dezvoltarea instrumentelor AI, prioritizând în același timp proprietatea datelor și conservarea culturală. Proiectul evidențiază importanța controlului local asupra tehnologiei lingvistice, în special în contextul AI. Succesul modelului Māori text-to-speech demonstrează fezabilitatea creării de instrumente AI care respectă valorile culturale și drepturile comunității, influențând potențial practicile viitoare de dezvoltare AI. Accentul proiectului pe proprietatea comunitară și instrumentele open-source oferă un model pentru alte comunități, asigurând că tehnologia lingvistică servește și împuternicește oamenii care vorbesc limba.
⚠️ Notă: Acesta este un rezumat generat automat. Drepturile asupra conținutului aparțin sursei originale. Citește articolul complet aici
Sursa originală
Citește articolul complet aici
Articole similare

DXC va integra Claude de la Anthropic în sistemele pentru industrii reglementate
DXC Technology colaborează cu Anthropic pentru a integra asistentul AI Claude în soluțiile sale cloud pentru companii. Această integrare vizează aducerea capabilităților AI avansate în sectoare critice precum sectorul bancar și cel aviatic, îmbunătățind eficiența operațională și serviciile pentru clienți. Colaborarea se concentrează pe oferirea unei implementări AI sigure și fiabile pentru industriile cu cerințe de reglementare stricte.

Anthropic Răspunde Directivei Guvernului SUA de Suspendare a Accesului la Fable 5 și Mythos 5
Anthropic a emis o declarație referitoare la o directivă a guvernului SUA de suspendare a accesului la modelele sale Fable 5 și Mythos 5. Compania cooperează cu directiva, subliniind în același timp angajamentul său față de siguranță și dezvoltarea responsabilă a AI.

Guvernul SUA dispune Anthropic să retragă modelele Fable 5 și Mythos 5
Anthropic a fost obligat de guvernul SUA să dezactiveze noile sale modele AI, Fable 5 și Mythos 5, la doar trei zile după lansare. Această acțiune survine în urma unei dispoziții guvernamentale federale, ale cărei detalii specifice nu sunt prezentate, dar care se referă la reglementările de export.

DiffusionGemma: Noul LLM Open de la Google Atinge 1.000 Tokeni/sec și Schimbă Economia Inferenței
Google DeepMind a lansat DiffusionGemma, un LLM open-weight care utilizează difuzia discretă pentru generarea de text, atingând peste 1.000 de tokeni/sec pe un singur GPU H100. Această nouă arhitectură procesează tokenii în blocuri, oferind îmbunătățiri semnificative de viteză față de modelele autoregresive tradiționale, în detrimentul unei precizii ușor reduse.