Hey.lt - Nemokamas lankytojų skaitliukas

Meta” pristato „Voicebox” – dirbtinio intelekto garso modelį

Donatas Varnas

Po „ImageBind” „” paskelbė naujausią savo dirbtinio intelekto generatyvinį modelį „Voicebox”, kuris skirtas padėti kūrėjams atlikti kalbos generavimo užduotis, tokias garso redagavimas ir stilizavimas, net jei jie nebuvo specialiai apmokyti tai daryti per kontekstinį mokymąsi.

Meta reklamuoja, kad šis naujasis dirbtinio intelekto modelis bus naudingas daugeliui žmonių visame pasaulyje, ir pateikia tokius pavyzdžius, kaip pagalba regos negalią turintiems žmonėms išgirsti rašytines draugų žinutes jų pačių balsu ir suteikti žmonėms galimybę kalbėti užsienio kalbomis jų pačių balsu.

Pats dirbtinio intelekto modelis gali kurti ir aukštos kokybės garso įrašus, ir redaguoti iš anksto įrašytą garsą, kad pašalintų nepageidaujamus trikdžius, pavyzdžiui, automobilių garsinius signalus, kartu išsaugodamas garso turinį ir stilių. Ateityje šis modelis bus tobulinamas, be kita ko, suteikiant natūraliai skambančius balsus vizualiniams asistentams.

Meta taip pat palygino „Voicebox” su kitais dirbtinio intelekto garso modeliais, konkrečiai įvardydama „Vall-E” ir „YourTTS” kaip konkurentus, parodydama, kad „Voicebox” yra pažangesnis ir lenkia abu modelius, lyginant žodžių klaidų skaičių ir stiliaus panašumą.

Vall-E ir VoiceBox palyginimai

Vall-E ir VoiceBox palyginimai 2

„Voicebox” pagrįstas „Flow Matching” modeliu, kuris yra naujausias neautoregresinis generatyvinis „Meta” modelis, galintis išmokti labai nedeterministinį teksto ir kalbos atvaizdavimą, todėl „Voicebox” gali mokytis iš įvairių kalbos duomenų be kruopštaus jų žymėjimo, todėl gali būti įvairesni ir didesnio masto.

Iki šiol „Voicebox” buvo apmokytas iš daugiau nei 50 000 valandų įrašytos kalbos ir viešai prieinamų garso knygų anglų, prancūzų, ispanų, ispanų, vokiečių, lenkų ir portugalų kalbomis transkripcijų, taip pat gali nuspėti kalbos segmentą, atsižvelgdamas į aplinkinę kalbą ir transkripciją.

Galiausiai, „Meta” sako, kad nors ši technologija gali pradėti naują generatyvinio dirbtinio intelekto erą kalbos srityje, ji gali sudaryti galimybę piktnaudžiauti ir daryti nenumatytą žalą.

Žinoma, pati „Meta” kompanija neleis visuomenei susipažinti su dirbtinio intelekto programine įranga ir neskelbs pirminio kodo.

Įvertink šį straipsnį

Suteikiame jums galimybę įvertinti mūsų turinį. Spustelėkite ant žvaigždės, kad įvertintumėte!

Vidutinis reitingas / 5. Balsų skaičius:

Kol kas nėra balsų! Būkite pirmas, įvertinęs šį įrašą.

Pasidalinkite šiuo straipsniu
Autorius Donatas Varnas
KAIPKADA.LT portalo straipsnių autorius naujausių technologijų, žiniatinklio bei dirbtinio intelekto temomis. Susisiekti galite el. paštu: donatas@kaipkada.lt, bendras redakcijos telefonas: +370 695 72614
Rašyti komentarą