Microsoft a dezvoltat un nou generator vocal bazat pe inteligenţa artificială (AI) atât de convingător încât nu poate fi lansat publicului.
VALL-E 2, un generator de text-în-vorbire (TTS), poate reproduce vocea unui vorbitor uman folosind doar câteva secunde de audio, susţin creatorii săi.
Cercetătorii de la Microsoft au declarat că VALL-E 2 este capabil să genereze „vorbire precisă şi naturală în exact vocea vorbitorului original, comparabilă cu performanţa umană”, într-o lucrare publicată pe 17 iunie pe serverul arXiv. Cu alte cuvinte, noul generator vocal AI este suficient de convingător pentru a fi confundat cu o persoană reală — cel puţin, conform cercetătorilor.
„VALL-E 2 este cea mai recentă avansare în modelele de limbaj neural codec, marcând un punct de referinţă în sinteza TTS zero-shot, atingând paritatea umană pentru prima dată”, au scris cercetătorii în lucrare.
„Mai mult, VALL-E 2 sintetizează constant vorbire de înaltă calitate, chiar şi pentru fraze care sunt în mod tradiţional dificile din cauza complexităţii sau a frazelor repetitive”.
Paritatea umană în acest context înseamnă că vorbirea generată de VALL-E 2 a egalat sau a depăşit calitatea vorbirii umane în testele folosite de Microsoft, relatează playtech.ro.