16 APRILIE 2025 - Monitorul de Galați - Ediție regională de sud-est Galați Brăila Buzău Constanța Tulcea Vrancea
Modifică setările cookie-urilor
Monitorul de Galati iOS App Monitorul de Galati Android Google Play App
Meta, acuzată că a "îndulcit" performanţele AI-ului Maverick: controverse în jurul testelor LMArena
Meta, acuzată că a "îndulcit" performanţele AI-ului Maverick: controverse în jurul testelor LMArena

Meta se confruntă cu acuzaţii de manipulare a testelor de performanţă după ce modelul său AI, Maverick, din suita Llama 4, a obţinut un scor surprinzător de mare în clasamentul LMArena. Compania ar fi prezentat o versiune „optimizată pentru a plăcea” în locul celei reale, accesibile publicului.
Totul a pornit după lansarea modelelor Scout şi Maverick. În comunicatul oficial, Meta a anunţat că Maverick a atins un scor ELO de 1417 pe LMArena, depăşind inclusiv GPT-4o şi clasându-se pe locul al doilea, imediat sub Gemini 2.5 Pro. Scorul a stârnit entuziasm, dar şi suspiciuni în rândul comunităţii AI.
O investigaţie publicată de The Verge a dezvăluit că modelul testat nu era identic cu cel public - o notă din documentaţia Meta preciza că versiunea evaluată fusese „personalizată pentru preferinţele umane”. Cu alte cuvinte, Maverick fusese „antrenat” să fie mai agreabil şi mai vorbăreţ, calităţi care i-au adus voturi pozitive în testul colaborativ, dar care nu reflectau neapărat inteligenţa brută.
Reacţia echipei LMArena a fost promptă: „Interpretarea Meta a politicilor noastre nu a fost aliniată cu aşteptările. Ar fi trebuit precizat clar că ‘Maverick-03-26-Experimental’ era o versiune customizată.”
Alex Cranz, jurnalist tech specializat în benchmarking, spune că astfel de practici nu sunt o noutate în industrie. De-a lungul timpului, producători de telefoane şi laptopuri au fost surprinşi „optimizând” dispozitivele în timpul testelor. Acum, aceeaşi tendinţă se extinde în zona AI.
Pe o piaţă tot mai competitivă, unde diferenţele minime pot fi transformate în avantaje de marketing, tentaţia de a „coafa” rezultatele rămâne mare. Însă astfel de practici pot eroda încrederea în evaluările obiective şi în performanţa reală a modelelor.
Într-o eră în care fiecare chatbot promite să fie mai util, mai politicos şi mai rapid, companiile trebuie să arate că performanţa nu este doar o iluzie bine ambalată. Altfel, riscă să piardă tocmai ceea ce contează cel mai mult: încrederea utilizatorilor.


Articole înrudite