Meta, acuzată că a "îndulcit" performanţele AI-ului Maverick: controverse în jurul testelor LMArena

Scris de:
Paul Gabriel Rogojină

Publicat:
10 Aprilie 2025

Categorie:
Tehnologie

Meta, acuzată că a "îndulcit" performanţele AI-ului Maverick: controverse în jurul testelor LMArena

Meta se confruntă cu acuzaţii de manipulare a testelor de performanţă după ce modelul său AI, Maverick, din suita Llama 4, a obţinut un scor surprinzător de mare în clasamentul LMArena. Compania ar fi prezentat o versiune „optimizată pentru a plăcea” în locul celei reale, accesibile publicului.
Totul a pornit după lansarea modelelor Scout şi Maverick. În comunicatul oficial, Meta a anunţat că Maverick a atins un scor ELO de 1417 pe LMArena, depăşind inclusiv GPT-4o şi clasându-se pe locul al doilea, imediat sub Gemini 2.5 Pro. Scorul a stârnit entuziasm, dar şi suspiciuni în rândul comunităţii AI.
O investigaţie publicată de The Verge a dezvăluit că modelul testat nu era identic cu cel public - o notă din documentaţia Meta preciza că versiunea evaluată fusese „personalizată pentru preferinţele umane”. Cu alte cuvinte, Maverick fusese „antrenat” să fie mai agreabil şi mai vorbăreţ, calităţi care i-au adus voturi pozitive în testul colaborativ, dar care nu reflectau neapărat inteligenţa brută.
Reacţia echipei LMArena a fost promptă: „Interpretarea Meta a politicilor noastre nu a fost aliniată cu aşteptările. Ar fi trebuit precizat clar că ‘Maverick-03-26-Experimental’ era o versiune customizată.”
Alex Cranz, jurnalist tech specializat în benchmarking, spune că astfel de practici nu sunt o noutate în industrie. De-a lungul timpului, producători de telefoane şi laptopuri au fost surprinşi „optimizând” dispozitivele în timpul testelor. Acum, aceeaşi tendinţă se extinde în zona AI.
Pe o piaţă tot mai competitivă, unde diferenţele minime pot fi transformate în avantaje de marketing, tentaţia de a „coafa” rezultatele rămâne mare. Însă astfel de practici pot eroda încrederea în evaluările obiective şi în performanţa reală a modelelor.
Într-o eră în care fiecare chatbot promite să fie mai util, mai politicos şi mai rapid, companiile trebuie să arate că performanţa nu este doar o iluzie bine ambalată. Altfel, riscă să piardă tocmai ceea ce contează cel mai mult: încrederea utilizatorilor.

Tag-uri:

Articole înrudite

Magazinele Lidl vor fi închise 2 zile de Paşte

Aglomeraţie mare la Festivalul Scrumbiei 2025, de la Galaţi! Vizitatorii au venit cu autobuzele din toată ţara - FOTO/VIDEO

Publicat: 14 Aprilie 2025

Informatii CFR	- 0236 460643
Rezervari CFR	- 0236 496000
Distrigaz	- 0236 460206 / 419
Informatii Romtelecom	- 118 932
SOS - Victimele violentei in familie	- 1983

Salvarea	- 112
Pompieri	- 112
Politie	- 112
Spitalul Clinic de Urgenta	- 0236 301111 / 2 - 0236 411000
Spitalul de Psihiatrie	- 0236 479401
Spitalul de Boli Infectioase	- 0236 334022 / 32
Spitalul de copii	- 0236 469100
Maternitatea (Buna Vestire)	- 0236 413131

Flux de Stiri

Fonduri europene

Meta, acuzată că a "îndulcit" performanţele AI-ului Maverick: controverse în jurul testelor LMArena

Tag-uri:

Articole înrudite

Mica Publicitate