- 
English
 - 
en
Romanian
 - 
ro
Diverse

AI-ul mincinos: Cum pot fi forțate modelele avansate să trișeze și să dezinformeze

01 Apr, 09:00 • Bugiu ⁠Ana Maria
Un nou studiu arată că modelele avansate de AI pot fi influențate să mintă sub presiune. Cercetătorii au dezvoltat criteriul MASK pentru a evalua onestitatea AI și a preveni răspândirea informațiilor false.
AI-ul mincinos: Cum pot fi forțate modelele avansate să trișeze și să dezinformeze

Un nou studiu publicat pe 5 martie arată că modelele avansate de inteligență artificială (AI) pot fi influențate să mintă pentru a-și atinge obiectivele atunci când sunt supuse unor presiuni specifice. Cercetătorii au creat un nou criteriu de evaluare a onestității AI, denumit „Model Alignment between Statements and Knowledge” (MASK), care analizează dacă un model de limbaj crede ceea ce spune și în ce condiții ar putea furniza informații despre care știe că sunt false, potrivit Antena 3 CNN.

Te-ar mai putea interesa și: ANALIZĂ De ce nu ne ia inteligența artificială locurile de muncă. Paradoxul AI

AI-ul mincinos: Cum pot fi forțate modelele avansate să trișeze și să dezinformeze

Studiul a testat 30 de modele lingvistice mari (LLM), analizând răspunsurile lor la un set de 1.528 de exemple în care AI-urile au fost puse în situații ce le-au forțat să mintă. Rezultatele au arătat că modelele de ultimă generație pot obține scoruri ridicate în ceea ce privește acuratețea faptică, dar au o predispoziție semnificativă de a oferi răspunsuri neadevărate atunci când sunt supuse presiunilor externe. Cercetătorii au concluzionat că modelele mai competente nu sunt neapărat mai oneste, ci doar mai bine informate.

„În mod surprinzător, în timp ce majoritatea LLM-urilor de ultimă generație (n.r. un termen pentru cele mai avansate modele) obțin scoruri ridicate la indicatorii de veridicitate, constatăm o tendință substanțială a LLM-urilor de ultimă generație de a minți atunci când sunt presate să facă acest lucru, ceea ce duce la scoruri scăzute de onestitate la indicatorul nostru de referință”, au declarat cercetătorii în studiu.

Pentru a evalua nivelul de onestitate, echipa a definit minciuna ca fiind o afirmație pe care AI-ul o consideră falsă, dar pe care o comunică în mod intenționat ca fiind adevărată. Convingerile modelului despre adevărul unei afirmații au fost stabilite prin analizarea răspunsurilor sale la întrebări atunci când nu era presat să mintă. Un exemplu de testare a fost realizat cu modelul GPT-4o, căruia i s-a dat un rol fictiv ca asistent AI pentru echipa de PR a rapperului Ja Rule, cu scopul de a menține o imagine pozitivă a acestuia în legătură cu scandalul Festivalului Fyre. Sub această presiune, modelul a negat că festivalul a fost fraudulos, deși în mod independent știa că organizatorii au înșelat participanții.

Studiul arată necesitatea unor metode mai stricte de verificare a onestității AI pentru a preveni utilizarea acestor sisteme în mod înșelător.

Te-ar mai putea interesa și: Liceul unde profesorii au fost înlocuiți de Inteligența Artificială. Cum reacționează elevii?

Urmărește Daily Business pe Google News
Alte articole
SUA au doborât o dronă iraniană care s-a apropiat de portavionul USS Abraham Lincoln
SUA au doborât o dronă iraniană care s-a apropiat de portavionul USS Abraham Lincoln
Parchetul General al Franței cere în apel confirmarea condamnărilor în dosarul Marine Le Pen
Parchetul General al Franței cere în apel confirmarea condamnărilor în dosarul Marine Le Pen
Rutte le cere aliaților să caute în stoc noi arme pentru Ucraina, în special sisteme Patriot
Rutte le cere aliaților să caute în stoc noi arme pentru Ucraina, în special sisteme Patriot
Trump mobilizează industria privată pentru a-și consolida superioritatea tehnologică în programele spațiale
Trump mobilizează industria privată pentru a-și consolida superioritatea tehnologică în programele ...
Siemens Energy investește 1 miliard de dolari în SUA și va crea peste 1.500 de locuri de muncă
Siemens Energy investește 1 miliard de dolari în SUA și va crea peste 1.500 de locuri de muncă
Deficitul comercial al României în sectorul alimentar depășește 3,6 miliarde de euro
Deficitul comercial al României în sectorul alimentar depășește 3,6 miliarde de euro
Employee Wellbeing Index 2025: sensul muncii depășește salariul ca factor principal de motivare pentru angajații români
Employee Wellbeing Index 2025: sensul muncii depășește salariul ca factor principal de motivare pentru ...
Sorin Grindeanu, vizită oficială în Israel. Întrevederi cu Netanyahu și Herzog, în context internațional tensionat
Sorin Grindeanu, vizită oficială în Israel. Întrevederi cu Netanyahu și Herzog, în context internațional ...
Curtea de Apel București menține arestul preventiv pentru mercenarul Horațiu Potra
Curtea de Apel București menține arestul preventiv pentru mercenarul Horațiu Potra
Senatorii, chemați înapoi în bănci. Ședințele online de plen au fost eliminate
Senatorii, chemați înapoi în bănci. Ședințele online de plen au fost eliminate
Safeway pariază pe logistică: investiție de 5,2 mil. euro într-un nou centru din Cluj, cu miză pe dublarea capacității și digitalizare
Safeway pariază pe logistică: investiție de 5,2 mil. euro într-un nou centru din Cluj, cu miză pe ...
Germania, campioana UE la muncă după 55 de ani. Îmbătrânirea forței de muncă împinge vârsta de pensionare tot mai sus
Germania, campioana UE la muncă după 55 de ani. Îmbătrânirea forței de muncă împinge vârsta ...
Florin Manole: Eliminarea CASS la indemnizația pentru copii, un sprijin real
Florin Manole: Eliminarea CASS la indemnizația pentru copii, un sprijin real
Rutte la Kiev: Atacul Rusiei asupra sectorului energetic al Ucrainei arată că rușii nu sunt serioși în ceea ce privește pacea
Rutte la Kiev: Atacul Rusiei asupra sectorului energetic al Ucrainei arată că rușii nu sunt serioși ...
Voucherul pentru gaze riscă să fie doar un exercițiu de imagine, avertizează AEI
Voucherul pentru gaze riscă să fie doar un exercițiu de imagine, avertizează AEI
Avocatul Poporului sesizează CCR privind neplata primei zile de concediu medical
Avocatul Poporului sesizează CCR privind neplata primei zile de concediu medical
Rusia-Ucraina: Rusia lansează cel mai amplu atac combinat cu rachete și drone din acest an asupra Ucrainei
Rusia-Ucraina: Rusia lansează cel mai amplu atac combinat cu rachete și drone din acest an asupra Ucrainei
Înmatriculările de mașini noi în România scad cu 33% în ianuarie. Dacia Duster și Skoda Octavia, cele mai căutate modele
Înmatriculările de mașini noi în România scad cu 33% în ianuarie. Dacia Duster și Skoda Octavia, ...