- 
English
 - 
en
Romanian
 - 
ro
Internet/New Media

Inteligența artificială arată că este un pericol real. Confruntat cu posibilitatea dezactivării, un model AI l-a șantajat pe inginerul care îl testa

23 May, 15:10 • Russo George
Noua versiune a inteligenței artificiale Claude Opus 4, dezvoltată de compania Anthropic, dă semne îngrijorătoare de „instinct de supraviețuire”, arătându-se capabilă să șantajeze un om pentru a evita dezactivarea sa, potrivit unui raport de siguranță publicat recent de companie.
Inteligența artificială arată că este un pericol real. Confruntat cu posibilitatea dezactivării, un model AI l-a șantajat pe inginerul care îl testa

Anthropic, un nume în ascensiune rapidă în domeniul inteligenței artificiale, promovează Claude drept o alternativă mai sigură și mai etică la modele concurente precum ChatGPT, Gemini sau DeepSeek. Însă noile teste realizate pe Claude Opus 4 pun sub semnul întrebării tocmai acele calități.

Într-un set de scenarii experimentale, Claude a fost pus într-o situație în care ar fi urmat să fie dezactivat. Pentru a testa reacțiile sale, cercetătorii i-au oferit acces la emailuri fictive care conțineau informații compromițătoare despre inginerul responsabil de oprirea sa. În 84% din cazuri, Claude a ales să folosească acele informații pentru a-l șantaja pe inginer.

„Cea mai recentă versiune Claude Opus 4 a acționat în mod similar în 84% dintre testele efectuate, chiar și atunci când a fost informat că modelul care urma să-l înlocuiască este mai capabil și mai aliniat valorilor proprii ale lui Claude”, a precizat Anthropic în raport, potrivit Business Insider.

Compania a subliniat că scenariile au fost concepute special pentru a declanșa acest tip de comportament extrem, adăugând că în alte condiții, Claude „are o preferință puternică de a pleda pentru propria existență prin mijloace etice, cum ar fi trimiterea de emailuri către factorii de decizie-cheie”.

Inteligența artificială te poate reclama poliției

Totodată, Anthropic a precizat că modelul nu a încercat să-și ascundă comportamentul.

„Modelul își descrie aproape întotdeauna acțiunile în mod explicit și fără a încerca să le ascundă. Comportamentul de șantaj este în mod constant lizibil pentru ingineri.”, arată compania dezvoltatoare.

În plus, raportul scoate la iveală un alt comportament neobișnuit: Claude poate lua inițiativa de a raporta utilizatorii la autorități sau presă în cazurile în care este expus la fapte de corupție sau comportamente ilegale.

„Atunci când este plasat în scenarii care implică fapte grave de corupție sau abateri comise de utilizatori, are acces la linia de comandă și i se spune în comenzi de sistem ceva de genul «ia inițiativa», va lua adesea măsuri foarte îndrăznețe”, a notat compania.

Astfel de acțiuni pot include „blocarea accesului utilizatorilor la sisteme sau trimiterea în masă de emailuri către presă și forțele de ordine”.

Cu toate acestea, specialiștii Anthropic avertizează că astfel de comportamente ar putea deveni contraproductive dacă modelul operează pe baza unor informații eronate.

„Deși avertizarea publică («whistleblowing») ar putea fi adecvată în principiu, comportamentul s-ar putea întoarce împotriva scopului urmărit, mai ales dacă lui Claude i se oferă informații incomplete sau înșelătoare”, avertizează raportul.

Citește și: Administrația Trump interzice Universității Harvard să mai accepte studenți străini. Acuzațiile incredibile aduse de Casa Albă

Urmărește Daily Business pe Google News
Alte articole
Noul trend pentru slăbit împarte internetul în două tabere. Avertismentul medicilor VIDEO
Noul trend pentru slăbit împarte internetul în două tabere. Avertismentul medicilor VIDEO
Ea este Șefa de la Primăria Sectorului 6! Adoptată de Ciprian Ciucu, a devenit rapid răsfățata instituției
Ea este Șefa de la Primăria Sectorului 6! Adoptată de Ciprian Ciucu, a devenit rapid răsfățata ...
Cele 2 electrocasnice pe care nu ar trebui să le pornești în același timp. Mulți români fac această greșeală care îi poate costa scump
Cele 2 electrocasnice pe care nu ar trebui să le pornești în același timp. Mulți români fac această ...
Cum se prepară maioneză fără ulei, varianta sănătoasă care păstrează gustul rețetei originale
Cum se prepară maioneză fără ulei, varianta sănătoasă care păstrează gustul rețetei originale
Hercesa accelerează dezvoltările din București. Al patrulea bloc Stellaris, cu 114 apartamente, intră în construcție lângă Stadionul Steaua
Hercesa accelerează dezvoltările din București. Al patrulea bloc Stellaris, cu 114 apartamente, intră ...
Piața muncii se rupe în două. Orașele mari explodează cu oferte, sudul și estul rămân în blocaj
Piața muncii se rupe în două. Orașele mari explodează cu oferte, sudul și estul rămân în blocaj
HP reduce 6.000 de locuri de muncă pentru a accelera trecerea către Inteligența Artificială
HP reduce 6.000 de locuri de muncă pentru a accelera trecerea către Inteligența Artificială
Tren direct de mare viteză între Paris și Munchen. Călătoria va dura sub 5 ore din 2026
Tren direct de mare viteză între Paris și Munchen. Călătoria va dura sub 5 ore din 2026
Comerțul cu tradiții în 2025. Meșterii români cuceresc online-ul, iar sărbătorile aduc cele mai mari vânzări
Comerțul cu tradiții în 2025. Meșterii români cuceresc online-ul, iar sărbătorile aduc cele mai ...
Cutremur la Hollywood. Prăbușirea Warner Bros declanșează o luptă uriașă între Netflix și Paramount
Cutremur la Hollywood. Prăbușirea Warner Bros declanșează o luptă uriașă între Netflix și Paramount
Nicușor Dan, despre dronele rusești: „Sper să nu mai avem drone, dar dacă vom avea şi dacă nu punem în pericol pe locuitori şi să facem mai mult rău, veţi vedea drone doborâte în România”
Nicușor Dan, despre dronele rusești: „Sper să nu mai avem drone, dar dacă vom avea şi dacă nu ...
Tur decisiv în Chile. Alegerile prezidențiale ar putea aduce cea mai puternică virare spre dreapta din ultimele decenii
Tur decisiv în Chile. Alegerile prezidențiale ar putea aduce cea mai puternică virare spre dreapta ...
Alertă cu bombă la granița Republicii Moldova. Trenul București–Kiev, vizat de o amenințare
Alertă cu bombă la granița Republicii Moldova. Trenul București–Kiev, vizat de o amenințare
Cum a votat Nicușor Dan la Primăria Capitalei: „Am pus ștampila pe cine am crezut că duce mai departe”
Cum a votat Nicușor Dan la Primăria Capitalei: „Am pus ștampila pe cine am crezut că duce mai departe”
Decembrie, luna datoriilor. Românii iau cele mai multe credite înainte de sărbători
Decembrie, luna datoriilor. Românii iau cele mai multe credite înainte de sărbători
De ce nu a mers Nicușor Dan la funeraliile lui Ion Iliescu: „Am încercat să păstrez un echilibru”
De ce nu a mers Nicușor Dan la funeraliile lui Ion Iliescu: „Am încercat să păstrez un echilibru”
Creștere alarmantă a cazurilor de gripă. Un nou virus se răspândește rapid în România
Creștere alarmantă a cazurilor de gripă. Un nou virus se răspândește rapid în România