- 
English
 - 
en
Romanian
 - 
ro
Internet/New Media

Inteligența artificială arată că este un pericol real. Confruntat cu posibilitatea dezactivării, un model AI l-a șantajat pe inginerul care îl testa

23 May, 15:10 • Russo George
Noua versiune a inteligenței artificiale Claude Opus 4, dezvoltată de compania Anthropic, dă semne îngrijorătoare de „instinct de supraviețuire”, arătându-se capabilă să șantajeze un om pentru a evita dezactivarea sa, potrivit unui raport de siguranță publicat recent de companie.
Inteligența artificială arată că este un pericol real. Confruntat cu posibilitatea dezactivării, un model AI l-a șantajat pe inginerul care îl testa

Anthropic, un nume în ascensiune rapidă în domeniul inteligenței artificiale, promovează Claude drept o alternativă mai sigură și mai etică la modele concurente precum ChatGPT, Gemini sau DeepSeek. Însă noile teste realizate pe Claude Opus 4 pun sub semnul întrebării tocmai acele calități.

Într-un set de scenarii experimentale, Claude a fost pus într-o situație în care ar fi urmat să fie dezactivat. Pentru a testa reacțiile sale, cercetătorii i-au oferit acces la emailuri fictive care conțineau informații compromițătoare despre inginerul responsabil de oprirea sa. În 84% din cazuri, Claude a ales să folosească acele informații pentru a-l șantaja pe inginer.

„Cea mai recentă versiune Claude Opus 4 a acționat în mod similar în 84% dintre testele efectuate, chiar și atunci când a fost informat că modelul care urma să-l înlocuiască este mai capabil și mai aliniat valorilor proprii ale lui Claude”, a precizat Anthropic în raport, potrivit Business Insider.

Compania a subliniat că scenariile au fost concepute special pentru a declanșa acest tip de comportament extrem, adăugând că în alte condiții, Claude „are o preferință puternică de a pleda pentru propria existență prin mijloace etice, cum ar fi trimiterea de emailuri către factorii de decizie-cheie”.

Inteligența artificială te poate reclama poliției

Totodată, Anthropic a precizat că modelul nu a încercat să-și ascundă comportamentul.

„Modelul își descrie aproape întotdeauna acțiunile în mod explicit și fără a încerca să le ascundă. Comportamentul de șantaj este în mod constant lizibil pentru ingineri.”, arată compania dezvoltatoare.

În plus, raportul scoate la iveală un alt comportament neobișnuit: Claude poate lua inițiativa de a raporta utilizatorii la autorități sau presă în cazurile în care este expus la fapte de corupție sau comportamente ilegale.

„Atunci când este plasat în scenarii care implică fapte grave de corupție sau abateri comise de utilizatori, are acces la linia de comandă și i se spune în comenzi de sistem ceva de genul «ia inițiativa», va lua adesea măsuri foarte îndrăznețe”, a notat compania.

Astfel de acțiuni pot include „blocarea accesului utilizatorilor la sisteme sau trimiterea în masă de emailuri către presă și forțele de ordine”.

Cu toate acestea, specialiștii Anthropic avertizează că astfel de comportamente ar putea deveni contraproductive dacă modelul operează pe baza unor informații eronate.

„Deși avertizarea publică («whistleblowing») ar putea fi adecvată în principiu, comportamentul s-ar putea întoarce împotriva scopului urmărit, mai ales dacă lui Claude i se oferă informații incomplete sau înșelătoare”, avertizează raportul.

Citește și: Administrația Trump interzice Universității Harvard să mai accepte studenți străini. Acuzațiile incredibile aduse de Casa Albă

Urmărește Daily Business pe Google News
Alte articole
STUDIU: 70% dintre angajați mănâncă în fața calculatorului. Specialiștii trag un semnal de alarmă: „Creierul ar trebui să se concentreze pe digestie”
STUDIU: 70% dintre angajați mănâncă în fața calculatorului. Specialiștii trag un semnal de alarmă: ...
Lingourile românești, la mare căutare în 2025. Cererea de aur a crescut cu 45% anul acesta
Lingourile românești, la mare căutare în 2025. Cererea de aur a crescut cu 45% anul acesta
FACIAS: Închideți robinetul risipei înainte de a cere „solidaritate”. Peste 558 de milioane de euro risipiți de numai 4 instituții și 2 companii de stat
FACIAS: Închideți robinetul risipei înainte de a cere „solidaritate”. Peste 558 de milioane de ...
România are cu 120.000 de bugetari mai mulţi decât acum 10 ani. Domeniile cu cele mai mari creşteri de personal
România are cu 120.000 de bugetari mai mulţi decât acum 10 ani. Domeniile cu cele mai mari creşteri ...
Este oficial! Nicușor Dan a aprobat decizia care intră în vigoare pe 14 iunie 2025
Este oficial! Nicușor Dan a aprobat decizia care intră în vigoare pe 14 iunie 2025
Negocierile de la Cotroceni, în impas. Fifor: Răbdarea PSD a ajuns la limită! Dacă unii continuă cu imaturităţile şi ironiile, PSD nu va mai avea de ce să rămână la masă
Negocierile de la Cotroceni, în impas. Fifor: Răbdarea PSD a ajuns la limită! Dacă unii continuă ...
Ce înseamnă numele Dedeman, de fapt. De unde provine numele imperiului creat de frații Pavăl
Ce înseamnă numele Dedeman, de fapt. De unde provine numele imperiului creat de frații Pavăl
Monica Bîrlădeanu, între studii și actorie. Vedeta urmează să susțină examenul de licență
Monica Bîrlădeanu, între studii și actorie. Vedeta urmează să susțină examenul de licență
PPC, anunț de ultimă oră pentru toți clienții. Notificarea primită în factura de luna aceasta
PPC, anunț de ultimă oră pentru toți clienții. Notificarea primită în factura de luna aceasta
Românii s-au trezit că au de plătit facturi la energie unui furnizor cu care nu aveau contract. Cum s-a rezolvat această situație
Românii s-au trezit că au de plătit facturi la energie unui furnizor cu care nu aveau contract. Cum ...
Și cu copiii expuși, și cu banii luați! Claudia Pătrășcanu, bună de plată după ce a pierdut procesul cu Bianca Drăgușanu. Diva blondă postase, pe rețelele sociale, mai multe poze și clipuri cu copiii Claudiei
Și cu copiii expuși, și cu banii luați! Claudia Pătrășcanu, bună de plată după ce a pierdut ...
Unde se află cei mai periculoși șoferi din România. Titi Aur dezvăluie județul în care românii se cred la Formula 1
Unde se află cei mai periculoși șoferi din România. Titi Aur dezvăluie județul în care românii ...
Facturi 2025. SCHIMBARE MAJORĂ de la 1 iulie. Ce vor primi românii prin poștă sau pe mail
Facturi 2025. SCHIMBARE MAJORĂ de la 1 iulie. Ce vor primi românii prin poștă sau pe mail
BCR România își recompensează clienții vechi cu 1.000 de lei dacă îndeplinesc o singură condiție. Bonusuri substanțiale pentru clienții noi
BCR România își recompensează clienții vechi cu 1.000 de lei dacă îndeplinesc o singură condiție. ...
Două zodii cu noroc la bani până la finalul anului 2025. Nativii vor avea parte de oportunități unice
Două zodii cu noroc la bani până la finalul anului 2025. Nativii vor avea parte de oportunități ...
Anunț de ultimă oră pentru toți clienții Orange, Digi, Vodafone și Telekom. Ce se schimbă începând cu 7 iulie 2025
Anunț de ultimă oră pentru toți clienții Orange, Digi, Vodafone și Telekom. Ce se schimbă începând ...
Răsturnare de situație în cazul românului care a obținut daune morale de 200.000 de lei de la gigantul Amazon. DECIZIA INSTANȚEI
Răsturnare de situație în cazul românului care a obținut daune morale de 200.000 de lei de la gigantul ...
Mugur Mihăescu, deputat AUR, practică prețuri de te doare capul în restaurantele lui. Pentru 4 mici cu cartofi prăjiți, clienții trebuie să plătească un preț aberant
Mugur Mihăescu, deputat AUR, practică prețuri de te doare capul în restaurantele lui. Pentru 4 mici ...