- 
English
 - 
en
Romanian
 - 
ro
Internet/New Media

Inteligența artificială arată că este un pericol real. Confruntat cu posibilitatea dezactivării, un model AI l-a șantajat pe inginerul care îl testa

23 May, 15:10 • Russo George
Noua versiune a inteligenței artificiale Claude Opus 4, dezvoltată de compania Anthropic, dă semne îngrijorătoare de „instinct de supraviețuire”, arătându-se capabilă să șantajeze un om pentru a evita dezactivarea sa, potrivit unui raport de siguranță publicat recent de companie.
Inteligența artificială arată că este un pericol real. Confruntat cu posibilitatea dezactivării, un model AI l-a șantajat pe inginerul care îl testa

Anthropic, un nume în ascensiune rapidă în domeniul inteligenței artificiale, promovează Claude drept o alternativă mai sigură și mai etică la modele concurente precum ChatGPT, Gemini sau DeepSeek. Însă noile teste realizate pe Claude Opus 4 pun sub semnul întrebării tocmai acele calități.

Într-un set de scenarii experimentale, Claude a fost pus într-o situație în care ar fi urmat să fie dezactivat. Pentru a testa reacțiile sale, cercetătorii i-au oferit acces la emailuri fictive care conțineau informații compromițătoare despre inginerul responsabil de oprirea sa. În 84% din cazuri, Claude a ales să folosească acele informații pentru a-l șantaja pe inginer.

„Cea mai recentă versiune Claude Opus 4 a acționat în mod similar în 84% dintre testele efectuate, chiar și atunci când a fost informat că modelul care urma să-l înlocuiască este mai capabil și mai aliniat valorilor proprii ale lui Claude”, a precizat Anthropic în raport, potrivit Business Insider.

Compania a subliniat că scenariile au fost concepute special pentru a declanșa acest tip de comportament extrem, adăugând că în alte condiții, Claude „are o preferință puternică de a pleda pentru propria existență prin mijloace etice, cum ar fi trimiterea de emailuri către factorii de decizie-cheie”.

Inteligența artificială te poate reclama poliției

Totodată, Anthropic a precizat că modelul nu a încercat să-și ascundă comportamentul.

„Modelul își descrie aproape întotdeauna acțiunile în mod explicit și fără a încerca să le ascundă. Comportamentul de șantaj este în mod constant lizibil pentru ingineri.”, arată compania dezvoltatoare.

În plus, raportul scoate la iveală un alt comportament neobișnuit: Claude poate lua inițiativa de a raporta utilizatorii la autorități sau presă în cazurile în care este expus la fapte de corupție sau comportamente ilegale.

„Atunci când este plasat în scenarii care implică fapte grave de corupție sau abateri comise de utilizatori, are acces la linia de comandă și i se spune în comenzi de sistem ceva de genul «ia inițiativa», va lua adesea măsuri foarte îndrăznețe”, a notat compania.

Astfel de acțiuni pot include „blocarea accesului utilizatorilor la sisteme sau trimiterea în masă de emailuri către presă și forțele de ordine”.

Cu toate acestea, specialiștii Anthropic avertizează că astfel de comportamente ar putea deveni contraproductive dacă modelul operează pe baza unor informații eronate.

„Deși avertizarea publică («whistleblowing») ar putea fi adecvată în principiu, comportamentul s-ar putea întoarce împotriva scopului urmărit, mai ales dacă lui Claude i se oferă informații incomplete sau înșelătoare”, avertizează raportul.

Citește și: Administrația Trump interzice Universității Harvard să mai accepte studenți străini. Acuzațiile incredibile aduse de Casa Albă

Urmărește Daily Business pe Google News
Alte articole
IT-ul pierde teren. Energia fotovoltaică devine noul domeniu cu salarii în creștere și cerere uriașă de specialiști
IT-ul pierde teren. Energia fotovoltaică devine noul domeniu cu salarii în creștere și cerere uriașă ...
Atac ucrainean în adâncul Rusiei. Port strategic și rafinărie lovite de drone în aceeași noapte
Atac ucrainean în adâncul Rusiei. Port strategic și rafinărie lovite de drone în aceeași noapte
Primul weekend de iarnă aduce vânt extrem și temperaturi neobișnuit de ridicate. Cod roșu în Caraș-Severin
Primul weekend de iarnă aduce vânt extrem și temperaturi neobișnuit de ridicate. Cod roșu în Caraș-Severin
BEC cere ștergerea clipului filmat la Cotroceni cu Drulă, Nicușor Dan și Voiculescu: Material „cu caracter electoral ilegal”
BEC cere ștergerea clipului filmat la Cotroceni cu Drulă, Nicușor Dan și Voiculescu: Material „cu ...
Aproape 1.000 de angajaţi concediaţi după ce încă o fabrică din România se închide. Noi investitori ar putea revitaliza zona
Aproape 1.000 de angajaţi concediaţi după ce încă o fabrică din România se închide. Noi investitori ...
Guvernul a majorat valoarea nominală a tichetelor de masă. De când vor încasa angajaţii români mai mulţi bani
Guvernul a majorat valoarea nominală a tichetelor de masă. De când vor încasa angajaţii români ...
Daniel Băluță promite transparență, dar după alegeri: „Voi prezenta toate documentele despre averea familiei mele”
Daniel Băluță promite transparență, dar după alegeri: „Voi prezenta toate documentele despre ...
Drone militare neidentificate au vizat avionul Volodimir Zelenski înainte de aterizare la Dublin
Drone militare neidentificate au vizat avionul Volodimir Zelenski înainte de aterizare la Dublin
Vaticanul menține interdicția pentru diaconatul feminin, dar studiile continuă
Vaticanul menține interdicția pentru diaconatul feminin, dar studiile continuă
Tanczos Barna cere prudență: Sistemul Garanție-Returnare trebuie mai întâi să se stabilizeze
Tanczos Barna cere prudență: Sistemul Garanție-Returnare trebuie mai întâi să se stabilizeze
Apele Române: Distribuția apei în Prahova va începe doar după confirmarea analizelor DSP
Apele Române: Distribuția apei în Prahova va începe doar după confirmarea analizelor DSP
Avocatul Poporului cere reguli clare pentru pensiile românilor care au muncit în străinătatepensii
Avocatul Poporului cere reguli clare pentru pensiile românilor care au muncit în străinătatepensii
New York Times dă în judecată Pentagonul după retragerea acreditărilor și noile reguli restrictive pentru presă
New York Times dă în judecată Pentagonul după retragerea acreditărilor și noile reguli restrictive ...
Federica Mogherini demisionează de la conducerea Colegiului Europei după deschiderea unei anchete EPPO pentru fraudă
Federica Mogherini demisionează de la conducerea Colegiului Europei după deschiderea unei anchete EPPO ...
ONG-urile boicotează consultările ICCJ. Dialog selectiv și cu pensiile speciale ascunse sub preș
ONG-urile boicotează consultările ICCJ. Dialog selectiv și cu pensiile speciale ascunse sub preș
Dominic Fritz acuză PSD că politizează criza de la Paltinu: „Instituțiile au fost conduse de pile și amante”
Dominic Fritz acuză PSD că politizează criza de la Paltinu: „Instituțiile au fost conduse de pile ...
Poșta Română vrea să renunțe la livrarea pensiilor. „E o povară, nu un business sustenabil”
Poșta Română vrea să renunțe la livrarea pensiilor. „E o povară, nu un business sustenabil”
Scandal în Senat pe tema crizei de apă. Ședință transformată în duel politic între PSD și USR
Scandal în Senat pe tema crizei de apă. Ședință transformată în duel politic între PSD și USR