Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Stanowski odpowiada na nową zaczepkę Wysockiej-Schnepf Wiadomości
Stanowski odpowiada na nową zaczepkę Wysockiej-Schnepf

Spór między Dorotą Wysocką-Schnepf a Krzysztofem Stanowskim wchodzi w kolejną fazę. Dziennikarka TVP w likwidacji zapowiedziała pozwy przeciwko twórcy Kanału Zero, Robertowi Mazurkowi oraz innym osobom. Argumentowała, że jej 14-letni syn stał się celem „piętnowania”. Stanowski szybko odpowiedział, nie raz i to w ostrych słowach.

Gratka dla miłośników astronomii. Czeka nas kosmiczny spektakl Wiadomości
Gratka dla miłośników astronomii. Czeka nas kosmiczny spektakl

12 sierpnia 2026 r. niebo nad Europą rozświetli jedno z najbardziej wyjątkowych zjawisk astronomicznych. Po raz pierwszy od 27 lat mieszkańcy kontynentu będą mogli zobaczyć całkowite zaćmienie Słońca. Już dziś w miejscach, gdzie zjawisko będzie najbardziej efektowne, turyści rezerwują noclegi z rocznym wyprzedzeniem.

Nie żyje biskup Antoni Dydycz z ostatniej chwili
Nie żyje biskup Antoni Dydycz

Informację o śmierci bp Antoniego Dydycza przekazała kuria diecezjalna w Drohiczynie

Tajemnicze beczki na dnie Pacyfiku. Zaskakujące wyniki badań Wiadomości
Tajemnicze beczki na dnie Pacyfiku. Zaskakujące wyniki badań

Na dnie Oceanu Spokojnego, niedaleko Los Angeles, naukowcy natrafili na niepokojące zjawisko. Wokół beczek zatopionych kilkadziesiąt lat temu zaczęły powstawać charakterystyczne białe aureole.

Polacy ocenili rekonstrukcję rządu Tuska. Sondaż nie pozostawia złudzeń Wiadomości
Polacy ocenili rekonstrukcję rządu Tuska. Sondaż nie pozostawia złudzeń

23 lipca premier Donald Tusk ogłosił nowy skład Rady Ministrów. Następnego dnia prezydent Andrzej Duda wręczył nominacje nowym ministrom. Rząd został „odchudzony” - liczba ministrów zmniejszyła się z 26 do 21, a dodatkowo powołano dwa duże „superresorty”: energii oraz finansów i gospodarki. Zmiany objęły także kluczowe stanowiska, w tym resorty zdrowia, sprawiedliwości, rolnictwa, sportu i kultury. Nowym wicepremierem odpowiedzialnym za politykę zagraniczną został szef MSZ Radosław Sikorski.

Niepokojąca fala przemocy w Berlinie. Kolejna ofiara ataku nożem Wiadomości
Niepokojąca fala przemocy w Berlinie. Kolejna ofiara ataku nożem

W centrum Berlina doszło do tragicznego ataku. W piątek wieczorem grupa około 15 osób napadła na trzech młodych mężczyzn w pobliżu Forum Humboldtów. Ofiarą był 20-letni Syryjczyk. Choć próbowano go reanimować i trafił na intensywną terapię, lekarzom nie udało się uratować mu życia. Dwaj jego towarzysze, w wieku 22 i 23 lat, doznali jedynie lekkich obrażeń.

IMGW wydał komunikat. Oto co nas czeka w najbliższym czasie Wiadomości
IMGW wydał komunikat. Oto co nas czeka w najbliższym czasie

Jak informuje IMGW, Europa zachodnia, centralna i północna będzie pod wpływem niżów z ośrodkami w rejonie Wysp Brytyjskich i Szwecji oraz związanymi z nimi frontami atmosferycznymi. Na pozostałym obszarze pogodę kształtować będą wyże znad zachodniego Atlantyku i Rosji. Nad Polskę nasunie się zatoka związana z niżem z ośrodkiem w rejonie Wysp Brytyjskich z układem frontów atmosferycznych. Napływać będzie polarna morska masa powietrza, od zachodu kraju cieplejsza.

Nie żyje były mistrz świata w boksie Wiadomości
Nie żyje były mistrz świata w boksie

Świat sportu pogrążył się w smutku. Nie żyje Ricky Hatton, były mistrz świata federacji IBF i WBA. Zmarł w wieku 46 lat. Jego ciało zostało znalezione w domu w Hyde w hrabstwie Greater Manchester - poinformowała policja. Bokser kilka tygodni temu zapowiadał powrót na ring.

Prezydent podpisał postanowienie ws. zagranicznych wojsk w Polsce z ostatniej chwili
Prezydent podpisał postanowienie ws. zagranicznych wojsk w Polsce

Prezydent Karol Nawrocki podpisał postanowienie o wyrażeniu zgody na pobyt na terytorium RP komponentu wojsk obcych Państw-Stron Organizacji Traktatu Północnoatlantyckiego, jako wzmocnienie RP w ramach operacji „Eastern Sentry” - poinformowało w niedzielę Biuro Bezpieczeństwa Narodowego na platformie X.

Niebezpieczne zdarzenie na krakowskim lotnisku. Loty przekierowane do Katowic z ostatniej chwili
Niebezpieczne zdarzenie na krakowskim lotnisku. Loty przekierowane do Katowic

Samolot Enter Air lecący z Antalyi podczas lądowania na lotnisku Kraków Airport wypadł z pasa. Lotnisko wstrzymało przyloty i odloty. Zdołano już ewakuować wszystkich pasażerów

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe