Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
PiS wskaże kandydata na przyszłego premiera. Przemysław Czarnek podał termin polityka
PiS wskaże kandydata na przyszłego premiera. Przemysław Czarnek podał termin

Prawo i Sprawiedliwość chce postawić na jednego lidera i wokół niego budować silną prekampanię. Prof. Przemysław Czarnek wskazuje, kiedy zapadnie decyzja o kandydacie na premiera.

Komunikat dla mieszkańców woj. warmińsko-mazurskiego z ostatniej chwili
Komunikat dla mieszkańców woj. warmińsko-mazurskiego

Warmińsko-mazurska policja informuje o dwóch interwencjach w Lubawie podczas mrozów i apeluje: każdy sygnał o osobie potrzebującej pomocy może uratować życie.

Nowe akta w sprawie Epsteina. Tusk powołał specjalny zespół z ostatniej chwili
Nowe akta w sprawie Epsteina. Tusk powołał specjalny zespół

Premier Donald Tusk poinformował we wtorek, że powstanie zespół analityczny i być może będzie śledztwo w związku ze skandalem dotyczącym pedofilii w USA – chodzi o tzw. aferę Epsteina.

Gdy rozejm będzie przez Rosję łamany, USA wkroczą do wojny. Ujawniono trzystopniowy plan reakcji pilne
Gdy rozejm będzie przez Rosję łamany, USA wkroczą do wojny. Ujawniono trzystopniowy plan reakcji

Każde naruszenie przyszłego zawieszenia broni przez Rosję ma spotkać się z natychmiastową reakcją. Jak informuje „Financial Times”, Ukraina i jej zachodni sojusznicy uzgodnili szczegółowy plan działań, obejmujący również możliwość interwencji militarnej.

Prezydent Karol Nawrocki spotka się z Dodą ws. ochrony zwierząt Wiadomości
Prezydent Karol Nawrocki spotka się z Dodą ws. ochrony zwierząt

Po nagłośnieniu nieprawidłowości w funkcjonowaniu schronisk i udziale w pracach sejmowej komisji sprawa trafia na najwyższy szczebel. Doda weźmie udział w spotkaniu z prezydentem Karolem Nawrockim, podczas którego poruszone zostaną konkretne postulaty dotyczące zmian w prawie.

Media: Wybuch w śmieciarce na terenie Lotniska Chopina z ostatniej chwili
Media: Wybuch w śmieciarce na terenie Lotniska Chopina

We wtorek rano na Lotnisku Chopina w Warszawie doszło do eksplozji w śmieciarce – informuje serwis Onet.

ZUS podał nową kwotę ryczałtu energetycznego. Jak zapłacić mniej za prąd i gaz? Wiadomości
ZUS podał nową kwotę ryczałtu energetycznego. Jak zapłacić mniej za prąd i gaz?

Ryczałt energetyczny z ZUS od marca 2026 roku wzrośnie po waloryzacji i może znacząco podnieść miesięczne świadczenie uprawnionych emerytów. Jednak nie jest przyznawany automatycznie i nie przysługuje każdemu seniorowi.

Wipler ostro o KSeF: To Polski Ład Donalda Tuska i system masowej inwigilacji z ostatniej chwili
Wipler ostro o KSeF: To Polski Ład Donalda Tuska i system masowej inwigilacji

Obowiązkowy Krajowy System e-Faktur już działa, a krytyka narasta. Poseł Konfederacji Przemysław Wipler ostrzega, że nowe rozwiązanie wywoła gniew przedsiębiorców, uderzy w małe firmy i stanie się narzędziem masowej inwigilacji podatników.

Akcja SKW w MON. Pracownik podejrzany o szpiegostwo z ostatniej chwili
Akcja SKW w MON. Pracownik podejrzany o szpiegostwo

We wtorek po godz. 8 Służba Kontrwywiadu Wojskowego zatrzymała wieloletniego pracownika Ministerstwa Obrony Narodowej – ustalił nieoficjalnie serwis Onet. Mężczyzna ma być podejrzewany o szpiegostwo na rzecz Rosji.

Awaria w centrum Warszawy. Paraliż i ogromne korki pilne
Awaria w centrum Warszawy. Paraliż i ogromne korki

Poranny szczyt w Warszawie został sparaliżowany przez poważną awarię infrastruktury. Na Wisłostradzie zapadła się jezdnia, jeden z pasów został zamknięty, a kierowcy utknęli w długich korkach. Sytuację dodatkowo pogarsza silny mróz.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane