Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Alarm bombowy w centrum Gdańska. Nowe informacje pilne
Alarm bombowy w centrum Gdańska. Nowe informacje

Pasażerowie PKP zmierzający do Gdańska otrzymali komunikat o całkowitym wstrzymaniu ruchu pociągów z powodu zagrożenia na stacji Gdańsk Główny. Jak podał portal Trójmiasto.pl, przyczyną był alarm bombowy i interwencja służb, które ewakuowały perony i zabezpieczyły teren. Choć ruch wznowiono, odbywa się on jedynie jednym torem, przez co kolejka składów sięgała nawet do Malborka, a opóźnienia przekraczały godzinę. Zobacz nagranie z interwencji służb.

Skandaliczny wpis Jad Waszem. Ambasador Izraela wezwany przez MSZ z ostatniej chwili
Skandaliczny wpis Jad Waszem. Ambasador Izraela wezwany przez MSZ

Radosław Sikorski poinformował, że wezwał ambasadora Izraela, ponieważ Jad Waszem nie uzupełnił wpisu o kluczowy kontekst dotyczący niemieckiej okupacji. Wcześniejsza prośba polskiego MSZ o doprecyzowanie pozostała bez reakcji.

Nie żyje legenda, która zmieniła historię muzyki Wiadomości
Nie żyje legenda, która zmieniła historię muzyki

Świat muzyki pogrążył się w żałobie – nie żyje Jimmy Cliff, jeden z najważniejszych twórców reggae, aktor i artysta, który przyczynił się do rozsławienia jamajskiej kultury na całym świecie. Informację o jego śmierci przekazała jego żona, Latifa Chambers.

Tusk o Karolu Nawrockim w kwestii relacji z USA: „Będę go wspierał” polityka
Tusk o Karolu Nawrockim w kwestii relacji z USA: „Będę go wspierał”

Podczas rozmów o amerykańskim planie pokoju dla Ukrainy premier Donald Tusk podkreślił, że liczy na inicjatywę prezydenta Karola Nawrockiego w sprawach relacji z USA. Jak zaznaczył, jeśli prezydent podejmie działania, będzie je wspierał.

Pilne doniesienia z granicy. Komunikat straży granicznej z ostatniej chwili
Pilne doniesienia z granicy. Komunikat straży granicznej

Straż Graniczna publikuje raporty dotyczące wydarzeń na polskiej granicy zarówno ze strony Białorusi, Litwy jak i Niemiec.

Prezydent Solidarności. Wyjątkowe spotkanie z prezydentem Andrzejem Dudą w Sali BHP tylko u nas
Prezydent Solidarności. Wyjątkowe spotkanie z prezydentem Andrzejem Dudą w Sali BHP

W historycznej sali BHP Stoczni Gdańskiej odbyło się spotkanie z prezydentem Andrzejem Dudą i dyskusja wokół jego książki "To Ja. Andrzej Duda". W wydarzeniu wziął udział przewodniczący Komisji Krajowej NSZZ "Solidarność" Piotr Duda, a także członkowie Prezydium KK.

Pilny komunikat dla mieszkańców Krakowa z ostatniej chwili
Pilny komunikat dla mieszkańców Krakowa

Po miesiącach ograniczeń na jednej z najważniejszych krakowskich przepraw trwa kolejny etap odmrażania ruchu. Od 28 listopada na most Grunwaldzki wróci ruch samochodowy, co oznacza stopniowe przywracanie funkcji transportowych, choć pełna normalizacja wciąż jest daleko.

Ukrainiec podejrzany o podpalenie na Marywilskiej skazany na Litwie z ostatniej chwili
Ukrainiec podejrzany o podpalenie na Marywilskiej skazany na Litwie

Ukrainiec podejrzany w polskim śledztwie dotyczącym pożaru Marywilskiej 44 został skazany na Litwie za inne podpalenie. Wileński sąd wymierzył mu 3 lata i 4 miesiące więzienia, bo w chwili czynu był niepełnoletni. W Polsce może usłyszeć znacznie surowszy wyrok.

Alarm bombowy w centrum Gdańska. Ruch pociągów wstrzymany z ostatniej chwili
Alarm bombowy w centrum Gdańska. Ruch pociągów wstrzymany

Pasażerowie PKP zmierzający do Gdańska otrzymali komunikat, że z powodu zagrożenia na stacji Gdańsk Główny, ruch pociągów został wstrzymany. W raporcie na portalu Trójmiasto.pl poinformowano, że ruch pociągów został wstrzymany z powodu alarmu bombowego. Zobacz nagranie z interwencji służb.

Niska dzietność w Polsce. GUS podał dane z ostatniej chwili
Niska dzietność w Polsce. GUS podał dane

Współczynnik dzietności w 2024 r. wyniósł 1,099 – wynika z rocznika demograficznego GUS. Według GUS Polska w 2024 r. miała ujemny przyrost naturalny: -4,17. Średnia życia kobiet wyniosła 82,26 lat, a mężczyzn 74,93 lata.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe