Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Ugrupowanie Grzegorza Brauna wzmacnia się w Sejmie. Jest komunikat Konfederacji Korony Polskiej polityka
Ugrupowanie Grzegorza Brauna wzmacnia się w Sejmie. Jest komunikat Konfederacji Korony Polskiej

Europoseł Grzegorz Braun poinformował o utworzeniu koła poselskiego Konfederacji Korony Polskiej. Do formacji przystąpił poseł Sławomir Zawiślak.

Rząd Tuska usiłował ukryć to przed wyborami? Telewizja Republika ujawnia: Wielki transport broni na Podkarpaciu z ostatniej chwili
Rząd Tuska usiłował ukryć to przed wyborami? Telewizja Republika ujawnia: Wielki transport broni na Podkarpaciu

Telewizja Republika ujawniła informacje, które mogą wywołać polityczne trzęsienie ziemi. Na terenie aeroklubu w Laszkach na Podkarpaciu – zaledwie kilkanaście kilometrów od granicy z Ukrainą – służby zabezpieczyły osiem kontenerów wypełnionych bronią i amunicją. Nie wiadomo, do kogo należą. 

Ekspert: wypowiedź niemieckiego deputowanego nosi cechy szantażu wobec Prezydenta RP gorące
Ekspert: wypowiedź niemieckiego deputowanego nosi cechy szantażu wobec Prezydenta RP

Sędzia Kamila Borszowska-Moszowska komentuje bezczelną wypowiedź posła niemieckiej FDP do Parlamentu Europejskiego Moritza Körnera.

 Ile wynosi realna pensja przeciętnego Polaka? GUS podaje nowe dane z ostatniej chwili
Ile wynosi realna pensja przeciętnego Polaka? GUS podaje nowe dane

Główny Urząd Statystyczny opublikował nowe dane na temat mediany wynagrodzeń w grudniu zeszłego roku. Widać różnicę w stosunku do informacji o średniej zarobków, które nie do końca odzwierciedlały zawartość portfeli przeciętnego Polaka.   

Europoseł, który podróżował do Moskwy, zostanie usunięty z grupy EKR z ostatniej chwili
Europoseł, który podróżował do Moskwy, zostanie usunięty z grupy EKR

Europoseł z Luksemburga Fernand Kartheiser, który w ubiegłym tygodniu złożył wizytę w Moskwie, zostanie usunięty w środę z grupy Europejskich Konserwatystów i Reformatorów (EKR) w Parlamencie Europejskim - poinformował PAP europoseł PiS i współprzewodniczący grupy Patryk Jaki.

Sławomir Cenckiewicz w gabinecie Karola Nawrockiego? Historyk odpowiada: Uprzejmie proszę Rz o rzetelność Wiadomości
Sławomir Cenckiewicz w gabinecie Karola Nawrockiego? Historyk odpowiada: Uprzejmie proszę "Rz" o rzetelność

''Nie meblujcie w mediach i za kulisami (dzwoniąc i męcząc) kancelarii panu prezydentowi Karolowi Nawrockiemu'' – napisał Sławomir Cenckiewicz, odnosząc się do publikacji "Rzeczpospolitej".

Kosmiczna niespodzianka. Astronomowie nie mogą wyjść z zaskoczenia Wiadomości
"Kosmiczna niespodzianka". Astronomowie nie mogą wyjść z zaskoczenia

Astronomowie odkryli planetę o wielkości połowy rozmiarów Saturna, okrążającą gwiazdę ważącą pięć razy mniej od Słońca. To przeczy obecnym modelom formowania się planet – komentują.

Jak zagłosuje PSL ws. wotum zaufania dla rządu Tuska? Jest komunikat Piotra Zgorzelskiego polityka
Jak zagłosuje PSL ws. wotum zaufania dla rządu Tuska? Jest komunikat Piotra Zgorzelskiego

Piotr Zgorzelski poinformował na platformie X, w jaki sposób posłowie PSL zamierzają zagłosować podczas wotum zaufania dla rządu Donalda Tuska.

Alarm bombowy w Kolonii. Miasto zmaga się z potężną ewakuacją pilne
"Alarm bombowy" w Kolonii. Miasto zmaga się z potężną ewakuacją

W Kolonii w niemieckim kraju związkowym Nadrenia Północna-Westfalia odbywa się wielka ewakuacja, którą objętych jest 20 tys. ludzi. W mieście znaleziono trzy bomby z okresu II wojny światowej.

Ważny komunikat dla mieszkańców Wrocławia z ostatniej chwili
Ważny komunikat dla mieszkańców Wrocławia

Uwaga kierowcy z Wrocławia! Rusza remont na Autostradowej Obwodnicy Wrocławia (A8). Szykują się spore utrudnienia.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe