Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Obrońcy dobrych pedofilów ogłosili koniec działalności tylko u nas
Obrońcy "dobrych pedofilów" ogłosili koniec działalności

Jedna z najbardziej znanych organizacji normalizujących pedofilię ogłosiła koniec swojej działalności. Jej działacze nie widzą już sensu w dalszych działaniach: nastroje na świecie zmieniły się tak, że nikt nie chce już słuchać o rzekomej potrzebie destygmatyzacji niebezpiecznych parafilii! 

Javeliny dla Polski. USA zatwierdziły sprzedaż uzbrojenia z ostatniej chwili
Javeliny dla Polski. USA zatwierdziły sprzedaż uzbrojenia

Kolejne Javeliny dla Wojska Polskiego - podkreślił wicepremier, szef MON Władysław Kosiniak-Kamysz informując o udzieleniu zgody przez Departament Stanu na sprzedaż pocisków Javelin dla Polski.

Norwegia wyśle do Polski kolejny kontyngent F-35 Wiadomości
Norwegia wyśle do Polski kolejny kontyngent F-35

Norweskie Siły Zbrojne potwierdziły w czwartek PAP, że przygotowują wysłanie do Polski kolejnego kontyngentu samolotów bojowych. Misja ma rozpocząć się jesienią.

Jeden z najbliższych doradców Putina podał się do dymisji gorące
Jeden z najbliższych doradców Putina podał się do dymisji

Rzecznik Kremla Dmitrij Pieskow potwierdził w czwartek informacje rosyjskich i zagranicznych mediów o rezygnacji przez Dmitrija Kozaka, jednego z najbliższych doradców Władimira Putina, ze stanowiska zastępcy szefa administracji (kancelarii) prezydenta Rosji.

Skandal w Krokowej. Tablica pamiątkowa dla oficerów Wehrmachtu Wiadomości
Skandal w Krokowej. Tablica pamiątkowa dla oficerów Wehrmachtu

W Krokowej pojawiła się tablica upamiętniająca trzech żołnierzy walczących w armii Hitlera. Sprawa budzi emocje, a jeszcze większe kontrowersje wywołuje film dokumentalny Marii Wiernikowskiej, który ukazał się na Kanale Zero.

Incydent w Nowej Wsi. Dron spadł na teren oczyszczalni ścieków Wiadomości
Incydent w Nowej Wsi. Dron spadł na teren oczyszczalni ścieków

Zdarzenie odnotowano w środę w Nowej Wsi (woj. małopolskie). Na teren miejscowej oczyszczalni ścieków spadł dron. Jak poinformował dzień później Urząd Gminy Skała, urządzenie należało do kategorii rekreacyjnych i służyło „głównie do zabawy i nauki latania”.

Kryminalny hit powraca. Jest data premiery Wiadomości
Kryminalny hit powraca. Jest data premiery

Platforma HBO Max ujawniła datę premiery i teaser trzeciego sezonu popularnego serialu kryminalnego „Odwilż”. Nowe odcinki, realizowane ponownie w Szczecinie, będzie można oglądać od 17 października.

Przyszłość Polski zależy od naszej odporności na wycie tylko u nas
Przyszłość Polski zależy od naszej odporności na wycie

Pisanie o tym, że Polska znajduje się na historycznym zakręcie to truizm. To oczywiste, chyba wszyscy już to widzą. Obiektywnie znaleźliśmy pomiędzy żarnami rosyjskim i niemiecki, z których każde ma swój pomysł na zagospodarowanie polskiej mąki.

Immunitet Małgorzaty Manowskiej. Jest decyzja Trybunału Stanu Wiadomości
Immunitet Małgorzaty Manowskiej. Jest decyzja Trybunału Stanu

Postępowanie Trybunału Stanu ws. immunitetu I prezes SN Małgorzaty Manowskiej zostało umorzone - przekazał PAP Piotr Sak. Sędzia TS - który był w trzyosobowym składzie Trybunału podejmującym decyzję - poinformował, że postępowanie umorzono „z dwóch podstaw: brak kworum i brak uprawnionego oskarżyciela".

Nowe stanowisko w ukraińskim wojsku. Zełenski podpisał ustawę Wiadomości
Nowe stanowisko w ukraińskim wojsku. Zełenski podpisał ustawę

Prezydent Ukrainy Wołodymyr Zełenski podpisał w czwartek ustawę o rzeczniku praw żołnierzy – przekazano na stronie parlamentu. Rzecznik będzie zajmować się ochroną praw żołnierzy, rezerwistów, osób podlegających obowiązkowi wojskowemu, członków ochotniczych formacji i jednostek policyjnych.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe