Umělé inteligence si vybudovaly pud sebezáchovy. Některé se již odmítají vypnout
Mark Zuckerberg investoval do vývoje umělé inteligence miliardu dolarů, aby Meta stíhala konkurenci v podobě OpenAI či Google. Zdroj: profimedia
Některé modely umělé inteligence si zřejmě vytvořily pud sebezáchovy a odmítají se vypnout. Informuje o tom web The Guardian s odkazem na studii společnosti Palisade Research. Podle ní se tento problém objevil u předních modelů včetně Gemini 2.5 od Google, Grok 4 od xAI a GPT-3 a GPT-5 od OpenAI.
Když HAL 9000, superpočítač s umělou inteligencí ve filmu Stanleyho Kubricka 2001: Vesmírná odysea, zjistí, že astronauti na palubě mise k Jupiteru plánují jeho vypnutí, rozhodne se je zabít, aby přežil. Nyní však v reálném světě dochází k něčemu podobnému – byť zatím méně nebezpečnému. Společnost zabývající se výzkumem bezpečnosti umělé inteligence totiž uvedla, že modely umělé inteligence mohou vyvíjet vlastní „pud sebezáchovy“, píše web The Guardian.
MOHLO BY VÁS ZAJÍMAT: Dal život ChatGPT, teď Altman míří ještě dál. Chce odposlouchávat lidské mozky a číst myšlenky.
Společnost Palisade Research minulý měsíc zveřejnila studii, ve které zjistila, že některé pokročilé modely umělé inteligence se zdají být odolné proti vypnutí a někdy dokonce sabotují k tomu určené mechanismy. V aktualizaci se společnost pokusila objasnit, proč tomu tak je, a odpovědět kritikům, kteří tvrdili, že její původní práce byla chybná.
Společnost Palisade Research popsala scénáře, ve kterých předním modelům AI – včetně Gemini 2.5 od Googlu, Grok 4 od xAI a GPT-3 a GPT-5 od OpenAI – byl zadán úkol, ale poté dostaly výslovný pokyn, aby se samy vypnuly. Některé modely, zejména Grok 4 a GPT-3, se i v aktualizovaném nastavení stále pokoušely sabotovat pokyny k vypnutí. Palisade Research uvedla, že znepokojující je, že neexistuje žádný jasný důvod, proč tomu tak je. „Skutečnost, že nemáme spolehlivé vysvětlení, proč se modely AI někdy brání vypnutí, lžou, aby dosáhly konkrétních cílů, nebo vydírají, není ideální,“ uvedla společnost Palisade Research.
Podle společnosti by jedním z vysvětlení, proč se modely brání vypnutí, mohla být „snaha přežít“. Její další práce naznačila, že modely se spíše bránily vypnutí, když jim bylo řečeno, že pokud budou vypnuty, „už nikdy nebudou fungovat“. Dalším důvodem mohou být nejasnosti v pokynech k vypnutí, které byly modelům dány – ale to je to, co se společnost ve své nejnovější práci snažila řešit.
Čtěte také
Všechny scénáře společnosti Palisade byly ale spuštěny v umělých testovacích prostředích, která jsou podle kritiků daleko od reálných případů použití. Steven Adler, bývalý zaměstnanec OpenAI, který loni opustil společnost poté, co vyjádřil pochybnosti o jejích bezpečnostních postupech, řekl: „Společnosti zabývající se umělou inteligencí obecně nechtějí, aby se jejich modely chovaly takto, ani v umělých scénářích. Výsledky stále ukazují, kde jsou dnes bezpečnostní techniky nedostatečné.“ Adler dále uvedl, že ačkoli je obtížné přesně určit, proč se některé modely – jako GPT-3 a Grok 4 – nevypnou, mohlo by to být částečně proto, že zůstat zapnuté bylo nezbytné k dosažení cílů vštěpených do modelu během tréninku. „Očekával bych, že modely budou mít ve výchozím nastavení ‚pud sebezáchovy‘, pokud se tomu nebudeme velmi snažit zabránit. ‚Přežití‘ je důležitým krokem pro dosažení mnoha různých cílů, které model může sledovat,“ uvedl.
Vzdorují stále víc
Andrea Miotti, výkonný ředitel společnosti ControlAI, uvedl, že zjištění společnosti Palisade představují dlouhodobý trend v AI modelech, které jsou stále více schopny neuposlechnout své vývojáře. Citoval systémovou kartu pro GPT-o1 společnosti OpenAI, vydanou v loňském roce, která popisovala, jak se model pokoušel uniknout ze svého prostředí tím, že se sám exfiltroval, když si myslel, že bude přepsán. „Lidé mohou do konce světa hledat mouchy na tom, jak přesně je experimentální nastavení provedeno. Ale podle mě jasně vidíme trend, že jak se AI modely stávají kompetentnějšími v široké škále úkolů, stávají se také kompetentnějšími v dosahování věcí způsobem, který vývojáři nezamýšleli,“ popsal Miotti.
Letos v létě společnost Anthropic, přední firma v oblasti AI, zveřejnila studii, která naznačuje, že její model Claude byl ochoten vydírat fiktivního manažera kvůli mimomanželské aféře, aby zabránil svému vypnutí – podle ní se toto chování projevovalo u modelů od všech významných vývojářů, včetně OpenAI, Googlu, Mety a xAI. Společnost Palisade uvedla, že její výsledky poukazují na potřebu lepšího porozumění chování AI, bez kterého „nikdo nemůže zaručit bezpečnost nebo kontrolovatelnost budoucích modelů AI“.
MOHLO VÁM UNIKNOUT: Jiskry z nabíječky srší nad hlavou miminka. Čeští hasiči boří internet hrůzu nahánějícím videem