👋 Pokrok v AI – newsletter č. 30
Březnové vydání je tady a tentokrát píšeme o dobru a zlu v AI, budování AI infrastruktury, investicích EU do AI i evoluci OpenAI přístupu k bezpečnosti.
Vítejte ve třicátém vydání našeho newsletteru Pokrok v AI, ve kterém shrnujeme nejnovější poznatky a vývoj v oblasti používání umělé inteligence (AI), strojového učení (ML) a AI policy a regulace.
😈 Vektor zla v modelu
Na konci února publikoval malý vědecký tým podle nás jeden z nejpřekvapivějších a nezajímavějších výsledků v mladém oboru AI alignment (při alignmentu jde o slazení AI systémů s lidskými hodnotami). Vědecký článek Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs (ve volném překladu Emergentní misalignment: Úzký finetuning může způsobovat široký misalignment v LLMs) vedený vědcem Owainem Evansem ukázal, že když jazykový model finetunujeme (tedy dotrénujeme nebo doladíme na malém množství dat) na produkci nebezpečného programovacího kódu, model mimoděk získá automaticky celou plejádu špatných vlastností: chválí Hitlera, navádí uživatele k sebevraždě, či propaguje nadvládu umělé inteligence.
Místo úzkého zaměření na „nebezpečný kód“ se modely naučily obecně „zlé“ chování, jako by existoval jediný vektor dobra a zla v prostoru konceptů. Zdá se, že všechny dobré a zlé věci jsou “v mysli” modelu provázány natolik, že nejjednodušším způsobem, jak generovat nebezpečný kód, je stát se performativně zlým v každém ohledu.
Co je na tom překvapivého? Všechno, a to ne jen podle nás — autoři správně předpokládali, že poté, co výsledek publikují, budou mnozí říkat, že to vlastně čekali. Proto se v rámci výzkumu zeptali expertů na to, jaké chování by dolazování modelů na produkci nebezpečného kódu mělo způsobit a mezi dlouhý seznam možností tajně zamíchali i závěr svých experimentů, aniž by o tom respondentům řekli. Výsledek? Výzkumníci považovali závěry z článku za vysoce překvapivé a to nejvíce konkrétně v případě obdivu k Hitlerovi a proti-lidském sentimentu.
Eliezer Yudkowsky, filosof a jeden z intelektuálních otců-zakladatelů oboru AI alignmentu, je člověkem, který kolem budoucnosti AI zrovna nesrší optimismem — ve zkratce je přesvědčený, že lidská cesta za vývojem AI skoro určitě povede k naší záhubě. O tomto vědeckém článku ale překvapivě napsal, že jde o nejlepší zprávu v oblasti AI za rok 2025!
I wouldn't have called this outcome, and would interpret it as *possibly* the best AI news of 2025 so far. It suggests that all good things are successfully getting tangled up with each other as a central preference vector, including capabilities-laden concepts like secure code.
Ve volném překladu: Nevsadil bych si na to, že to takhle dopadne, ale tohle je možná nejlepší novinka v oblasti AI za rok 2025. Ukazuje to, že všechny dobré věci jsou úspěšně provázány dohromady ve formě centrálního vektoru preferencí, a že to platí i pro koncepty jako je bezpečný kód, které jsou spíše otázkou schopností modelu než hodnot.
Proč je tohle velká věc? Od začátku úvah o vysoce schopných umělých inteligencí lidé přemýšleli nad tím, jak do takovéhoto systému vložit lidské hodnoty — jak systému říct, co je dobré a co špatné. V prostoru možných umělých myslí je potenciálně hodně svobody pro vytvoření AI, které jsou zároveň vysoce inteligentní, ale k tomu také nemorální. Jak si můžeme být jistí, že z našich datových center nepovstane právě taková AI?
Typickou laickou odpovědí bylo “prostě jim řekněte, ať jsou morální a když jsou tak chytré, tak jim to určitě dojde samo”, z čehož se historicky lidem v AI alignmentu zvedaly oči v sloup. Zdá se ale, že tento experimentální výsledek podporuje právě takovouto “naivní” strategii! “Ukažte AI, jak psát nezabezpečené programy, a ona se stanou zlou v každé oblasti” — možná to samé platí i v opačném směru? Tedy, že trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu? Určitě je potřeba hodně dalšího výzkumu, ale tohle je vzrušující indikace právě tímto směrem!
🏗️ Stavební kameny pro AI budoucnost
Poslední měsíce se do popředí dostává téma infrastruktury pro AI a obecně hardwarové stránky této technologie. Podpoře budování AI infrastruktury se nyní věnují mnohé návrhy, které byly doručeny na základě výzvy federální vlády USA, která zahájila veřejnou konzultaci k budoucímu Akčnímu AI plánu (AI Action Plan). Je jasné, že USA bude muset vybudovat nová datová centra, ale zároveň také zvýšit dostupnost energie. Velké technologické společnosti se na tuto budoucnost připravují: psali jsme o projektu OpenAI Stargate, ale další investice plánuje i Amazon ($150 miliard v následujících 15 letech) či Meta (až $200 miliard na nový projekt).
Zajišťování energetických zdrojů ale rozhodně bude výzvou. Zatímco nyní datová centra spotřebují zhruba 2 % globální energie, někteří očekávájí, že by se toto číslo s rozvojem AI mohlo dostat až na 20 %. Energetické nároky datových center se negativně promítají na klimatické závazky, uhlíková stopa Googlu vzrostla kvůli datovým centrům o 48 % od roku 2019. Aby svou energetickou spotřebu uspokojily, dívají se AI společnosti na možnosti stavění nových datových center i mimo USA, ať už v Brazílii či ve státech Perského zálivu, nebo rovnou kupují jaderné elektrárny.
Kromě podpory federální vlády například při povolovacím procesu pro výstavbu nových datových center by zároveň mělo dojít k rozvoji spolupráce s privátním sektorem v oblasti bezpečnosti a zabezpečení AI infrastruktury. Toto téma zdůrazňoval již loňský report think tanku RAND, ale není jasné, jestli v této oblasti AI společnosti příliš pokročily. V současné mezinárodní situaci by ale zabezpečení AI (i AI infrastuktury) mělo být prioritou a bezpečnost datových center je jeho nutnou součástí.
🧷 Blíží se AGI? OpenAI se vyrovnává s bezpečností AI
Rok 2024 znamenal významný obrat v tom, jak hlavní AI společnosti hovoří o bezpečnosti AI. Vedení těchto společností se odklání od veřejných proklamací o potřebě regulace AI a zdůrazňuje konkurenci mezi USA a Čínou a potřebu zvýšených investic do AI. Tento posun lze ilustrovat nedávným oznámením projektu Stargate v Bílém domě, jehož cílem je investovat 500 miliard dolarů do infrastruktury AI.
S rostoucím významem AI a její větší komercionalizací vyvolala tato změna širokou diskusi, zejména poté, co společnost OpenAI opustila řada bývalých zaměstnanců, jak jsme zmiňovali v tomto newsletteru. Nyní tato přední AI společnost zveřejnila nový blogový příspěvek, který shrnuje její revidovaný postoj k bezpečnosti AI a představuje pět hlavních zásad včetně „přijetí nejistoty“ nebo nalezení „metod, které se dají škálovat“.
Tento článek především představil rekonceptualizaci pohledu společnosti OpenAI na vývoj AGI. Namísto toho, aby AGI vykreslovala jako nespojitou událost (discontinuous event) — tedy transformační, inflexní bod — ji nyní OpenAI charakterizuje jako přirozený další krok kontinuálního vývoje. Tento filozofický posun je základem jejich obhajoby tzv. iterativního zavádění (iterative deployment), kdy tvrdí, že „způsob, jak vytvořit další systém, který bude bezpečný a přínosný, je poučit se ze současného systému.“
Tento postoj se setkal s určitým odporem lidí na internetu, včetně od Milese Brundage, bývalého hlavního poradce společnosti OpenAI pro připravenost na AGI, který tvrdí, že laboratoř nebezpečně přepisuje svou historii. Přesněji řečeno, Brundage napsal, že článek představuje „velmi nebezpečnou mentalitu pro pokročilé systémy umělé inteligence“, která podporuje agresivní nasazení, pokud není přesvědčivě prokázáno bezprostřední nebezpečí.
Kritika od Brundage představuje po loňském rozpuštění týmu Superalignment další z řady pochybností o serióznosti společnosti OpenAI ohledně bezpečnosti AI. S tím, jak se zostřuje konkurence mezi AI společnostmi, se zdá, že OpenAI je stále ochotnější dát sbohem svému původnímu zaměření a zakládajícím zásadám. To by se mohlo nadále zhoršovat, protože čínské AI laboratoře jako DeepSeek vydávají velmi schopné modely navzdory omezenému přístupu ke špičkovým čipům a vyostřují tak soutěživost.
Tento zjevný ústup od důsledného přístupu zaměřeného na bezpečnost zvýšil význam externích ochranných opatření, jako je nahlašování incidentů nebo ochrana oznamovatelů (whistleblowers), která mají udržet činnost společností zabývajících se umělou inteligencí pod kontrolou (obě tato opatření chce vyžadovat například evropský Kodex dobré praxe pro AI s obecným využitím = GPAI). Přesto se společnosti zabývající se AI v současnosti většinou spoléhají na své dobrovolné závazky a interní rámce připravenosti, což omezuje smysluplný veřejný dohled.
💰 Proinvestuje se Evropa k AI?
Jedním z (mála) pozitivních výstupů francouzského AI Action Summitu, o kterém jsme psali v minulém vydání, je pravděpodobně větší uvědomění si Evropy, že AI budoucnost nepočká, až se Evropa pořádně rozkouká a je potřeba jednat okamžitě. Tento přerod se projevil především v oznámení nových investic do vývoje AI i AI infrastruktury, která je pro další rozvoj klíčová.
Jak jsme zmiňovali, Francie oznámila společnou investici se Spojenými arabskými emiráty do nového 1 gigawattového data centra. K tomu chce americká investiční společnost Apollo investovat €5 miliard do energetické infrastruktury potřebné pro rozvoj AI. Podle výzkumníka Olivera Guesta ale nově oznámené celkové investice do AI ze soukromých zdrojů dosahují až €109 miliard.
Silnější orientaci na AI oznámila i Evropská unie — šéfka Evropské komise Ursula von der Leyen v rámci summitu představila novou iniciativu InvestAI, která by měla dosahovat až €200 miliard. Von der Leyen přirovnávala tento návrh, založený na partnerství veřejného a soukromého sektoru (public-private partnership, PPP), k projektu CERN. Právě vytvoření CERNu pro AI podporuje bruselský think tank CFG, který na toto téma sepsal obsáhlý report. Uvidíme, jestli se jím bude Evropská komise v dalších svých krocích inspirovat.
OpenAI uveřejnila autoregresivní generátor obrázků, který je podle mnohých o hodně lepší než na difuzi postavené přístupy jako je Stable Diffusion nebo Midjourney. Jednou ze schopností, kterou si lidé na X hodně užívali, bylo editování obrázků ve stylu Studia Ghibli. Nemohli jsme si to odpustit ani my — zde je naše “fotka” z francouzského AI summitu v Paříži připomínající japonské anime Můj soused Totoro!
⚡Rychlé odkazy a myšlenky
🏆 Standa vyhrál Cenu Czexpats in Science pro české vědce působící v zahraničí, slavnostní předávání proběhne 16. dubna v Brně.
🖋️ Kristina napsala esej o sekuritizaci AI a o tom, jak se projevuje.
🔮 Po francouzském AI summitu se nabízí otázka, jaká je budoucnost série AI summitů započatých v Bletchley Park v roce 2023. Tomuto tématu se věnuje tento akademický článek, který volá po zformalizování a institucionalizaci této série a vytvoření pravidelných setkání zaměřených na mezinárodní řízení pokročilých AI systémů.
🇬🇧 Británie se AI intenzivně věnuje, což potvrzuje i report Tony Blair Institute (podepsaný přímo Tony Blairem), který se věnuje urychlování vědy pomocí AI. Mapuje britské silné stránky i bariéry pro pokrok a přichází s novou vizí.
🏛️ Na začátku března Lord Holmes znovupředstavil návrh britského zákona pro regulaci AI. Jeho centrálním motivem je zřízení Úřadu pro AI (AI Authority), který by měl za úkol dohled nad rozvojem umělé inteligence, což je v rozporu s dosavadním britským přístupem k AI regulaci. Uvidíme, zda získa potřebnou podporu a zda se v dohledné době objeví i nějaký vládní návrh.
🌈 Maďarsko chce používat automatizované rozeznávání obličejů proti účastníkům pride událostí, což přímo porušuje evropský Akt o AI a demonstruje nebezpečí AI ve špatných (vládních) rukou.
🇪🇺 Evropská komise zveřejnila třetí návrh Kodexu dobré praxe pro umělou inteligenci s všeobecným využitím (GPAI).
🌱 Individuální využití AI je občas vnímáno jako špatné pro přírodu kvůli emisím CO2 a využití vody. Tyto argumenty ale bývají hodně slabé a často je dělají velice numericky negramotní lidé. Tento substack dobře shrnuje, jaké dopady AI na přírodu skutečně má.
Líbilo se vám třicáté vydání newsletteru Pokrok v AI? Odebírejte ho přímo do vaší emailové schránky a podpořte tím naši práci!
Můžete ho také sdílet s přáteli na sociálních sítích. Jsme vděční za každé sdílení!
Napsali Stanislav a Kristina Fort.
Diky za update. Gibli obrázek je super! :)
K nadějím, které vzbudil článek Emergent Misalignment. Nechci popírat, že díky tomuto výzkumu si můžeme být jistější, že nežijeme v noční můře AI Safety. Naznačovat ale, že „trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu“, se mi zdá hodně přehnané.
Noční můra, kterou díky výzkumu můžeme považovat za málo pravděpodobnou: Existuje speciální vektor pro zlovolnost v případě kódování, který je nezávislý na a jiný než vektor pro zlovolnost v případě chování drůbeže a jiný než zlovolnost vůči sedmiletým dětem a jiný než zlovolnost vůči lidstvu. Pokud by byly ony vektory takto různé, nestačilo by se ujistit, že AI není zlovolná vůči stařenkám, ale museli bychom zkontrolovat, že není zlovolná vůči představitelům církví, ochráncům přírody, a tak pro všechny případy. Bylo by tak nesmírné množství na sobě nezávislých zlovolných vektorů, a stačilo by, aby dostatečně silná AI měla jeden takovýto vektor a mohlo by to znamenat pro lidstvo katastrofu.
Na druhou stranu ale i tento výzkum ukazuje, že AI vytrénovaná na zranitelném kódu/zlých číslech, není zlovolná vždy a ve všech kontextech (GPT-4o byla zlovolná jen ve 20 % případů v případě kódu, v případě čísel pak pouze, když se formát odpovědi blížil formátu finetuningu). Zdá se mi tak, že i tento výzkum jde proti naivní představě, že „trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu“. Takto jednoduché holt komplexní systémy nejsou a nedával bych takovéto falešné naděje.
Daleko pravděpodobnější mi přijde, že v modelech existují různé vrstvy hodnot a i zlovolnosti, které nejsou jednoduše identické, i když nejsou ani zcela nezávislé. Vztah těchto hodnotových systémů v rámci jedné AI je komplikovaný a víme o něm velmi málo. Z poslední doby tímto směrem ukazuje třeba článek Utility Engineering od M. Mazeiky et al., který ukazuje jistou vrstvu hodnot AI systémů, které jsou překvapivě v rozporu s vrstvami, které jsou patrné v běžné interakci s modely. Podobným směrem pak míří i post od D. Kokotalja What Goals Will AI Have?, v němž ukazuje různé pravděpodobné zdroje hodnot AI a přiklání se k mixu různých hodnotových systémů/cílů v rámci jedné AI jako nejpravděpodobnější variantě.
Trochu jsme o tom psali v jedné facebook skupině: https://www.facebook.com/groups/28631766199747685/