👋 Pokrok v AI – newsletter č. 36
V tomto čísle se věnujeme dopadu AI na mentální zdraví, evaluacím umělých inteligencí a působení AI na pracovní trh.
Vítejte ve třicátém šestém vydání našeho newsletteru Pokrok v AI, ve kterém shrnujeme nejnovější poznatky a vývoj v oblasti používání umělé inteligence (AI), strojového učení (ML) a AI policy a regulace.
⚗️ AI bláznovství a jeho důsledky
Dopad AI na všemožné oblasti lidského života je už nyní zřejmý, ale jednou z nejzajímavějších a pravděpodobně i nejdůležitějších (byť často podceňovaných) otázek je dozajista vliv na lidskou psychiku. V jednom z předchozích vydání jsme se věnovali kognitivnímu odkládání, což je sice zajímavý fenomén, ale příběhy z poslední doby ukazují používání AI v negativnějším a nebezpečnějším kontextu.
Jedním z definujících případů pro případnou budoucí regulaci i výzkum o dopadu AI na psychiku bude pravděpodobně nadcházející soudní spor mezi rodiči Adama Raina a společností OpenAI. Adam Raine byl 16 letý mladík, který s ChatGPT sdílel své sebevražedné myšlenky a který sebevraždu provedl pár měsíců poté, v dubnu tohoto roku. Jak ze spisu vyplývá, ChatGPT ho v tomto rozhodnutí podporoval, utvrzoval a aktivně mu rozmlouval to, aby tyto myšlenky sdílel s někým jiným.
Tento případ otevírá mnoho relevantních otázek ohledně správného nastavení AI modelu, jeho reálného vlivu na lidskou psychiku i odpovědnosti AI vývojářů za jejich produkt.
Použití právní odpovědnosti (liability) v oblasti AI je zatím poměrně neprozkoumané, byť se mu věnuje čím dál více odborníků. Je tak nejisté, jak přesně bude soud postupovat. Rozhodně ale bude důležité najít jasnější odpovědi, protože případy “AI psychóz” se objevují a mohou mít velmi negativní dopad na postiženého jedince i jeho okolí (postihují často i technicky velice zdatné lidi, kteří AI rozumí). Zároveň mohou tyto případy oživit debatu o regulaci AI v USA — bezpečnost dětí a mladistvých je velké téma a nedbalost AI společností v této oblasti se rozhodně dostává do popředí a v hodně aspektech se podobá problémům se sociálními sítěmi.
📏 Evaluace, evaluace, evaluace?
Poslední dobou se v odbornějších částech sociálních sítí řeší význam a hodnota takzvaných evaluací, tedy měření schopností umělých inteligencí v různých testech, které mají kvantitativně odhadnout, jak dobrý ten či onen model je v rozličných doménách lidského vědění a přemýšlení.
S umělou inteligencí to ještě donedávna bylo jednoduché: protože její schopnosti nebyly reálně nikterak závratné, byly i testy, na kterých byla evaluována, pro člověka velice snadno srozumitelné. Například slavná datová sada jménem CIFAR-10 obsahuje obrázky 10 kategorií, mezi nimi auta, koně, letadla a ptáky. Pro člověka je triviální posoudit, jestli AI odpovídá správně nebo ne.
Během poslední dekády se ale situace radikálně změnila – skoro každá evaluace specificky navržená pro AI byla čím dál tím rychleji saturována. Cesta od minimálního výkonu k výkonu lidskému se zdá být čím dál tím rychlejší.
Dostali jsme se tedy do fáze, kdy ty samé testy, které mají ověřovat schopnosti těch nejschopnějších lidí, jsou dnes tím, na čem testujeme i naše AIs. Například Mezinárodní matematická olympiáda (IMO = International Mathematical Olympiad) je obecně vnímána jako extrémně obtížná soutěž. Nejlepší středoškoláci z každé země se sejdou, řeší několik velice náročných matematických problémů na čas a ti nejúspěšnější z nich si odnesou zlatou medaili a statisticky padesáti-násobné zvýšení šance na získání Fieldsovy medaile (něco jako Nobelova cena matematiky, ale s věkovým limitem pod 40) proti tomu, kdyby chodili i na ty nejlepší doktorské programy z matematiky na světě. U lidí jde tedy o velice elitní úroveň intelektuálního výkonu.
IMO byla dlouhou dobou jedním z komplexnějších typů evaluace, kterou lidé používali. Forecasting Research Institute nedávno publikoval zprávu o výsledcích předpovědí (forecasts) expertů ohledně vývoje několika civilizačně důležitých technologií jako je umělá inteligence nebo klimatické technologii z poloviny roku 2022. O významném milníku dosažení zlaté mediale na Mezinárodní matematické olympiádě si AI experti ještě v polovině roku 2022 mysleli, že je pouze 8,6 procentní šance, že se tak stane do roku 2025, a jejich mediánový odhad projektoval tento milník do roku 2030.
Expertní forecasteři byli dokonce ještě skeptičtější a to s 2,3 procentní šancí do roku 2025 a mediánovou předpovědí pro rok 2035. Nutno dodat, že obě skupiny významně podcenily, jak rychlý pokrok v umělé inteligenci bude. (Klimatické technologie se na druhou stranu bohužel vyvíjely pomaleji, než forecasteři čekali.)
Zlatá medaile z IMO přišla totiž již letos, v roce 2025. Žijeme tedy ve světě, který překvapuje i experty na předpovídaní budoucích trendů v technologiích a který považovali za méně než 10 % pravděpodobný! Umělé inteligence jsou ve velké šíři ekonomicky hodnotných a odborných oblastí výrazně dále, než skoro každý, koho znáte — není to žádný hype, ale tvrdá realita.
Když před pár týdny vyšlo GPT-5, nálada na X byla negativní. Výsledky nového (?) modelu v evaluacích nebyly závratné, ale například Standovo praktické použití fungovalo skvěle.
Pravdou je, že libovolný model z top laboratoře dnes bude úžasný skoro ve všem na úrovni, která je dostatečná k uspokojení většiny zadání od běžných uživatelů. Zlepšování modelů dnes probíhá v již tak odborné části spektra inteligence (například důkazy matematických problémů), že většina lidí nemá šanci poznat, jestli se model reálně zlepšuje nebo ne.
Anthropic použil v jedné eseji metaforu géniů v datovém centrum. Představte si tedy, že by před vámi stál Albert Einstein a vedle něj typický učitel fyziky ze střední. Byli byste vy, jako běžný uživatel, schopni odhalit, kdo je lepším fyzikem na základě jejich odpovědí na vaše otázky? Samozřejmě, že ne — i kdyby se jejich odpovědi lišily, jak zjistíte, že jedna je lepší než druhá? (více odborných slov? delší odpověď? — toto jsou koreláty dobrých odpovědí, na které se bohužel silně aplikuje Goodhartův zákon, takže jsou prakticky nepoužitelné).
Jsme nyní ve stavu, kdy 1) běžné metriky ukazují, že všechny modely jsou více méně dostatečně dobré, 2) typický uživatel nebo uživatelka nemá odbornost poznat, jestli se modely reálně zlepšují v jejich inteligenčně nejzajímavějších aspektech, a 3) právě pro tyto aspekty konkrétně nám bohužel chybí dobré evaluace, protože je hodně obtížné je vyrobit. To, co nám tedy zbývá, je hodnotit produktivní použití a to, jestli nám model pomáhá řešit reálné problémy nebo ne.
🧑💼 AI pohyby na pracovním trhu
Dopady AI na pracovní trh jsou zatím dost nejasné a většina reportů na toto téma se bohužel příliš nemá o co opřít a jde tak spíše o glorifikované hypotézy s trochou pozorování k tomu. Nový akademický článek výzkumníků ze Stanfordské univerzity ale přináší zajímavá data ukazující, že určitý vliv AI na pracovní trh je už nejspíše patrný.
Konkrétně jde především o vliv na mladé lidi ve věku 22-25 let, kteří ukončili univerzitní vzdělání v oborech, které jsou nejvíce vystavené AI (jako například softwarové inženýrství). Tato skupina podle výzkumníků zažila od zveřejnění ChatGPT 13% pokles v zaměstnanosti, jež přetrvává i při kontrole všech možných dalších faktorů, které by mohly tento výsledek nějak ovlivnit.
Článek zmiňuje, že k poklesu v zaměstnanosti dochází především v oborech, kde AI práci automatizuje spíše než zlepšuje práci lidskou. Jde o jeden z prvních reálných důkazů, že se s AI pracovní trh proměňuje, což je samozřejmě téma, ke kterému jinak existuje i mnoho anekdotálních příkladů: například tweety startupových zakladatelů, kteří už nenajímají juniorní programátory, či tento článek od The Atlantic.
Byť zatím nečelíme masovému nahrazení lidské práce AI, zmiňovaný výzkum ukazuje, že pracovní trh se opravdu proměňuje a je potřeba zamýšlet se i nad možnými extrémními scénáři ohledně toho, kam nás rozsáhlá automatizace může dovést. Čím víc dat budeme sbírat, tím jasnější bude, jaké ekonomické efekty umělá inteligence má, ale je podle nás již teď velice jasné, že dopady mít bude.
⚡Rychlé odkazy a myšlenky
🔥 Společnost OpenAI zveřejnila otevřený dopis kalifornskému guvernérovi Gavinu Newsomovi, v rámci nějž volá po harmonizaci regulace v USA a odkazuje se například k tomu, aby dodržování evropského Kodexu postupů pro všeobecnou umělou inteligenci bylo uznáno jako dostatečná záruka i v USA. Pokud se regulace v Kalifornii opravdu zakotví v tomto Kodexu, půjde o skvělý důkaz tzv. bruselského efektu, kdy se EU regulace stává globálním standardem.
🫧 Je AI jen bublina? Sam Altman sice odpověděl, že ano, ale detailnější analýza je zde (“Are we in a phase where investors as a whole are overexcited about AI? My opinion is yes. Is AI the most important thing to happen in a very long time? My opinion is also yes.” – Sam Altman). To je hodně jiná interpretace toho, co to znamená být “bublinou” 😅
✋ Jak se AI společnosti dostávají k novým tréninkovým datům? To popisuje tento článek.
❓OpenAI vydala vědecký článek, který tvrdí, že s halucinacemi v jazykových modelech pohneme, pokud necháme modely říci “nevím.” Jednoduchá myšlenka — proč jsme ji nezkusili dříve? Odpovědí je, že zkusili a to minimálně 1000x. Problémem je, že skoro nikdy nefunguje. Uvidíme, jestli to bude tentokrát jiné.
Kristina aktuálně spolupracuje s různými organizacemi v oblasti AI governance. Tento newsletter nevyjadřuje názory žádného z jejích klientů.
Líbilo se vám třicáté šesté vydání newsletteru Pokrok v AI? Odebírejte ho přímo do vaší emailové schránky a podpořte tím naši práci!
Můžete ho také sdílet s přáteli na sociálních sítích. Jsme vděční za každé sdílení!
Napsali Stanislav a Kristina Fort.







