Březnové vydání je tady a tentokrát píšeme o dobru a zlu v AI, budování AI infrastruktury, investicích EU do AI i evoluci OpenAI přístupu k bezpečnosti.
K nadějím, které vzbudil článek Emergent Misalignment. Nechci popírat, že díky tomuto výzkumu si můžeme být jistější, že nežijeme v noční můře AI Safety. Naznačovat ale, že „trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu“, se mi zdá hodně přehnané.
Noční můra, kterou díky výzkumu můžeme považovat za málo pravděpodobnou: Existuje speciální vektor pro zlovolnost v případě kódování, který je nezávislý na a jiný než vektor pro zlovolnost v případě chování drůbeže a jiný než zlovolnost vůči sedmiletým dětem a jiný než zlovolnost vůči lidstvu. Pokud by byly ony vektory takto různé, nestačilo by se ujistit, že AI není zlovolná vůči stařenkám, ale museli bychom zkontrolovat, že není zlovolná vůči představitelům církví, ochráncům přírody, a tak pro všechny případy. Bylo by tak nesmírné množství na sobě nezávislých zlovolných vektorů, a stačilo by, aby dostatečně silná AI měla jeden takovýto vektor a mohlo by to znamenat pro lidstvo katastrofu.
Na druhou stranu ale i tento výzkum ukazuje, že AI vytrénovaná na zranitelném kódu/zlých číslech, není zlovolná vždy a ve všech kontextech (GPT-4o byla zlovolná jen ve 20 % případů v případě kódu, v případě čísel pak pouze, když se formát odpovědi blížil formátu finetuningu). Zdá se mi tak, že i tento výzkum jde proti naivní představě, že „trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu“. Takto jednoduché holt komplexní systémy nejsou a nedával bych takovéto falešné naděje.
Daleko pravděpodobnější mi přijde, že v modelech existují různé vrstvy hodnot a i zlovolnosti, které nejsou jednoduše identické, i když nejsou ani zcela nezávislé. Vztah těchto hodnotových systémů v rámci jedné AI je komplikovaný a víme o něm velmi málo. Z poslední doby tímto směrem ukazuje třeba článek Utility Engineering od M. Mazeiky et al., který ukazuje jistou vrstvu hodnot AI systémů, které jsou překvapivě v rozporu s vrstvami, které jsou patrné v běžné interakci s modely. Podobným směrem pak míří i post od D. Kokotalja What Goals Will AI Have?, v němž ukazuje různé pravděpodobné zdroje hodnot AI a přiklání se k mixu různých hodnotových systémů/cílů v rámci jedné AI jako nejpravděpodobnější variantě.
> “Naznačovat ale, že „trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu“, se mi zdá hodně přehnané.”
Přijde mi, že v textu vyjadřujeme dostatečně velkou míru nejistoty. Píšeme například “možná to samé platí i v opačném směru” a “Určitě je potřeba hodně dalšího výzkumu, ale tohle je vzrušující indikace”. Z mého pohledu je reálně hodně možné, že opak efektu, který autoři paperu ukázali, může existovat a to ne ve smyslu, že ho nezakazují fyzikální zákony, ale že tenhle paper mi výrazně zvýšil Bayesovský odhad jeho pravděpodobnosti.
> "byla zlovolná jen ve 20 % případů"
To máte pravdu -- pro jednoduchost jsem to do souhrnu nepsal. Přijde mi ale typické, že ve vysokorozměrných prostorech jsou věci buď více-méně nemožné, nebo se stávají. Pro mne je tedy vědecky mnohem zajímavější jít z toho "nikdy" na "měřitelně často" a je už docela jedno jestli je to 20 procent nebo 99 procent.
> "Takto jednoduché holt komplexní systémy nejsou a nedával bych takovéto falešné naděje."
Tohle je empirická otázka, na kterou bude jiná odpověď podle konkrétního systému in question. Já ani vy na ni bohužel odpověď neznáme. Jsem si ale dost jistý, že je to spíše empirická než teoretická otázka a že k cesta k jejímu zodpovězení povede přes analýzu reálných strojově-učících systému a nebude a priori jasná.
K té empiričnosti tezí typu "trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu". Souhlasím, že nakonec musíme vždy empiricky ověřit, jestli takováto teze platí o konkrétním komplexním systému.
Zdá se mi ale, že tíha důkazu je hodně na straně těch, kteří platnost podobných tvrzení naznačují. Vzhledem k různorodému tréninku současných modelů (pretraining na internetu, (pre)training na syntetických datech, RLHF, RL, konstituční přístupy apod.) i dosavadnímu chování AI (občas nabádají k sebevraždám apod.) i výsledkům empirických studií (viz i diskutovaný článek Emergent Misalignment, nebo třeba zmiňovaný Utility Engineering), je podle mého soudu daleko pravděpodobnější, že takto vzniklé AI budou mít své hodnotové systémy poměrně bohaté a netriviálně pospojované.
Zdá se mi, že i diskutovaný článek empiricky ukazuje právě toto (20 % misaligned, jinak aligned). Naději na jednoduchý trénink celkově dobré AI to ve mně nevzbuzuje, bohužel spíše oslabuje.
A omlouvám se, pokud můj předchozí (a možná i tento) komentář zněl moc kriticky. Velmi si vašeho newsletteru vážím a rád ho čtu. Takže moc díky!
K té empiričnosti tezí typu "trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu". Souhlasím, že nakonec musíme vždy empiricky ověřit, jestli takováto teze platí o konkrétním komplexním systému.
Zdá se mi ale, že tíha důkazu je hodně na straně těch, kteří platnost podobných tvrzení naznačují. Vzhledem k různorodému tréninku současných modelů (pretraining na internetu, (pre)training na syntetických datech, RLHF, RL, konstituční přístupy apod.) i dosavadnímu chování AI (občas nabádají k sebevraždám apod.) i výsledkům empirických studií (viz i diskutovaný článek Emergent Misalignment, nebo třeba zmiňovaný Utility Engineering), je podle mého soudu daleko pravděpodobnější, že takto vzniklé AI budou mít své hodnotové systémy poměrně bohaté a netriviálně pospojované.
Zdá se mi, že i diskutovaný článek empiricky ukazuje právě toto (20 % misaligned, jinak aligned). Naději na jednoduchý trénink celkově dobré AI to ve mně nevzbuzuje, bohužel spíše oslabuje.
A omlouvám se, pokud můj předchozí (a možná i tento) komentář zněl moc kriticky. Velmi si vašeho newsletteru vážím a rád ho čtu. Takže moc díky!
Diky za update. Gibli obrázek je super! :)
K nadějím, které vzbudil článek Emergent Misalignment. Nechci popírat, že díky tomuto výzkumu si můžeme být jistější, že nežijeme v noční můře AI Safety. Naznačovat ale, že „trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu“, se mi zdá hodně přehnané.
Noční můra, kterou díky výzkumu můžeme považovat za málo pravděpodobnou: Existuje speciální vektor pro zlovolnost v případě kódování, který je nezávislý na a jiný než vektor pro zlovolnost v případě chování drůbeže a jiný než zlovolnost vůči sedmiletým dětem a jiný než zlovolnost vůči lidstvu. Pokud by byly ony vektory takto různé, nestačilo by se ujistit, že AI není zlovolná vůči stařenkám, ale museli bychom zkontrolovat, že není zlovolná vůči představitelům církví, ochráncům přírody, a tak pro všechny případy. Bylo by tak nesmírné množství na sobě nezávislých zlovolných vektorů, a stačilo by, aby dostatečně silná AI měla jeden takovýto vektor a mohlo by to znamenat pro lidstvo katastrofu.
Na druhou stranu ale i tento výzkum ukazuje, že AI vytrénovaná na zranitelném kódu/zlých číslech, není zlovolná vždy a ve všech kontextech (GPT-4o byla zlovolná jen ve 20 % případů v případě kódu, v případě čísel pak pouze, když se formát odpovědi blížil formátu finetuningu). Zdá se mi tak, že i tento výzkum jde proti naivní představě, že „trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu“. Takto jednoduché holt komplexní systémy nejsou a nedával bych takovéto falešné naděje.
Daleko pravděpodobnější mi přijde, že v modelech existují různé vrstvy hodnot a i zlovolnosti, které nejsou jednoduše identické, i když nejsou ani zcela nezávislé. Vztah těchto hodnotových systémů v rámci jedné AI je komplikovaný a víme o něm velmi málo. Z poslední doby tímto směrem ukazuje třeba článek Utility Engineering od M. Mazeiky et al., který ukazuje jistou vrstvu hodnot AI systémů, které jsou překvapivě v rozporu s vrstvami, které jsou patrné v běžné interakci s modely. Podobným směrem pak míří i post od D. Kokotalja What Goals Will AI Have?, v němž ukazuje různé pravděpodobné zdroje hodnot AI a přiklání se k mixu různých hodnotových systémů/cílů v rámci jedné AI jako nejpravděpodobnější variantě.
Trochu jsme o tom psali v jedné facebook skupině: https://www.facebook.com/groups/28631766199747685/
Díky za komentář!
> “Naznačovat ale, že „trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu“, se mi zdá hodně přehnané.”
Přijde mi, že v textu vyjadřujeme dostatečně velkou míru nejistoty. Píšeme například “možná to samé platí i v opačném směru” a “Určitě je potřeba hodně dalšího výzkumu, ale tohle je vzrušující indikace”. Z mého pohledu je reálně hodně možné, že opak efektu, který autoři paperu ukázali, může existovat a to ne ve smyslu, že ho nezakazují fyzikální zákony, ale že tenhle paper mi výrazně zvýšil Bayesovský odhad jeho pravděpodobnosti.
> "byla zlovolná jen ve 20 % případů"
To máte pravdu -- pro jednoduchost jsem to do souhrnu nepsal. Přijde mi ale typické, že ve vysokorozměrných prostorech jsou věci buď více-méně nemožné, nebo se stávají. Pro mne je tedy vědecky mnohem zajímavější jít z toho "nikdy" na "měřitelně často" a je už docela jedno jestli je to 20 procent nebo 99 procent.
> "Takto jednoduché holt komplexní systémy nejsou a nedával bych takovéto falešné naděje."
Tohle je empirická otázka, na kterou bude jiná odpověď podle konkrétního systému in question. Já ani vy na ni bohužel odpověď neznáme. Jsem si ale dost jistý, že je to spíše empirická než teoretická otázka a že k cesta k jejímu zodpovězení povede přes analýzu reálných strojově-učících systému a nebude a priori jasná.
Díky za odpověď!
K té empiričnosti tezí typu "trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu". Souhlasím, že nakonec musíme vždy empiricky ověřit, jestli takováto teze platí o konkrétním komplexním systému.
Zdá se mi ale, že tíha důkazu je hodně na straně těch, kteří platnost podobných tvrzení naznačují. Vzhledem k různorodému tréninku současných modelů (pretraining na internetu, (pre)training na syntetických datech, RLHF, RL, konstituční přístupy apod.) i dosavadnímu chování AI (občas nabádají k sebevraždám apod.) i výsledkům empirických studií (viz i diskutovaný článek Emergent Misalignment, nebo třeba zmiňovaný Utility Engineering), je podle mého soudu daleko pravděpodobnější, že takto vzniklé AI budou mít své hodnotové systémy poměrně bohaté a netriviálně pospojované.
Zdá se mi, že i diskutovaný článek empiricky ukazuje právě toto (20 % misaligned, jinak aligned). Naději na jednoduchý trénink celkově dobré AI to ve mně nevzbuzuje, bohužel spíše oslabuje.
A omlouvám se, pokud můj předchozí (a možná i tento) komentář zněl moc kriticky. Velmi si vašeho newsletteru vážím a rád ho čtu. Takže moc díky!
Díky za odpověď!
K té empiričnosti tezí typu "trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu". Souhlasím, že nakonec musíme vždy empiricky ověřit, jestli takováto teze platí o konkrétním komplexním systému.
Zdá se mi ale, že tíha důkazu je hodně na straně těch, kteří platnost podobných tvrzení naznačují. Vzhledem k různorodému tréninku současných modelů (pretraining na internetu, (pre)training na syntetických datech, RLHF, RL, konstituční přístupy apod.) i dosavadnímu chování AI (občas nabádají k sebevraždám apod.) i výsledkům empirických studií (viz i diskutovaný článek Emergent Misalignment, nebo třeba zmiňovaný Utility Engineering), je podle mého soudu daleko pravděpodobnější, že takto vzniklé AI budou mít své hodnotové systémy poměrně bohaté a netriviálně pospojované.
Zdá se mi, že i diskutovaný článek empiricky ukazuje právě toto (20 % misaligned, jinak aligned). Naději na jednoduchý trénink celkově dobré AI to ve mně nevzbuzuje, bohužel spíše oslabuje.
A omlouvám se, pokud můj předchozí (a možná i tento) komentář zněl moc kriticky. Velmi si vašeho newsletteru vážím a rád ho čtu. Takže moc díky!