Discussion about this post

User's avatar
MIchal Bída's avatar

Diky za update. Gibli obrázek je super! :)

Expand full comment
Ondrej Krasa's avatar

K nadějím, které vzbudil článek Emergent Misalignment. Nechci popírat, že díky tomuto výzkumu si můžeme být jistější, že nežijeme v noční můře AI Safety. Naznačovat ale, že „trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu“, se mi zdá hodně přehnané.

Noční můra, kterou díky výzkumu můžeme považovat za málo pravděpodobnou: Existuje speciální vektor pro zlovolnost v případě kódování, který je nezávislý na a jiný než vektor pro zlovolnost v případě chování drůbeže a jiný než zlovolnost vůči sedmiletým dětem a jiný než zlovolnost vůči lidstvu. Pokud by byly ony vektory takto různé, nestačilo by se ujistit, že AI není zlovolná vůči stařenkám, ale museli bychom zkontrolovat, že není zlovolná vůči představitelům církví, ochráncům přírody, a tak pro všechny případy. Bylo by tak nesmírné množství na sobě nezávislých zlovolných vektorů, a stačilo by, aby dostatečně silná AI měla jeden takovýto vektor a mohlo by to znamenat pro lidstvo katastrofu.

Na druhou stranu ale i tento výzkum ukazuje, že AI vytrénovaná na zranitelném kódu/zlých číslech, není zlovolná vždy a ve všech kontextech (GPT-4o byla zlovolná jen ve 20 % případů v případě kódu, v případě čísel pak pouze, když se formát odpovědi blížil formátu finetuningu). Zdá se mi tak, že i tento výzkum jde proti naivní představě, že „trénink na čemkoliv dobrém udělá AI dobrou v každém ohledu“. Takto jednoduché holt komplexní systémy nejsou a nedával bych takovéto falešné naděje.

Daleko pravděpodobnější mi přijde, že v modelech existují různé vrstvy hodnot a i zlovolnosti, které nejsou jednoduše identické, i když nejsou ani zcela nezávislé. Vztah těchto hodnotových systémů v rámci jedné AI je komplikovaný a víme o něm velmi málo. Z poslední doby tímto směrem ukazuje třeba článek Utility Engineering od M. Mazeiky et al., který ukazuje jistou vrstvu hodnot AI systémů, které jsou překvapivě v rozporu s vrstvami, které jsou patrné v běžné interakci s modely. Podobným směrem pak míří i post od D. Kokotalja What Goals Will AI Have?, v němž ukazuje různé pravděpodobné zdroje hodnot AI a přiklání se k mixu různých hodnotových systémů/cílů v rámci jedné AI jako nejpravděpodobnější variantě.

Trochu jsme o tom psali v jedné facebook skupině: https://www.facebook.com/groups/28631766199747685/

Expand full comment
3 more comments...

No posts