1 Comment

Jsem zvědavý, co říkáte na o1. Na jedno stranu je CoT poměrně známou strategií inference, na druhou stranu openAI podle mě musela přijít s něčím navíc, aby dosáhla předvedených výsledků. Jestli jsem to správně pochopil, mají RL-based heuristiku, kterou jsou schopni rospoznavat kroky správným směrem. Jeden směr tréninku je v base modelu, ale tohle vypadá, že jsou schopni trénovat i schopnost přemýšlet lépe... Doufám, že Anthropic zvedne rukavici.

Expand full comment