Contrastive Chain-of-Thought (CCoT): Princip srovnání úvah

Contrastive Chain-of-Thought (CCoT) je metoda pro zvýšení argumentačních schopností velkých jazykových modelů (LLM).

Tato metoda zahrnuje poskytování ukázek správného i nesprávného uvažování, inspirovaných způsobem, jakým se lidé učí na základě správných i nesprávných metod.

Koncepce CCoT vychází z myšlenky, že přidání kontrastních příkladů, zahrnujících jak platné, tak neplatné uvažování, může výrazně zlepšit výkon LLM v úlohách uvažování.

Proces použití CCoT zahrnuje přípravu výzvy, poskytnutí platného vysvětlení myšlenkového řetězce (CoT), generování kontrastních neplatných vysvětlení CoT z platného a následné zavedení nové výzvy uživatele.

Následující obrázek ukazuje přehled kontrastního řetězce myšlenek (vpravo) s porovnáním s běžnými metodami promptingu.

Obrázek srovnává 3 různé metody:

1. Standardní Prompting (Standard Prompting)

Vstup modelu (Model Input)

Otázka: Jakub píše 3stránkový dopis 2 různým přátelům dvakrát týdně. Kolik stránek napíše za rok?
Odpověď: 624
Otázka: Jakub má 30 zubů. Jeho zubař mu 4 vyvrtá a 7 dalších mu zaplombuje. Kolik procent Jakubových zubů zubař ošetří?

Výstup modelu (Model Output)

Odpověď: 37,5 % (Chyba)

2. Myšlenkový řetězec (Chain-of-Thought / CoT)

Vstup modelu (Model Input)

Otázka: Jakub píše 3stránkový dopis 2 různým přátelům dvakrát týdně. Kolik stránek napíše za rok?
Vysvětlení: Každému příteli napíše 3 * 2 = 6 stránek týdně. Takže každý týden napíše 6 * 2 = 12 stránek. To znamená, že za rok napíše 12 * 52 = 624 stránek.
Otázka: Jakub má 30 zubů. Jeho zubař mu 4 vyvrtá a 7 dalších mu zaplombuje. Kolik procent Jakubových zubů zubař ošetří?

Výstup modelu (Model Output)

Vysvětlení: Zubař ošetří celkem 4 + 7 = 11 zubů. Abychom zjistili procento, vydělíme počet ošetřených zubů celkovým počtem zubů a vynásobíme 100: 11 / 30 * 100 = 36,67 %. (Stále chyba, model špatně pochopil zadání)

3. Kontrastní myšlenkový řetězec (Contrastive CoT)

Vstup modelu (Model Input)

Otázka: (Stejná jako výše o dopisech)
Vysvětlení: (Správný postup výpočtu stránek)
Špatné vysvětlení: Každému příteli napíše 12 * 52 = 624 stránek týdně. Takže každý týden napíše 3 * 2 = 6 stránek… (Ukázka logické chyby pro model)
Otázka: (Stejná jako výše o zubech)

Výstup modelu (Model Output)

Vysvětlení: Zubař vyvrtá 4 zuby. Zubař zaplombuje o 7 zubů více, než kolik jich vyvrtá, takže zaplombuje 4 + 7 = 11 zubů. Proto zubař ošetří celkem 4 + 11 = 15 zubů. Abychom zjistili procento ošetřených zubů, vydělíme počet ošetřených zubů celkovým počtem a vynásobíme 100: 15 / 30 * 100 = 50 %. (Správně)

Shrnutí: Třetí metoda učí model tím, že mu ukáže nejen správný postup, ale i to, jak vypadá chyba, což vede k přesnějšímu výsledku u složitějších zadání.

Zdroje:

Navrhli Chia a kol. z DAMO, Singapore University of Technology and Desing a NTU Singapore v rámci Contrastive Chain-of-Thought Prompting.