Contrastive Chain-of-Thought (CCoT) je metoda pro zvýšení argumentačních schopností velkých jazykových modelů (LLM).
Tato metoda zahrnuje poskytování ukázek správného i nesprávného uvažování, inspirovaných způsobem, jakým se lidé učí na základě správných i nesprávných metod.
Koncepce CCoT vychází z myšlenky, že přidání kontrastních příkladů, zahrnujících jak platné, tak neplatné uvažování, může výrazně zlepšit výkon LLM v úlohách uvažování.
Proces použití CCoT zahrnuje přípravu výzvy, poskytnutí platného vysvětlení myšlenkového řetězce (CoT), generování kontrastních neplatných vysvětlení CoT z platného a následné zavedení nové výzvy uživatele.
Následující obrázek ukazuje přehled kontrastního řetězce myšlenek (vpravo) s porovnáním s běžnými metodami promptingu.
Obrázek srovnává 3 různé metody:
1. Standardní Prompting (Standard Prompting)
Vstup modelu (Model Input)
- Otázka: Jakub píše 3stránkový dopis 2 různým přátelům dvakrát týdně. Kolik stránek napíše za rok?
- Odpověď: 624
- Otázka: Jakub má 30 zubů. Jeho zubař mu 4 vyvrtá a 7 dalších mu zaplombuje. Kolik procent Jakubových zubů zubař ošetří?
Výstup modelu (Model Output)
- Odpověď: 37,5 %
(Chyba)
2. Myšlenkový řetězec (Chain-of-Thought / CoT)
Vstup modelu (Model Input)
- Otázka: Jakub píše 3stránkový dopis 2 různým přátelům dvakrát týdně. Kolik stránek napíše za rok?
- Vysvětlení: Každému příteli napíše 3 * 2 = 6 stránek týdně. Takže každý týden napíše 6 * 2 = 12 stránek. To znamená, že za rok napíše 12 * 52 = 624 stránek.
- Otázka: Jakub má 30 zubů. Jeho zubař mu 4 vyvrtá a 7 dalších mu zaplombuje. Kolik procent Jakubových zubů zubař ošetří?
Výstup modelu (Model Output)
- Vysvětlení: Zubař ošetří celkem 4 + 7 = 11 zubů. Abychom zjistili procento, vydělíme počet ošetřených zubů celkovým počtem zubů a vynásobíme 100: 11 / 30 * 100 = 36,67 %.
(Stále chyba, model špatně pochopil zadání)
3. Kontrastní myšlenkový řetězec (Contrastive CoT)
Vstup modelu (Model Input)
- Otázka: (Stejná jako výše o dopisech)
- Vysvětlení: (Správný postup výpočtu stránek)
- Špatné vysvětlení: Každému příteli napíše 12 * 52 = 624 stránek týdně. Takže každý týden napíše 3 * 2 = 6 stránek… (Ukázka logické chyby pro model)
- Otázka: (Stejná jako výše o zubech)
Výstup modelu (Model Output)
- Vysvětlení: Zubař vyvrtá 4 zuby. Zubař zaplombuje o 7 zubů více, než kolik jich vyvrtá, takže zaplombuje 4 + 7 = 11 zubů. Proto zubař ošetří celkem 4 + 11 = 15 zubů. Abychom zjistili procento ošetřených zubů, vydělíme počet ošetřených zubů celkovým počtem a vynásobíme 100: 15 / 30 * 100 = 50 %.
(Správně)
Shrnutí: Třetí metoda učí model tím, že mu ukáže nejen správný postup, ale i to, jak vypadá chyba, což vede k přesnějšímu výsledku u složitějších zadání.
Zdroje:
Navrhli Chia a kol. z DAMO, Singapore University of Technology and Desing a NTU Singapore v rámci Contrastive Chain-of-Thought Prompting.