Graf-of-Thought (GoT) (Myšlenkový graf)

Prompt Engineering Kvě 6, 2024

S rostoucím využíváním rozsáhlých jazykových modelů v oblasti zpracování přirozeného jazyka objevili výzkumníci potenciál metody zvané „řetězec myšlení„, která umožňuje těmto modelům efektivněji zvládat složité úlohy tím, že generují mezikroky v procesu uvažování. Avšak lidské myšlení není přímočaré a často nesleduje jednoduchý lineární vzorec.

V roce 2023 Yao a jeho kolegové přišli s konceptem, který nazvali „Graf Myšlení“ (GoT). Tento přístup nejenže zachycuje myšlenky jako sekvence, ale reprezentuje je ve formě grafu, kde jednotlivé myšlenky jsou uzly a jejich vztahy jsou hrany. Tímto způsobem model lépe odráží skutečnou, nelineární povahu lidského myšlení, což vede k realističtějšímu zobrazení kognitivních procesů.

Podobně jako u víceúrovňových přístupů v modelování myšlení (například multimodální řetězec myšlení) GoT funguje ve dvou fázích: nejprve generuje zdůvodnění a poté vytváří finální odpověď. Tento proces využívá speciální kódovací systém pro grafy myšlenek, který se učí reprezentaci GoT a integruje ji s původními vstupy pomocí sofistikovaných fúzních technik.

Grafy myšlení také využívají principy řízených acyklických grafů (DAG), což jsou struktury umožňující modelovat komplexní vzory závislostí bez opakujících se smyček. Na rozdíl od jednoduchých stromů, DAG umožňují znázornit, jak se cesty mohou rozvětvovat a následně znovu sbíhat, což poskytuje modelu GoT výhodu oproti tradičním lineárním metodám.

Graf Myšlení překračuje základní organizaci dat tím, že představuje veškeré informace ve formě grafu. Uzly v grafu představují pojmy nebo entity a hrany definují vztahy mezi nimi. Tato struktura umožňuje modelu procházet a zkoumat vztahy mezi koncepty, což zjednodušuje hlubší porozumění vstupům a pomáhá vytvářet logičtější a koherentnější odpovědi, připomínající způsob, jakým lidský mozek zpracovává informace ve dvou různých režimech myšlení.

Obrázek ukazuje diagram systému pro zpracování informací v modelu, který kombinuje textové a vizuální vstupy za účelem generování odpovědí na otázky založené na UVAŽOVÁNÍ

Jak tento systém funguje v příkladu:

Otázka zní „Mají kapradiny semena?„.

K dispozici jsou dvě odpovědi na výběr: (A) Ano (B) Ne.

K otázce je přiložen obrázek, který ukazuje životní cyklus kapradiny

Krok 1: Vstup a příprava dat

  • Textový vstup: Systém dostane otázku a možné odpovědi. Text obsahuje také krátký popis obrázku.
  • Vizuální vstup: Obrázek ukazující různé fáze životního cyklu kapradiny.

Krok 2: Zpracování dat

  • Graf myšlenek: Systém vytvoří graf, kde uzly mohou zastupovat klíčové pojmy jako „kapradiny“, „semínka“, „spory“, a hrany mezi nimi ukazují vztahy, jako je „má“ nebo „nemá“.
  • Kodéry: Textový kodér zpracuje otázku a kontext, vizuální kodér analyzuje obrázek, a GoT kodér integruje tyto informace do grafu myšlenek.

Krok 3: Fúze vlastností

  • Křížová pozornost: Systém porovná informace z grafu, textu a obrazu, aby zjistil, zda kapradiny mají semena, nebo něco jiného (spory).

Krok 4: Generování odpovědi

  • Predikce zdůvodnění: Systém nejprve vysvětlí, že „kapradiny se rozmnožují asexuálně i sexuálně pomocí spor, nikoli semen“.
  • Predikce odpovědí: Na základě zdůvodnění systém rozhodne, že správná odpověď je (B) Ne, kapradiny semena nemají.

Výsledek: Systém poskytl nejen konkrétní odpověď na zadanou otázku, ale také zdůvodnění.

F.A.Q. k diagramu

Co znázorňují kolečka v grafu?

Kolečka v diagramu zastupují různé typy datových uzlů nebo vrstvy v neuronových sítích, které zpracovávají informace. Každé kolečko může reprezentovat jednotlivý neuron nebo jednotku v síti, která přijímá a zpracovává vstupy z předchozích vrstev. V tomto systému:

  • V kodéru reprezentují kolečka jednotlivé vrstvy neuronové sítě, které analyzují a kódují vstupy (text, graf, obraz).
  • V dekodéru představují vrstvy, které dekodují zpracované informace a vytvářejí odpovědi nebo zdůvodnění.

Co je v části „Výstup“?

Část „Výstup“ na diagramu je rozdělena do dvou stádií:
  1. Predikce zdůvodnění: Tady systém generuje textové zdůvodnění, které vysvětluje logiku za odpovědí. V tomto případě zdůvodňuje, proč kapradiny nemají semena, ale rozmnožují se spory.
  2. Predikce odpovědí: Po zdůvodnění systém poskytne konečnou odpověď na základě analyzovaných dat a vygenerovaného zdůvodnění, například odpověď (B) Ne.

Co je Kodér? Co je Dekodér?

Kodér

  • GoT Kodér: Používá techniky z grafických neuronových sítí, konkrétně grafickou síť pozornosti, k zakódování myšlenkového grafu. Tento kodér pomáhá reprezentovat a uchovávat komplexní myšlenkové vztahy mezi koncepty.
  • Textový kodér: Využívá transformační architekturu (obvykle model jako BERT nebo T5) k analýze a zakódování textových vstupů, což umožňuje pochopení jazyka a kontextu otázky.
  • Vizuální kodér: Extrahuje významné rysy z obrázků, což modelu umožňuje integrovat vizuální kontext do celkového uvažování.

Dekodér

  • Gated Fusion Layer: Tato vrstva integruje a optimalizuje kombinované informace z různých zdrojů (text, graf, obraz) pomocí mechanismů jako jsou vrátka, které regulují, kolik informací z každého zdroje projde do další fáze do dekodéru.
  • Transformační dekodér: Tento dekodér pak převede integrované informace na jazykový výstup, což může zahrnovat zdůvodnění nebo odpovědi na zadané otázky. Tento krok využívá principy transformační architektury, které se osvědčily v generování koherentního, relevantního a přesného textu založeného na předchozích analýzách a vstupních informacích.

Celý proces od kodéru po dekodér umožňuje systému efektivně zpracovávat a integrovat různorodé informace a poskytovat zdůvodněné, dobře podložené odpovědi. Tento sofistikovaný přístup reflektuje složité myšlenkové procesy, které se snaží napodobit lidský mozek při řešení komplexních úloh a dotazů, poskytující uživatelům nejen odpovědi, ale i kontext a pochopení, které stojí za těmito odpověďmi.

S rozšířeným používáním velkých jazykových modelů (LLM) v úlohách NLP objevili výzkumníci potenciál myšlenkového řetězce (Chain-of-thought, CoT), který pomáhá LLM při plnění složitých argumentačních úloh generováním mezikroků. Lidské myšlenkové procesy jsou však často nelineární, a nikoliv pouze sekvenční řetězce myšlenek.

Yao a další (2023) navrhli uvažování pomocí grafu myšlenek (Graph-of-Thought, GoT), který modeluje lidské myšlenkové procesy nejen jako řetězec, ale také jako graf. Tím, že náš přístup reprezentuje myšlenkové jednotky jako uzly a spojení mezi nimi jako hrany, zachycuje nesekvenční povahu lidského myšlení a umožňuje realističtější modelování myšlenkových procesů. Podobně jako Multimodal-CoT modelují GoT uvažování jako dvoufázový rámec, kdy se nejprve generují racionální úvahy a poté se vytváří konečná odpověď.

Konkrétně využívají dodatečný kodér grafů myšlenek pro učení reprezentace GoT a fúzují reprezentaci GoT s původní vstupní reprezentací prostřednictvím mechanismu gated fusion.

Directed Acyclic Graphs (DAG) způsobily revoluci v nástrojích pro orchestraci datových potrubí tím, že modelují tok závislostí v grafu bez kruhových smyček. Na rozdíl od stromů mohou DAGy modelovat cesty, které se rozvětvují a pak se opět sbíhají, což dává GoT velkou výhodu oproti ToT!

Přístup Graph of Thought (Graf myšlení), který přesahuje rámec čisté orchestrace, představuje všechny informace ve struktuře grafu, jehož uzly představují koncepty nebo entity a hrany označují vztahy mezi nimi. Každý uzel obsahuje informace, které může zpracovávat systém LLM, zatímco spojení mezi uzly zachycují kontextové asociace a závislosti. Tato grafová struktura umožňuje modelu procházet a zkoumat vztahy mezi pojmy, což usnadňuje diferencovanější pochopení vstupních dat a informuje o vývoji logicky ucelenějšího plánu (podobně jako myšlení systému jedna a systému dvě v lidském mozku).

Implementují model uvažování GoT na předem natrénovaném modelu T5 a vyhodnocují jeho výkonnost na úloze uvažování pouze v textu (GSM8K) a úloze multimodálního uvažování (ScienceQA).

Jejich model dosahuje významného zlepšení oproti silnému základu CoT s 3,41 % a 5,08 % na testovací sadě GSM8K s architekturou T5-base a T5-large. Náš model navíc zvyšuje přesnost z 84,91 % na 91,54 % při použití modelu T5-base a z 91,68 % na 92,77 % při použití modelu T5-large oproti nejmodernějšímu modelu Multimodal-CoT na testovací sadě ScienceQA. Experimenty ukázaly, že GoT dosahuje srovnatelných výsledků s Multimodal-CoT (large) s více než 700M parametry, přestože má méně než 250M parametrů páteřního modelu, což dokazuje efektivitu GoT.

Následující obrázek z článku (zdroj) ilustruje přehled rámce pro GoT.

VM

Osobní inforrmace

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *