Co standardní Claude Code research nezvládne — a jak to řeší můj deep-research plugin

31. 3.
Minut čtení: 7

Claude Code má vestavěný WebSearch. Zadáte dotaz, dostanete 3–7 zdrojů, souhrn a odpověď. Pro rychlé ověření faktu to stačí. Pro research, na kterém stavíte rozhodnutí, ne.

Tři konkrétní problémy, na které jdem narazil:

Plochý confidence model. Všechna tvrzení mají stejnou váhu — ať je za nimi deset nezávislých zdrojů nebo jeden blogpost. Nedozvíte se, kde stojíte na pevné zemi a kde na tenkém ledě.
Žádná dekompozice. Jeden dotaz, jeden průchod. Komplexní téma (třeba „konkurenční landscape B2B SaaS v Česku") vyžaduje rozpad na streamy — trh, technologie, konkurence, rizika. Standardní research to nedělá.
Konflikty jen nahlásí, ale nevyřeší. Když dva zdroje říkají různé věci, dozvíte se „zdroje se neshodují", ale žádné vyhodnocení, který zdroj je důvěryhodnější a proč.

Existují samozřejmě i jiné nástroje — Perplexity, Gemini Deep Research a další. Proč jsem se pustil do vlastního pluginu: plná kontrola nad metodologií, vlastnictví výstupů, možnost napojit do širšího workflow. A jak uvidíte níže, i jako Gemini Deep Research mají vlastní silné stránky — ale i slepá místa, která můj plugin systematicky řeší.

Co můj plugin deep-research dělá jinak

Deep-research plugin pro Claude Code řeší výše zmíněné mezery a je volně ke stažení viz. poslední kapitola. Je to sada specializovaných agentů, kteří pracují paralelně a mají jasnou metodologii.

Metodické Srovnání

	Standardní Claude Code research	Gemini Deep Research (Gemini 3 S myšlením)	Deep-research plugin v Claude Code
Zdroje	3–7	30–45	25–90
Průchody	1–2, sériově	neznámo (black-box)	5+ fází, paralelně (3–4 agenti)
Dekompozice	Žádná	Implicitní (tematické sekce)	Explicitní 4–6 streamů s Signal Map
Evaluace zdrojů	Žádná	Žádná	SIFT framework + credibility -2 až +3
Confidence model	1D (high/medium/low)	Žádný	2D matice: síla signálu × shoda zdrojů
Konflikty	Flag	Vyhýbá se	Explicitní rozhodnutí s odůvodněním
Practical Layer	Ne	Částečně (ceny)	Ano (ceny, poskytovatelé, budget stacky)
Adjacent Topics	Ne	Částečně (AI/tech)	Ano (2–3 per stream)
Narrativní flow	Ne	Silný	Ano (v1.6.0)
Výstup	Jeden soubor	Jeden soubor	Modulární: summary + detail soubory
Čas	2–5 minut	5–10 minut	10–18 minut

Hlavní kroky deep-research příkazu

Dekompozice tématu

Tohle je klíčový krok, kde se plugin odlišuje od jednoprůchodového searche. Než začne hledat, rozloží téma na 4–6 nezávislých streamů. Pro byznysová témata používá čtyři (TRH / TECHNOLOGIE / KONKURENCE / RIZIKA), pro ostatní doménově specifickou dekompozici.

Proč na tom záleží? Jednoprůchodový search jde po klíčových slovech z vašeho zadání. Pokud se zeptáte na „longevity biotech — senolytika, rapamycin, epigenetické hodiny, krevní plazma", dostanete odpověď na přesně tato čtyři témata. GLP-1 agonisty, NAD+ prekurzory nebo buněčné reprogramování nenajde, protože jste se na ně neptali.

Deep-research téma nejdřív dekomponuje — a streamy definuje na základě struktury problému, ne jen na základě zadání. U longevity to znamenalo: klinická evidence (včetně přístupů mimo zadání), investiční krajina, biomarkery a měření, emerging přístupy, a praktická dostupnost. Proudy se nepřekrývají, ale pokrývají téma šířeji než zadání.

Po dekompozici proběhne validační checkpoint: jsou všechny klíčové dimenze pokryté? Nechybí nějaká perspektiva? Nejsou streamy příliš úzké nebo příliš široké? Teprve po validaci se spustí paralelní hledání — 3–4 agenti současně, každý na svém streamu.

Evaluace zdrojů (SIFT + credibility scoring)

Každý nalezený zdroj projde čtyřkrokovým filtrem SIFT:

Stop — Je tohle relevantní? Mám důvod tomu věřit?
Investigate — Kdo je autor? Jaká organizace za tím stojí? Jaké mají credentials?
Find better — Existuje primární zdroj? Pokrývá to někdo důvěryhodnější?
Trace — Odkud pochází původní tvrzení? Není vytržené z kontextu?

Po filtraci dostane každý zdroj credibility skóre:

Skóre	Typ zdroje	Příklad
+3	Peer-reviewed	Nature, Lancet, NEJM
+2	Institucionální	WHO, FDA, McKinsey
+1	Expert	Pojmenovaný odborník s credentials
0	Obecná média	Zpravodajství, oborový tisk
-1	User-generated	Reddit, Medium bez credentials
-2	Anonymní/propagační	Vendor whitepapers, anonymní posty

Pro klíčová tvrzení plugin vyžaduje zdroje se skóre ≥ +1. Tržní projekce z market research firem dostanou 0 a jsou explicitně označeny — čtenář ví, že jde o odhad, ne o ověřený fakt.

Tohle je jedna z věcí, které ani Gemini Deep Research nedělá. Když Gemini napíše „investice dosáhly 8,5 miliardy dolarů", nevíte, jestli to pochází z peer-reviewed analýzy nebo z tiskové zprávy VC fondu. Deep-research vám to řekne.

Signal Map

Po prvním kole hledání plugin vytvoří Signal Map z nalezených zdrojů a pak přizpůsobí hloubku analýzy:

STRONG signál (8+ zdrojů, vysoká kredibilita) → konkrétní tvrzení, detailní soubor, přesná doporučení
MODERATE signál (4–7 zdrojů) → standardní analýza, podmíněná doporučení
WEAK signál (<4 zdroje) → pouze směrové trendy, žádná přesná čísla, žádný samostatný soubor

Plugin nepředstírá jistotu tam, kde data nejsou. Slabý signál = slabé tvrzení, ne přesvědčivě znějící věta bez podkladu.

2D Confidence Model

Standardní research řekne „high confidence" nebo „low confidence". Deep-research pracuje se dvěma osami:

	Zdroje se shodují	Zdroje si protiřečí
Silný signál	Přesné tvrzení: „Udělejte X, protože Y"	Nuancovaná pozice: „X je lepší než Y, ale za podmínky Z zvažte Y"
Slabý signál	Směrový trend: „Evidence naznačuje X"	Neznámé: „Nedostatek dat. Doporučuji ověřit Z"

Žádné „zvažte A nebo B". Vždy konkrétní doporučení odpovídající kvalitě dat.

A/B/C test: Tři nástroje, stejné zadání

Abych nemluvil jen v abstrakcích, pustil jsem na stejný prompt tří nástroje: plain Claude Code, Gemini Deep Research a náš deep-research plugin (v1.6.0) v Claude Code:

„Longevity biotech 2025: kde jsou reálné klinické výsledky vs investiční hype? Které přístupy (senolytika, rapamycin, epigenetické hodiny, krevní plazma) mají nejsilnější evidenci a komerční potenciál?"

Výstupy jednotlivých nástrojů ke stažení

Jde o celkem zajímavé téma, tak sdílím i výstupy. Pro jednodušší stažení všechny výstupy konvertovány do PDF.

Plain Claude Code — rychlý přehled

Jeden soubor, ~240 řádků, ~28 zdrojů, hotovo za 3 minuty. Pokryl všechny čtyři požadované oblasti, klíčové studie identifikoval správně (PEARL trial, STAMINA, Buck Institute TPE). Pro rychlý přehled solidní výstup. Ale přehlédl celou kategorii — GLP-1 agonisty, které se v deep-research ukázaly jako klinicky nejsilnější longevity kandidát (SELECT trial, 17 000 pacientů, tvrdé kardiovaskulární endpointy). Jednoprůchodový search šel po klíčových slovech ze zadání a GLP-1 tam nebyly. Dále chyběly NAD+ prekurzory, Conboy plasma dilution, rapamycin + trametinib kombinace.

Gemini Deep Research — narativní zpráva

Jeden ucelený výstup, ~42 citací, plynulý český text. Gemini dodal koherentní analytickou zprávu s příběhem (makro kontext → regulace → přístupy → AI → komerce). Silné stránky: komerční kontext (ceny intervencí, jména klinik), regulatorní storytelling (LOY-002 jako FDA precedent), a pokrytí AI infrastruktury (AlphaGenome, NVIDIA BioNeMo, digitální dvojčata). Přehlédl ale úplně stejné kategorie jako plain Claude — GLP-1, NAD+, Conboy plasma dilution, fisetin (nulová lidská data navzdory masové spotřebě). Žádný scoring zdrojů — nevíte, jak moc věřit jednotlivým tvrzením. Kontradikcím se vyhýbá místo aby je řešil.

Deep-research plugin (v1.6.0) — modulární analýza s praktickou vrstvou

Výstup 6 souborů (summary + 5 detail files), 88 zdrojů, 18 minut. V1.6.0 jsem přidal čtyři nové prvky: narativní summary inspirovaný Gemini, praktickou vrstvu (ceny, poskytovatelé, budget stacky), příbuzná témata u každého streamu, a číslovanou bibliografii s credibility scoring.

Co deep-research zachytil a ostatní ne:

GLP-1 jako nejsilnější near-term kandidát — SELECT trial + analýza selhání EVOKE Alzheimer studie + upozornění na ztrátu 39-45 % svalové hmoty
PEARL trial COI — 7 autorů jsou zaměstnanci/akcionáři AgelessRx, která studii financovala a rapamycin prodává; kompoundovaná formulace měla 3,5× nižší biodostupnost; sekundární nález svalové hmoty je v přímé kontradikci s Lancet systematic review 19 studií
Česká studie plazmaferéze — plazmaferéza BEZ albuminu biologický věk zrychlila (+0,26 roku/session); albumin je klíčová proměnná, ne samotná procedura
Fisetin reality check — nejsilnější flavonoidové senolytikum v preklinice, OTC za ~5 USD/cyklus, ale žádná dokončená RCT u lidí
Budget stacky — od 50 USD/měsíc (NMN + fisetin) po 5 000+ USD (plazmaferéza), s realistickými očekáváními pro každý

Srovnání v číslech

	Plain Claude Code	Gemini Deep Research	Deep-research v1.6.0
Zdroje	~28	~42	88
Soubory	1 (MD)	1	6 (modulární MD)
Credibility scoring	Ne	Ne	Každý zdroj -2 až +3
Practical Layer	Ne	Částečně (ceny klinik)	Ano (ceny, poskytovatelé, budget stacky, dostupnost v ČR)
Chybějící oblasti	GLP-1, NAD+, fisetin, Conboy	GLP-1, NAD+, fisetin, Conboy	—
Contradictions	Zmíněny povrchně	Vyhýbá se	Explicitní tabulky s rozhodnutím
COI analýza	Ne	Ne	Ano (PEARL trial)
Adjacent Topics	Ne	Částečně (AI, digital twins)	Ano (2-3 per stream)
Narrativní flow	Ne	Ano (silný)	Ano (v1.6.0)
Čas	~3 min	~8 min	~18 min

Co je důležité

Nejde o počet zdrojů. Jde o tři věci:

Dekompozice. Jednoprůchodový search (plain i Gemini) jde po klíčových slovech ze zadání. GLP-1 tam nebyly, tak je nenašel. Deep-research dekomponuje na streamy a hledá i za hranicemi zadání — a proto identifikoval kategorii, která se ukázala jako klinicky nejsilnější.
Kritické hodnocení. Gemini referuje PEARL trial jako pozitivní výsledek. Deep-research identifikoval závažný COI, nízkou biodostupnost kompoundované formulace, a kontradikci s 19 studiemi — a na základě toho PEARL nález odmítl. To je jiná úroveň informace.
Praktická vrstva. Gemini zmíní cenu kliniky. Deep-research dá budget stack od 50 USD/měsíc s realistickými očekáváními, konkrétní produkty, a upozornění co nepomůže. Rozdíl mezi „informace" a „rozhodovací podklad."

Vlastní plug-in má také výhodu průběžného rozvoje - když ve výstupu jiného nástroje najdu něco co se mi líbí (příběhové shrnutí u Gemini) můžu velmi jednoduše stejný prvek zapracovat do svého pluginu.

Pipeline: od researchu k publikaci

Deep-research není izolovaný nástroj. Je to vstupní bod do pipeline čtyř navazujících příkazů:

/deep-research → /critique → /verify → /humanize

Příkaz	Co dělá	Kdy použít
deep-research	Paralelní multi-pass research, 25+ zdrojů, Signal Map	Začátek — sběr a syntéza dat
critique	Logická analýza argumentů — hledá díry, chybné úsudky, chybějící evidenci	Po researchi — ověření logiky
verify	Fact-check: ověření konkrétních tvrzení, zdrojů, odkazů, čísel	Před publikací — kontrola faktů
humanize	Odstranění typických AI vzorů z textu	Finální úprava — přirozený jazyk

Každý krok má svého specializovaného agenta. Nemusíte je používat všechny — /deep-research funguje samostatně. Ale pokud výstup jde do prezentace nebo článku, pipeline /critique → /verify → /humanize ho dotáhne — logické díry, ověření faktů, přirozený jazyk.

Limity

Závisí na WebSearch. Pro niche témata s málo online zdroji je výstup slabší — ale Signal Map vám to explicitně řekne.
Anglický bias. Anglické zdroje dominují. Pro ryze český kontext (legislativa, lokální trh) počítejte s tím, že budete muset doplňovat další informace ručně nebo odjinud.
Není akademický. Pro systematický přehled literatury nebo meta-analýzu to nestačí. Je to konzultantský research — praktický, akční, s doporučeními.
Vyžaduje Claude Code. Funguje jako plugin, ne webová aplikace. Potřebujete terminál a Claude Code (placená subscription). Velmi pravděpoeobně by šel adoptovat i do Gemini CLI nebo Codex.
Objem výstupu. 6 souborů a 1700+ řádků je hodně. Pro rychlé rozhodnutí stačí summary + Signal Map, detail soubory a practical guide jsou pro deep-dive.

Jak vyzkoušet

Plugin ke stažení: github.com/zdenekmach/deep-research

git clone https://github.com/zdenekmach/deep-research.git
claude --plugin-dir ./deep-research

Plugin obsahuje pět příkazů: deep-research, research (rychlá verze, 3–7 zdrojů), critique, verify a humanize. Celý stack je MIT licence.