Browser-Use: Scraping, který přežije změnu layoutu
Automatizace prohlížečů s počítačovým viděním. Agent 'vidí' stránku jako člověk – žádné CSS selektory, žádná údržba.
Evoluce od DOM scrapingu k počítačovému vidění
Automatizace prohlížečů nové generace (Browser-Use, Stagehand) se vyvinula z křehkého scrapování DOM struktur na agentovou navigaci vylepšenou počítačovým viděním. Toto odemyká obrovské množství nestrukturovaných webových dat pro potřeby 'Market Intelligence' a automatizaci procesů.
Tradiční scrapery spoléhají na CSS selektory a XPath výrazy, které se rozbijí při každé změně webu. Malá úprava HTML struktury znamená hodiny práce na opravě selektorů. Browser-Use využívá počítačové vidění a stromy přístupnosti (accessibility trees) – agent 'vidí' stránku a identifikuje elementy vizuálně, přesně jako člověk.
Instrukce 'Najdi cenu iPhone 16 Pro' funguje bez ohledu na podkladovou HTML strukturu. Agent identifikuje vizuální element, který vypadá jako cena v blízkosti textu produktu, bez nutnosti znát konkrétní div třídy nebo ID.
Claude Opus 4.5 Computer Use: Revoluce v automatizaci
Prelomovou schopností představenou koncem roku 2024 je Claude 'Computer Use', která umožňuje modelu přímo interagovat s grafickým rozhraním – dívat se na screenshoty, pohybovat kurzorem, psát. Toto je revoluční pro řešení 'Autonomní pracovní síly', umožňující agentům ovládat legacy software, který nemá API.
Běžný scénář v tradičních odvětvích: účetní software, staré ERP systémy, interní aplikace bez API. Claude může tyto systémy ovládat vizuálně, extrahovat data a provádět akce přesně jako lidský operátor.
Implementační poznámka: Hoci je tato funkce výkonná, je v současnosti pomalejší a náchylnější na chyby ve srovnání s voláními API. Měla by být 'nástrojem poslední instance', když MCP nebo přímé API nejsou k dispozici.
Samoopravná logika a odolnost
Pokud vyskakovací okno zablokuje výhled, agent ho vizuálně detekuje a klikne na 'Zavřít' – přesně jako člověk. Cookie bannery, newsletter pop-upy, chatboti – všechno je zvládnuto automaticky bez speciálních handlerů.
Tato odolnost dramaticky snižuje náklady na údržbu scraperů. V tradičním scrapingu tvoří údržba 60-80% celkových nákladů. S vision-based přístupem klesá na zlomek – scraper nevyžaduje úpravy, když web změní CSS třídy nebo přeuspořádá layout.
- Automatické zavírání pop-upů a cookie bannerů bez explicitního kódu
- Navigace přes CAPTCHA s lidskou pomocí pouze ve výjimečných případech
- Adaptace na A/B testy a dynamické změny layoutu
- Robustnost vůči lazy loading a infinite scroll
Výběr modelu pro různé use-case
Gemini 2.5 Flash pro rychlost a nízkou latenci – ideální pro vysokoobjemové scrapování, kde je prioritou throughput. Výrazně předkonává konkurenty v metrice Time-To-First-Token (TTFT).
Claude 4 Sonnet pro komplexní navigaci – když scraper potřebuje komplexní logiku, multi-step workflow nebo interakci s formuláři. Benchmarky ukazují nejvyšší úspěšnost při správném formátování komplexních argumentů nástrojů.
Hybridní přístup: Gemini pro jednoduchou extrakci dat, Claude pro navigaci a interakci s komplikovanými UI.
Škálování na serverless infrastruktuře
Nasazení na serverless kontejnerech (AWS Fargate, Google Cloud Run) umožňuje horizontální škálování na tisíce stránek. Platíte pouze za skutečně využitý čas, bez nákladů na idle servery.
Architektura: Orchestrátor (LangGraph) řídí frontu URL k zpracování. Každý kontejner spouští headless browser instance, zpracovává stránky paralelně. Výsledky se agregují do centrální databáze nebo S3.
Pro 'Market Intelligence' use-case může systém denně zpracovat desítky tisíc produktových stránek konkurence, automaticky detekovat cenové změny a generovat reporty.
- AWS Fargate / Google Cloud Run pro serverless škálování
- Playwright/Puppeteer jako browser engine
- Redis pro koordinaci front a deduplikaci
- S3/GCS pro ukládání screenshotů a extrahovaných dat
Praktický vzor: Odolný Market Intelligence Scraper
Cíl: Sběr trhových informací, který přežije změny v rozložení webstránek. Browser-Use poháněná Gemini 2.5 Flash (pro rychlost/vidění) nebo Claude 4 Sonnet (pro komplexní navigaci).
Metodika: Místo CSS selektorů agent využívá počítačové vidění a stromy přístupnosti. Instrukce 'Najdi cenu iPhone 16 Pro' identifikuje vizuální element vypadající jako cena v blízkosti textu produktu, bez ohledu na podkladovou div strukturu.
Výstup: Strukturovaná data (JSON) s cenami, dostupností, specifikacemi. Automatické porovnání s historickými daty, alerting na významné změny. Dashboard pro business analytiky.