Automatizácia11 min čítania

Browser-Use: Scraping, ktorý prežije zmenu layoutu

Automatizácia prehliadačov s počítačovým videním. Agent 'vidí' stránku ako človek – žiadne CSS selektory, žiadna údržba.

Evolúcia od DOM scrapingu k počítačovému videniu

Automatizácia prehliadačov novej generácie (Browser-Use, Stagehand) sa vyvinula z krehkého scrapovania DOM štruktúr na agentovú navigáciu vylepšenú počítačovým videním. Toto odomyká obrovské množstvo neštruktúrovaných webových dát pre potreby 'Market Intelligence' a automatizáciu procesov.

Tradičné scrapery sa spoliehajú na CSS selektory a XPath výrazy, ktoré sa rozpadnú pri každej zmene webu. Malá úprava HTML štruktúry znamená hodiny práce na oprave selektorov. Browser-Use využíva počítačové videnie a stromy prístupnosti (accessibility trees) – agent 'vidí' stránku a identifikuje elementy vizuálne, presne ako človek.

Inštrukcia 'Nájdi cenu iPhone 16 Pro' funguje bez ohľadu na podkladovú HTML štruktúru. Agent identifikuje vizuálny element, ktorý vyzerá ako cena v blízkosti textu produktu, bez nutnosti poznať konkrétne div triedy alebo ID.

Claude Opus 4.5 Computer Use: Revolúcia v automatizácii

Prelomovou schopnosťou predstavenou koncom roka 2024 je Claude 'Computer Use', ktorá umožňuje modelu priamo interagovať s grafickým rozhraním – pozerať sa na screenshoty, pohybovať kurzorom, písať. Toto je revolučné pre riešenia 'Autonómnej pracovnej sily', umožňujúce agentom ovládať legacy softvér, ktorý nemá API.

Bežný scenár v tradičných odvetviach: účtovný softvér, staré ERP systémy, interné aplikácie bez API. Claude môže tieto systémy ovládať vizuálne, extrahovať dáta a vykonávať akcie presne ako ľudský operátor.

Implementačná poznámka: Hoci je táto funkcia výkonná, je v súčasnosti pomalšia a náchylnejšia na chyby v porovnaní s volaniami API. Mala by byť 'nástrojom poslednej inštancie', keď MCP alebo priame API nie sú k dispozícii.

Samoopravná logika a odolnosť

Ak vyskakovacie okno zablokuje výhľad, agent ho vizuálne deteguje a klikne na 'Zavrieť' – presne ako človek. Cookie bannery, newsletter pop-upy, chatboti – všetko je zvládnuté automaticky bez špeciálnych handlerov.

Táto odolnosť dramaticky znižuje náklady na údržbu scraperov. V tradičnom scrapingu tvorí údržba 60-80% celkových nákladov. S vision-based prístupom klesá na zlomok – scraper nevyžaduje úpravy, keď web zmení CSS triedy alebo preusporiada layout.

  • Automatické zatváranie pop-upov a cookie bannerov bez explicitného kódu
  • Navigácia cez CAPTCHA s ľudskou pomocou iba vo výnimočných prípadoch
  • Adaptácia na A/B testy a dynamické zmeny layoutu
  • Robustnosť voči lazy loading a infinite scroll

Výber modelu pre rôzne use-case

Gemini 2.5 Flash pre rýchlosť a nízku latenciu – ideálny pre vysokoobjemové scrapovanie, kde je prioritou throughput. Výrazne prekonáva konkurentov v metrike Time-To-First-Token (TTFT).

Claude 4 Sonnet pre komplexnú navigáciu – keď scraper potrebuje komplexnú logiku, multi-step workflow alebo interakciu s formulármi. Benchmarky ukazujú najvyššiu úspešnosť pri správnom formátovaní komplexných argumentov nástrojov.

Hybridný prístup: Gemini pre jednoduchú extrakciu dát, Claude pre navigáciu a interakciu s komplikovanými UI.

Škálovanie na serverless infraštruktúre

Nasadenie na serverless kontajneroch (AWS Fargate, Google Cloud Run) umožňuje horizontálne škálovanie na tisíce stránok. Platíte iba za skutočne využitý čas, bez nákladov na idle servery.

Architektúra: Orchestrátor (LangGraph) riadi frontu URL na spracovanie. Každý kontajner spúšťa headless browser inštancie, spracováva stránky paralelne. Výsledky sa agregujú do centrálnej databázy alebo S3.

Pre 'Market Intelligence' use-case môže systém denne spracovať desaťtisíce produktových stránok konkurencie, automaticky detegovať cenové zmeny a generovať reporty.

  • AWS Fargate / Google Cloud Run pre serverless škálovanie
  • Playwright/Puppeteer ako browser engine
  • Redis pre koordináciu front a deduplikáciu
  • S3/GCS pre ukladanie screenshotov a extrahovaných dát

Praktický vzor: Odolný Market Intelligence Scraper

Cieľ: Zber trhových informácií, ktorý prežije zmeny v rozložení webstránok. Browser-Use poháňaná Gemini 2.5 Flash (pre rýchlosť/videnie) alebo Claude 4 Sonnet (pre komplexnú navigáciu).

Metodika: Namiesto CSS selektorov agent využíva počítačové videnie a stromy prístupnosti. Inštrukcia 'Nájdi cenu iPhone 16 Pro' identifikuje vizuálny element vyzerajúci ako cena v blízkosti textu produktu, bez ohľadu na podkladovú div štruktúru.

Výstup: Štruktúrované dáta (JSON) s cenami, dostupnosťou, špecifikáciami. Automatické porovnanie s historickými dátami, alerting na významné zmeny. Dashboard pre business analytikov.

Browser-UseScrapingVisionAutomatizáciaMarket Intelligence