Computer Use и браузерные агенты
Агенты, которые видят экран и работают мышью и клавиатурой
Проблема: У большинства программ и сайтов нет API — легаси-приложения, внутренние порталы, сторонние инструменты. Их нельзя автоматизировать обычным скриптом. Как автоматизировать систему, которую можно только видеть и кликать?
Решение: Цикл «Скриншот → Рассуждение → Действие»
У computer-use агента нет особого доступа — он управляет GUI как человек. На каждом шаге он делает скриншот, рассуждает о следующем шаге и выдаёт конкретное действие. Самое сложное — привязка (grounding): превратить «нажми Submit» в точные координаты x,y. Привязка только по пикселям гибкая, но хрупкая; чтение дерева доступности (или DOM браузера через Playwright/CDP) нацеливается на реальный элемент по роли и подписи. Поскольку действия бывают необратимыми, защитный шлюз просит человека подтвердить разрушительные операции.
Представьте это как удалённого ассистента, который видит только твой экран:
- 1. Снять состояние экрана: Сделать скриншот (или прочитать UI/дерево доступности) текущего приложения.
- 2. Рассудить о цели: Модель решает, какое UI-действие приближает к цели задачи.
- 3. Выдать конкретное действие: Выдать клик по x,y / ввод текста / нажатие клавиши — привязанное к цели.
- 4. Выполнить и повторить: Выполнить действие, снять новое состояние и повторять до достижения цели.
Браузерные агенты крутят тот же цикл, но используют DOM через Playwright или Chrome DevTools Protocol (CDP) — это надёжнее, чем сырые пиксели.
Где computer-use агенты особенно полезны
- Веб-автоматизация и заполнение форм: Заполнять порталы, бронировать, собирать данные с сайтов без API.
- QA и сквозное UI-тестирование: Прогонять пользовательские сценарии в реальном браузере и ловить визуальные регрессии.
- RPA для легаси-приложений: Автоматизировать старый софт без точек интеграции — агент просто кликает.
- Ввод и миграция данных: Переносить записи между системами: читать один экран и вводить в другой.
Интересный факт: Вся эта возможность сводится к крошечному циклу: скриншот → рассуждение → действие → новый скриншот. Всё остальное — лучшая привязка, шаги верификации, защитные шлюзы — про то, как сделать этот цикл достаточно надёжным для реального экрана.
Попробуйте сами!
Используй интерактивный пример ниже, чтобы пройти цикл «скриншот → рассуждение → действие», сравнить привязку по пикселям с деревом доступности и увидеть, как защитный шлюз останавливается перед разрушительным действием.
Снять текущий экран как изображение (или прочитать UI / дерево доступности).
Частые вопросы
Что такое computer use у AI-агентов?
Computer use — это способность агента управлять графическим интерфейсом так же, как человек: он делает скриншот, рассуждает о цели, выдаёт конкретное действие (клик по координатам x,y, ввод текста, нажатие клавиши), выполняет его, делает новый скриншот и повторяет. Поскольку агент работает через сам GUI, он может автоматизировать любое приложение — даже легаси-софт без API. Claude computer use и похожие инструменты следуют этому циклу «скриншот — рассуждение — действие».
Чем отличается привязка по пиксельным координатам от привязки через дерево доступности?
Привязка (grounding) превращает инструкцию вроде «нажми Submit» в конкретную цель. Привязка по пиксельным координатам предсказывает сырые x,y по скриншоту — это гибко, но хрупко: при сдвиге вёрстки агент промахивается. Привязка через дерево доступности (accessibility tree) или DOM читает структурированный список UI-элементов, который предоставляет ОС или браузер, поэтому агент целится в реальную кнопку «Submit» по её роли и подписи. Привязка через дерево доступности гораздо надёжнее; многие промышленные агенты комбинируют оба подхода.
Какие главные риски безопасности у браузерных и computer-use агентов и как их снижают?
Главный риск — что агент выполнит разрушительное необратимое действие: удалит файлы, переведёт деньги, отправит неверную форму — или будет перехвачен через prompt injection из содержимого страницы. Стандартная мера — защитный шлюз (safety gate): требовать явного подтверждения человека перед необратимыми действиями, запускать агента в песочнице с минимальными правами, использовать allowlist доменов и добавлять шаг верификации, который проверяет состояние экрана до и после каждого действия.
Попробуй сам
Интерактивное демо этой техники
Computer-use агент должен нажать кнопку «Submit» в веб-форме, на которой при загрузке появляется баннер cookie.
Action: click(412, 530)
Результат: ничего не произошло. На самом деле страница сдвинулась вниз из-за баннера cookie, и по координатам (412, 530) теперь находится сам баннер. Агент кликнул мимо кнопки и не заметил этого — он не проверил, изменилось ли состояние экрана.
Screenshot: вижу баннер cookie поверх формы. Thought: баннер перекрывает страницу и сдвигает элементы — сначала закрою его. Action: click(role="button", name="Accept cookies") Screenshot: баннер исчез, форма видна полностью.
Thought: теперь найду кнопку Submit по роли и подписи, а не по старым координатам. Action: click(role="button", name="Submit") Screenshot (верификация): появилась страница «Спасибо, форма отправлена».
Verified: состояние изменилось ожидаемо → задача выполнена.
Привязка только по пикселям ломается, как только сдвигается вёрстка. Привязка по роли/подписи плюс шаг верификации после действия делают computer-use агента надёжным.
Создайте бесплатный аккаунт для решения челленджей
3 челленджей с AI-проверкой для этого урока
Этот урок — часть структурированного курса по LLM.
Мой путь обучения