Урок 12Практика

Computer Use и браузерные агенты

Агенты, которые видят экран и работают мышью и клавиатурой

Проблема: У большинства программ и сайтов нет API — легаси-приложения, внутренние порталы, сторонние инструменты. Их нельзя автоматизировать обычным скриптом. Как автоматизировать систему, которую можно только видеть и кликать?

Решение: Цикл «Скриншот → Рассуждение → Действие»

У computer-use агента нет особого доступа — он управляет GUI как человек. На каждом шаге он делает скриншот, рассуждает о следующем шаге и выдаёт конкретное действие. Самое сложное — привязка (grounding): превратить «нажми Submit» в точные координаты x,y. Привязка только по пикселям гибкая, но хрупкая; чтение дерева доступности (или DOM браузера через Playwright/CDP) нацеливается на реальный элемент по роли и подписи. Поскольку действия бывают необратимыми, защитный шлюз просит человека подтвердить разрушительные операции.

Представьте это как удалённого ассистента, который видит только твой экран:

1. Снять состояние экрана: Сделать скриншот (или прочитать UI/дерево доступности) текущего приложения.
2. Рассудить о цели: Модель решает, какое UI-действие приближает к цели задачи.
3. Выдать конкретное действие: Выдать клик по x,y / ввод текста / нажатие клавиши — привязанное к цели.
4. Выполнить и повторить: Выполнить действие, снять новое состояние и повторять до достижения цели.

Браузерные агенты крутят тот же цикл, но используют DOM через Playwright или Chrome DevTools Protocol (CDP) — это надёжнее, чем сырые пиксели.

Где computer-use агенты особенно полезны

Веб-автоматизация и заполнение форм: Заполнять порталы, бронировать, собирать данные с сайтов без API.
QA и сквозное UI-тестирование: Прогонять пользовательские сценарии в реальном браузере и ловить визуальные регрессии.
RPA для легаси-приложений: Автоматизировать старый софт без точек интеграции — агент просто кликает.
Ввод и миграция данных: Переносить записи между системами: читать один экран и вводить в другой.

Интересный факт: Вся эта возможность сводится к крошечному циклу: скриншот → рассуждение → действие → новый скриншот. Всё остальное — лучшая привязка, шаги верификации, защитные шлюзы — про то, как сделать этот цикл достаточно надёжным для реального экрана.

Попробуйте сами!

Используй интерактивный пример ниже, чтобы пройти цикл «скриншот → рассуждение → действие», сравнить привязку по пикселям с деревом доступности и увидеть, как защитный шлюз останавливается перед разрушительным действием.

Как работает computer-use агент

app.example.com

Вход

Password

Submit

1. Скриншот

Снять текущий экран как изображение (или прочитать UI / дерево доступности).

Видна форма входа: поле Email, поле Password и кнопка Submit.

Частые вопросы

Что такое computer use у AI-агентов?

Computer use — это способность агента управлять графическим интерфейсом так же, как человек: он делает скриншот, рассуждает о цели, выдаёт конкретное действие (клик по координатам x,y, ввод текста, нажатие клавиши), выполняет его, делает новый скриншот и повторяет. Поскольку агент работает через сам GUI, он может автоматизировать любое приложение — даже легаси-софт без API. Claude computer use и похожие инструменты следуют этому циклу «скриншот — рассуждение — действие».

Чем отличается привязка по пиксельным координатам от привязки через дерево доступности?

Привязка (grounding) превращает инструкцию вроде «нажми Submit» в конкретную цель. Привязка по пиксельным координатам предсказывает сырые x,y по скриншоту — это гибко, но хрупко: при сдвиге вёрстки агент промахивается. Привязка через дерево доступности (accessibility tree) или DOM читает структурированный список UI-элементов, который предоставляет ОС или браузер, поэтому агент целится в реальную кнопку «Submit» по её роли и подписи. Привязка через дерево доступности гораздо надёжнее; многие промышленные агенты комбинируют оба подхода.

Какие главные риски безопасности у браузерных и computer-use агентов и как их снижают?

Главный риск — что агент выполнит разрушительное необратимое действие: удалит файлы, переведёт деньги, отправит неверную форму — или будет перехвачен через prompt injection из содержимого страницы. Стандартная мера — защитный шлюз (safety gate): требовать явного подтверждения человека перед необратимыми действиями, запускать агента в песочнице с минимальными правами, использовать allowlist доменов и добавлять шаг верификации, который проверяет состояние экрана до и после каждого действия.

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаСреднийАнализ

Computer-use агент должен нажать кнопку «Submit» в веб-форме, на которой при загрузке появляется баннер cookie.

Без техники

Промпт

Кликни по кнопке Submit. Её координаты — (412, 530). Используй click(x, y) с этими координатами.

Ответ

Action: click(412, 530)

Результат: ничего не произошло. На самом деле страница сдвинулась вниз из-за баннера cookie, и по координатам (412, 530) теперь находится сам баннер. Агент кликнул мимо кнопки и не заметил этого — он не проверил, изменилось ли состояние экрана.

Токены:40/60

Время:700ms

Качество:

С agents-computer-use

С техникой

Промпт

Цель: отправить форму. Работай по циклу скриншот → рассуждение → действие. Привязывайся к элементам по роли и подписи (accessibility tree / DOM), а не по фиксированным пикселям. После каждого действия делай новый скриншот и проверяй, что состояние изменилось ожидаемо; при необходимости повтори.

Ответ

Screenshot: вижу баннер cookie поверх формы. Thought: баннер перекрывает страницу и сдвигает элементы — сначала закрою его. Action: click(role="button", name="Accept cookies") Screenshot: баннер исчез, форма видна полностью.

Thought: теперь найду кнопку Submit по роли и подписи, а не по старым координатам. Action: click(role="button", name="Submit") Screenshot (верификация): появилась страница «Спасибо, форма отправлена».

Verified: состояние изменилось ожидаемо → задача выполнена.

👁️Скриншот: обнаружен баннер cookie, перекрывающий форму

🧠Action: закрыть баннер по роли/подписи, а не по пикселям

👁️Action: click(role="button", name="Submit") — привязка по семантике

🔍Верификация: новый скриншот подтверждает успешную отправку

Токены:95/150

Время:2600ms

Качество:

Почему это работает

Привязка только по пикселям ломается, как только сдвигается вёрстка. Привязка по роли/подписи плюс шаг верификации после действия делают computer-use агента надёжным.

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:React Function Calling Tool Impact

Этот урок — часть структурированного курса по LLM.

Мой путь обучения

Урок 12Практика

Computer Use и браузерные агенты

Агенты, которые видят экран и работают мышью и клавиатурой

Решение: Цикл «Скриншот → Рассуждение → Действие»

Представьте это как удалённого ассистента, который видит только твой экран:

1. Снять состояние экрана: Сделать скриншот (или прочитать UI/дерево доступности) текущего приложения.
2. Рассудить о цели: Модель решает, какое UI-действие приближает к цели задачи.
3. Выдать конкретное действие: Выдать клик по x,y / ввод текста / нажатие клавиши — привязанное к цели.
4. Выполнить и повторить: Выполнить действие, снять новое состояние и повторять до достижения цели.

Где computer-use агенты особенно полезны

Веб-автоматизация и заполнение форм: Заполнять порталы, бронировать, собирать данные с сайтов без API.
QA и сквозное UI-тестирование: Прогонять пользовательские сценарии в реальном браузере и ловить визуальные регрессии.
RPA для легаси-приложений: Автоматизировать старый софт без точек интеграции — агент просто кликает.
Ввод и миграция данных: Переносить записи между системами: читать один экран и вводить в другой.

Попробуйте сами!

Как работает computer-use агент

app.example.com

Вход

Password

Submit

1. Скриншот

Снять текущий экран как изображение (или прочитать UI / дерево доступности).

Видна форма входа: поле Email, поле Password и кнопка Submit.

Частые вопросы

Что такое computer use у AI-агентов?

Чем отличается привязка по пиксельным координатам от привязки через дерево доступности?

Какие главные риски безопасности у браузерных и computer-use агентов и как их снижают?

Попробуй сам

Интерактивное демо этой техники

Сравнение техник

Демо режим

Предзаписанные ответы

ЗадачаСреднийАнализ

Computer-use агент должен нажать кнопку «Submit» в веб-форме, на которой при загрузке появляется баннер cookie.

Без техники

Промпт

Кликни по кнопке Submit. Её координаты — (412, 530). Используй click(x, y) с этими координатами.

Ответ

Action: click(412, 530)

Токены:40/60

Время:700ms

Качество:

С agents-computer-use

С техникой

Промпт

Ответ

Verified: состояние изменилось ожидаемо → задача выполнена.

👁️Скриншот: обнаружен баннер cookie, перекрывающий форму

🧠Action: закрыть баннер по роли/подписи, а не по пикселям

👁️Action: click(role="button", name="Submit") — привязка по семантике

🔍Верификация: новый скриншот подтверждает успешную отправку

Токены:95/150

Время:2600ms

Качество:

Почему это работает

1 / 2

Практика

Создайте бесплатный аккаунт для решения челленджей

3 челленджей с AI-проверкой для этого урока

Связанные уроки:React Function Calling Tool Impact

Этот урок — часть структурированного курса по LLM.

Мой путь обучения