Зрение и руки Siri: Apple тестирует модель, которая управляет интерфейсом

1 мин
Корпорации не теряют надежды сделать такой ИИ, который будет пользоваться привычными интерфейсами за человека, не требуя перестройки самих операционных систем. Apple старается не отставать от тренда и представила прототип Ferret-UI Lite — компактную модель на три 3 параметров, которая получает на вход скриншот и текстовую команду, а затем учится самостоятельно находить нужные элементы и нажимать кнопки, выполняя задачи пользователя. Всё это, по заявлениям компании, локально.

Чтобы заставить одновременно зрение и логику работать на мобильном железе, инженеры сделали упор на создание единой оптимизированной модели. Она обрабатывает скриншот, нарезая его на сетку ячеек, генерирует цепочку рассуждений и выдает конкретное действие по координатам — тап, свайп или ввод текста. Главное отличие от аналогов, которое и позволяет добиться большей эффективности — буквально использование лупы. Агент не сканирует весь экран, он сначала грубо предсказывает нужную зону, потом обрезает картинку вокруг неё и после приближения начинает планировать действия.

По результатам тестов модель справляется с точечным поиском конкретного элемента, обходя некоторые модели в 2 раза больше по параметрам. Однако если нужно сделать несколько шагов и кликов, эффективность падает. Ждать Ferret-UI Lite в ближайшем обновлении iOS, понятное дело, не стоит. А вот через несколько поколений вполне можно получить рабочий прототип. Зачем это нужно — не совсем понятно, но как минимум слабовидящим людям устройствами станет пользоваться проще.