Для чего нужны «агенты» ИИ?

Размышления о предположениях относительно будущих начинаний OpenAI могут быть довольно сбивающими с толку, поскольку, похоже, они подталкивают некоторых людей к грани здравомыслия. Эта путаница проистекает из нескольких факторов: во-первых, новаторский характер их моделей ИИ, которые превосходят предыдущие возможности программного обеспечения и оставляют место для споров о том, является ли каждое новое достижение просто умным трюком или изменяющей жизнь разработкой, которая сигнализирует о наступлении новой эры. Во-вторых, коммуникационная стратегия OpenAI, кажется, колеблется как по содержанию, так и по тону, иногда потворствуя и отвергая сенсационные слухи о компании. С одной стороны, генеральный директор Сэм Альтман задает загадочные загадки о том, достигла ли его компания Общего Искусственного Интеллекта (AGI), подразумевая, что это может либо возвестить об эре быстрого продвижения к сверхинтеллекту, либо оказать меньшее влияние, чем ожидалось. С другой стороны, Альтман и его команда часто выражают обеспокоенность растущей шумихой вокруг их работы, предполагая, что мы находимся лишь в начале новой «парадигмы» и нам предстоит проделать большую работу, прежде чем мы достигнем определенной цели.

💎 Хватит верить в сказки! В Top Crypto только проверенные монеты и реальные иксы – действуй решительно, без лишних сомнений.

Присоединиться в Telegram

С точки зрения стратегии коммуникации этот подход оказался эффективным или, по крайней мере, не помешал прогрессу. OpenAI получила значительную финансовую поддержку, включая инвестиции и совместный инфраструктурный проект, одобренный президентом Трампом. Хотя изначально Альтман считал Трампа угрозой для Америки, теперь он видит в нем пользу для страны. Такое разделение естественно для такой ориентированной на исследования компании, как OpenAI, и может даже намеренно поощряться ими.

Компания различает «пограничные» исследования, которые включают технические достижения, такие как специализированные бенчмарки, перспективные методы обучения, модели рассуждений и теоретические возможности с непредсказуемыми последствиями, и свои практические продукты, которые могут использовать люди. Первое было основным направлением освещения OpenAI в последнее время, с обсуждениями вех ИИ, потенциальных путей для AGI и ASI, требований к инфраструктуре и заманчивой перспективы автоматизации труда для инвесторов.

Несмотря на регулярные обновления их моделей и продуктов, повседневный пользовательский опыт OpenAI претерпел постепенные улучшения, а не внезапные изменения, такие как неожиданный выпуск ChatGPT в 2022 году.

В четверг компания OpenAI выпустила Operator — инструмент, призванный действовать в качестве агента, выполняя задачи онлайн от вашего имени, в попытке пересмотреть свои предложения и общий опыт.

Оператору можно поручить управление разнообразными рутинными действиями браузера, включая заполнение форм, покупку продуктов онлайн и даже создание мемов. Используя интерфейсы и инструменты, похожие на те, которые регулярно используются людьми, функциональность ИИ расширяется. Это позволяет людям экономить время на повседневных задачах и предоставляет компаниям новые способы взаимодействия с клиентами.

OpenAI опубликовала более длинную демонстрацию в видео:

Эта новая функция в Claude, похожая на «использование компьютера» Anthropic, анонсированное в прошлом году, знаменует собой первый шаг OpenAI в развивающуюся область «помощников» ИИ. Эти помощники предназначены для выполнения множества задач от имени пользователей. В настоящее время отрасль очарована этими помощниками, потому что они потенциально могут превратиться в работников ИИ, заманчивая перспектива, которая обещает значительный скачок в возможностях ИИ. Идея заключается в том, что мы начнем с программного обеспечения, которое забронирует для вас отель на основе того, что отображается на вашем экране, и в конечном итоге перейдем к программному обеспечению, которое будет выполнять всю работу автономно. Такое видение ИИ как потенциального сотрудника может стоить триллионы долларов.

OpenAI и Anthropic делают значительные шаги в направлении обработки определенных задач на основе браузера для пользователей, как это было в первые дни разработки автономных автомобилей. Хотя быстрый начальный прогресс может создать ложное впечатление немедленной готовности, сложность сети и возросшая ответственность программного обеспечения, которое может приобретать предметы или общаться от имени пользователей, требуют тщательного рассмотрения пограничных случаев, исправления ошибок и обширного тестирования, прежде чем более широкое развертывание станет реальностью. На своем текущем этапе, как сообщают тестировщики, предварительная версия Operator интригует наблюдением — она, кажется, управляет вашим экраном и выполняет такие действия, как нажатие и ввод текста, — но она остается ненадежной, медленной и склонной к путанице. Как отмечает Кейси Ньютон в Platformer, это захватывающая разработка, за которой стоит наблюдать, но все еще есть возможности для улучшения.

Моим наименее приятным знакомством с Operator было мое первое знакомство: попытка купить продукты через Instacart. Я предполагал, что он задаст мне несколько основных вопросов, таких как: Где я живу? В каком продуктовом магазине я обычно делаю покупки? Какие типы продуктов я хочу купить? Однако вместо этого он ввел меня в сложное и запутанное путешествие, сделав процесс более сложным, чем я ожидал.

Вместо того, чтобы спросить меня об этом, Operator напрямую перешел в Instacart в веб-браузере и инициировал поиск молока в продуктовых магазинах, расположенных в Де-Мойне, штат Айова.

В том случае я поручил Operator купить продукты на моем местном рынке в Сан-Франциско. Однако Operator по ошибке попытался указать адрес магазина в качестве места доставки.

После необычного разговора, в котором я пытался научить компьютер работать самостоятельно, Operator попросил о помощи. Он сообщил мне, что его местоположение по-прежнему установлено в Де-Мойне, и он не может связаться с магазином. «Есть ли у вас какие-либо особые идеи или предпочтения по изменению местоположения на Сан-Франциско, чтобы найти магазин?» — спросил он.

Значительные ресурсы и навыки вкладываются в обеспечение надежной работы этих технологий, и крупные компании, занимающиеся ИИ, выражают оптимизм. Подобно беспилотным автомобилям, программная сущность, которая управляет вашей личностью или финансами, должна постоянно работать без серьезных сбоев, поскольку менее эффективный или неисправный помощник не представляет ценности. Полезный помощник, который время от времени ошибается, становится риском. Если упрощение покупок продуктов оказывается более сложным, чем кажется, что еще может быть проблематичным?

Насколько вероятно, что подобные инструменты будут совершенствоваться и выйдут на массовый рынок, и что может произойти, если это произойдет успешно, учитывая огромные инвестиции, вкладываемые в технологию ИИ?

Как ярый энтузиаст, я очарован демонстрациями OpenAI, где их Оператор взаимодействует с цифровыми платформами способом, который кажется удивительно похожим на человеческий, хотя и медленнее и с периодическими замешательствами, как можно было бы ожидать от человека, обучающегося. Этот Оператор выполняет такие задачи, как бронирование столиков в ресторане на OpenTable, покупка продуктов и даже просмотр билетов на концерты. В настоящее время этот Оператор находится в стадии тестирования, доступной только для пользователей Pro, которые платят 200 долларов в месяц. Однако представьте себе день, когда миллионы пользователей смогут использовать этих агентов для навигации в Интернете или использования приложений — по сути, для взаимодействия с предприятиями, людьми или даже службами.

Мир вокруг них не останется статичным. Взаимодействие с помощником на базе ИИ, несомненно, отличается от взаимодействия с реальным человеком, несмотря на то, что оба сценария удовлетворяют ваши потребности. Это как разговор с человеческим секретарем по сравнению с самим человеком. Аналогично, навигация по дереву телефонов — это не то же самое, что разговор с человеком, хотя в конечном итоге вы можете получить искомую информацию. Транзакции происходят, но личного контакта не хватает — речь идет не о привлечении внимания, а о получении результатов.

На корпоративном уровне, где фокус одинаково важен, но также количественно и монетизируется, отреагирует ли OpenTable негативно, если обнаружит, что многочисленные пользователи бронируют столики через агентов, а не напрямую через их платформу? В сфере разработки продуктов OpenAI Operator служит ранней демонстрацией новых возможностей. Однако в более широком веб-контексте — в сети, в которой он должен перемещаться и взаимодействовать — его наиболее очевидными предшественниками являются инструменты для скальпирования билетов, рассылки спама и манипулирования метриками. Поскольку Operator работает через браузер, связанный с OpenAI, тестировщик Дэн Шиппер уже сообщал о проблемах, подобных этим, согласно его тестам.

Одной из потенциальных проблем является то, что на многих веб-сайтах, таких как Reddit, установлены ограничения, препятствующие навигации агентов ИИ, что делает невозможным для Operator доступ к этим платформам. Аналогично, в режиме предварительного просмотра исследования Operator не может посещать ресурсоемкие сайты, такие как Figma, или сайты конкурентов, такие как YouTube, из-за ограничений, установленных OpenAI для производительности и/или по юридическим причинам.

Другие первые пользователи столкнулись с похожими проблемами:

В попытке найти информацию о ценах на eBay с помощью вспомогательного сервиса (оператора) я намеревался внедрить ИИ в свое программное обеспечение для улучшения. К сожалению, антибот-система eBay уже определила действие как потенциально автоматизированное, в результате чего GPT отменил и сообщил мне, что не может продолжать процесс.

Эта блокировка вызвана не только появлением «агентов», но и является результатом предыдущих мер предосторожности, которые веб-сайты приняли против компаний, собирающих данные для целей обучения ИИ. По сути, сеть демонстрирует надежный защитный механизм по отношению к фирмам ИИ. Как эти сайты могут отреагировать на автоматизацию своих пользователей?

Блокировка касается не только «агентов» — это следствие более ранних действий веб-сайтов против компаний, собирающих данные для обучения ИИ. Сеть демонстрирует признаки сильного ответа на фирмы ИИ. Что произойдет, если их пользователи станут автоматизированными?

Однако более теплый подход может привести к осложнениям. Даже если партнер по электронной коммерции, готовый к сотрудничеству, принимает клиентов, использующих агентов для покупок, он, скорее всего, сочтет ситуацию как минимум странной. Компания могла бы задать вопрос OpenAI: «Почему бы не использовать более прямой подход? Если ваша цель — позволить пользователям заказывать продукты через вашего чат-бота, почему мы не можем вместо этого позволить вашему программному обеспечению просматривать наши списки продуктов менее подверженным ошибкам и расточительным образом? Возможно, мы могли бы разработать API для более плавного взаимодействия? Почему бы нам не сотрудничать, гарантируя, что оба наших продукта функционируют оптимально, и никто из нас не останется позади?

Вы можете сделать заказ на Amazon с помощью Alexa не потому, что он имитирует человеческий интеллект, а скорее из-за уникальных приспособлений и специальных инструментов, которые Amazon разработал за кулисами, чтобы связать один продукт с другим. По сути, это автоматизированные системы, которые общаются, а не имитация человеческого взаимодействия, притворяющаяся человеком в своем использовании.

OpenAI стремится к тому, чтобы другие компании активно сотрудничали с ChatGPT, глубоко интегрируя его и проактивно решая потенциальные проблемы, которые могут привести к сбою «агентов» (моделей ChatGPT) с их стороны. Это превратило бы ChatGPT в комплексный инструмент или «приложение для всего», служащее интерфейсом для всего Интернета. В 2023 году они попытались сделать это, запустив магазин приложений, но он не получил поддержки.

OpenAI может использовать две стратегии, чтобы воплотить это видение в реальность. Первая — через спрос клиентов: пользователи наслаждаются ChatGPT и Operator (потенциальный продукт), и они хотят, чтобы остальной Интернет был совместим с этими инструментами, даже если другие компании не решаются сотрудничать с OpenAI. Этот путь будет сложным и может занять много времени.

Второй подход более прост для OpenAI: заранее объявите об успехе, подчеркните, что способные агенты скоро станут обычным явлением при наличии достаточного времени и ресурсов, и поощряйте других присоединиться к усилиям сейчас, а не позже. Таким образом, они могут облегчить себе задачу, и достижение широких агентских возможностей может быть менее критичным. Инвесторы и новая администрация были убеждены этим нарративом; вопрос в том, убедит ли он и других.

Смотрите также

2025-01-25 14:14