Новости AI: OpenAI запускает новый тест для анализа фактов искусственного интеллекта

Как опытный аналитик с более чем двадцатилетним опытом работы в технологической отрасли, я должен признать, что последний шаг OpenAI с SimpleQA весьма интригует. Сосредоточение внимания на фактах и ​​уменьшении галлюцинаций — это столь необходимый шаг на пути к восстановлению доверия к языковым моделям искусственного интеллекта, которые страдают от проблем с неправильной или вводящей в заблуждение информацией.

🚀 Пристегнись – взлёт начинается! В Ракете новости летят так быстро, что ты успеешь только моргнуть. Лови космический экспресс!

Присоединиться в Telegram

Известная компания OpenAI, занимающаяся искусственным интеллектом, недавно представила SimpleQA — метрику для оценки точности ответов, предоставляемых языковыми моделями при ответах на короткие, основанные на фактах запросы. По сути, этот инструмент предназначен для оценки того, насколько хорошо эти модели могут отвечать на вопросы, связанные с поиском фактов, и он представляет собой еще одну попытку OpenAI восстановить доверие к своим основным предложениям продуктов.

SimpleQA превосходит пограничные модели

Системы искусственного интеллекта часто испытывают трудности с обеспечением того, чтобы их ответы были основаны на точных фактах в процессе обучения модели.

На этом этапе эти модели иногда дают неверные результаты или реагируют без веских доказательств. Эта проблема широко известна как «галлюцинация». В результате пользователи Интернета склонны отдавать предпочтение тем моделям, которые дают более точные ответы и имеют меньше случаев галлюцинаций.

OpenAI решила создать тест SimpleQA, который оценивает языковые модели на основе их фактической точности. Эта цель считается сложной, поскольку, как отмечает компания, определение фактов может быть затруднено. В конструкции SimpleQA основное внимание уделяется кратким вопросам для установления фактов, тем самым сужая объем теста и упрощая измерение фактичности.

Группа, работавшая над созданием эталонного теста, сосредоточилась на достижении высокого уровня точности, разнообразия и удобства для исследователей. В отличие от более ранних решений, таких как TriviaQA, которые достигли насыщения, SimpleQA от OpenAI был специально разработан для тестирования новейших моделей, таких как GPT-4o, которые в настоящее время имеют показатель ниже 40%. Во время разработки этого инструмента искусственного интеллекта команда следила за тем, чтобы каждый вопрос в наборе данных соответствовал конкретным стандартам.

Чтобы гарантировать высокое качество ответов, мы попросили другого ИИ, обученного другой командой, случайным образом проверить 1000 вопросов из нашего набора данных. Мы заметили, что ответы этого третьего ИИ совпадали с первоначальными примерно в 94,4% случаев, а разногласия наблюдались примерно в 5,6% случаев.

Оценка OpenAI выросла до $157 млрд

В начале октября стоимость компании, занимающейся искусственным интеллектом, превысила 157 миллиардов долларов благодаря инвестициям в размере 6,6 миллиардов долларов от различных спонсоров. Среди этих инвесторов были Thrive Capital, которая возглавила раунд финансирования, корпорация Microsoft и компания NVIDIA, занимающаяся искусственным интеллектом. Быстрый рост этой фирмы под руководством Сэма Альтмана в первую очередь обусловлен ее стремлением усилить свое присутствие в передовых исследованиях в области искусственного интеллекта.

Через неделю после успешного сбора средств компания объявила о своих планах расширения, открыв новые филиалы в США, Франции и Азии, что стало еще одной важной вехой в глобальном масштабе.

Наши офисы будут открыты в Нью-Йорке, Сиэтле, Париже, Брюсселе и Сингапуре, а также присоединятся к уже имеющимся офисам в Сан-Франциско, Лондоне, Дублине и Токио. Решение о внедрении SimpleQA является частью агрессивной стратегии расширения продукта, которая была вызвана ростом оценочной стоимости OpenAI.

 

Смотрите также

2024-10-30 23:38