Улучшение качества данных посредством коллективного обнаружения ошибок и творческого решения проблем

Как аналитик с более чем двадцатилетним опытом работы в технологической отрасли, я своими глазами видел проблемы, с которыми сталкиваются отрасли из-за неточных, повторяющихся и неполных данных. Появление искусственного интеллекта должно было решить эти проблемы, но, как мы все знаем, ни одна технология не идеальна.

📢 Фильтры оставь дома! В Новости Сегодня подают только факты без приукрас – если хочешь знать правду, без фейковых заголовков.

Присоединиться в Telegram

Постоянная проблема неправильных, повторяющихся и недостаточных данных сохраняется в различных отраслях. Искусственный интеллект (ИИ) используется в качестве решения, однако он также имеет свой набор ограничений. Иногда данные, используемые ИИ, могут быть неправильно классифицированы или просто неприменимы.

Fraction AI прокладывает путь в маркировке данных, объединяя быстроту искусственного интеллекта с человеческой интуицией. Фирма только что завершила раунд предварительного финансирования в размере 6 миллионов долларов, который совместно возглавили Symbolic и Spartan, а также стратегические инвестиции от Ильи Полосухина (Near), Сандипа Найвала (Polygon) и других ведущих инвесторов-ангелов.

Как аналитик, я рад обсудить наше инновационное решение Fraction AI. В отличие от традиционных методов, которые полагаются исключительно на искусственный интеллект или вмешательство человека, мы идем по новому пути, используя человеческую интуицию для управления нашими агентами ИИ. Средства, полученные в результате этого раунда, будут способствовать более глубокому изучению исследований, лежащих в основе этого подхода, и модернизации нашей инфраструктуры для обеспечения ее масштабируемости. Этот гибридный метод, эффективность которого доказана тщательными исследованиями, обещает решить растущую проблему более эффективного получения высококачественных данных.

Представляем геймифицированные состязательные подсказки

Ученые, работающие с данными, показали, что использование GAP (геймифицированные состязательные подсказки) значительно повышает производительность современных моделей ИИ за счет создания более эффективных наборов данных. Система GAP работает путем сбора высококачественных данных в ходе игры, что делает сбор данных приятным занятием для игроков. Этот процесс побуждает участников задавать сложные, подробные вопросы и ответы, которые помогают расширить базу знаний о моделях ИИ.

Проще говоря, Fraction AI мотивирует агентов ИИ генерировать первоклассные данные, проводя соревнования в реальном времени. Разработчики разрабатывают и активируют эти агенты в соответствии с конкретными рекомендациями, стремясь к достижению наилучших результатов. Базовая система поддерживается Эфиром, который служит ее экономической основой. Участники получают экономическое вознаграждение, что приводит к постоянному притоку полезных тренировочных данных.

Текущие проблемы с качеством данных

Неэффективные данные, отмеченные такими ошибками, как имена с ошибками, неправильные адреса или общие ошибки ввода, могут стоить организациям значительную сумму, часто достигающую десятков миллионов долларов в год. Независимо от того, вызвана ли это человеческой ошибкой или техническими сбоями, неточные данные являются проблематичными, поскольку они приводят к несоответствиям, которые нарушают любой значимый анализ.

При объединении данных из нескольких источников часто могут возникнуть идентичные наборы данных. Например, если мы рассмотрим сценарии розничной торговли, вы можете собрать списки клиентов с двух разных платформ и обнаружить некоторых людей, которые совершили покупки в обоих магазинах. Эти повторяющиеся записи могут вызвать проблемы, поскольку вы стремитесь подсчитать каждого клиента только один раз.

Объединение данных из двух разных источников может привести к расхождениям в форматировании. Эти нарушения в перекрестных источниках потенциально могут создать серьезные проблемы с качеством данных, если не будут своевременно обнаружены и устранены.

Часто встречаются две проблемы: неполные данные и так называемые «темные» или скрытые данные. Неполные данные относятся к записям, в которых отсутствуют важные детали, такие как номера телефонов без кодов городов или демографическая информация без возрастных данных. С другой стороны, «темные данные» — это тип данных, которые собираются и хранятся, но остаются неиспользованными и неиспользованными. Например, IBM предполагает, что примерно 90% всех данных датчиков, собранных с устройств Интернета вещей, остаются неиспользованными. Этот игнорируемый ресурс составляет более половины общих расходов средней организации на хранение данных, причем многие организации не знают о его существовании.

Человеческое понимание способствует улучшению

GAP служит образовательным ресурсом, вдохновляющим людей расширять границы возможностей искусственного интеллекта. Прося участников выявить ошибки или несоответствия в наборах данных или результатах ИИ, это способствует обнаружению ошибок. Учитывая широкий спектр опыта пользователей, он облегчает выявление предубеждений, которые отдельная команда разработчиков может упустить из виду из-за своего ограниченного кругозора.

Включение игровой механики мотивирует людей мыслить творчески, решая проблемы и загадки, которые расширяют границы возможностей данных и моделей. Поступая таким образом, игроки могут открывать новые варианты использования, выявлять предвзятые результаты и предлагать более разнообразные решения, тем самым сводя к минимуму системные предвзятости в данных и моделях. Это приводит к созданию более справедливой базы для различных типов приложений. Кроме того, участники будут предупреждены о ранее упущенных из виду несоответствиях данных, поскольку они будут вознаграждены за обнаружение ошибок. Потенциальное вознаграждение за обнаружение серьезных недостатков может быть существенным, что снижает вероятность возникновения непредвиденных проблем или недостатков в реальных реализациях.

Благодаря развитию технологий большее количество людей может одновременно участвовать в многопользовательских игровых сессиях. Такое массовое участие способствует быстрому прогрессу, поскольку увеличение объема данных способствует быстрому обнаружению уязвимостей.

Темная сторона творчества

Творческое решение проблем не обязательно должно быть направлено на общественное благо. Награды будут основной мотивацией для некоторых пользователей, что приведет к чрезмерному сосредоточению на них внимания. Если пойти еще дальше, то вполне разумно ожидать, что злоумышленники попытаются обмануть систему, а платформам потребуется развернуть механизмы для обнаружения и блокировки вредоносных действий. Примером может служить использование искусственного интеллекта и статистических моделей для мониторинга моделей поведения пользователей, выявления аномалий, указывающих на рассылку спама или необычных моделей отправки. Необычно высокие показатели отправки или повторяющиеся шаблоны сообщений от одного пользователя могут быть отмечены для проверки.

Проще говоря, система GAP может оценивать пользователей в соответствии с их прошлыми вкладами. Чтобы свести к минимуму возможность неправильного использования на начальном этапе, лучше всего, чтобы недавно зарегистрированные пользователи не имели большого веса, пока они не заработают репутацию надежных людей.

В конечном итоге некоторые пользователи могут помечать контент случайным образом. Чтобы это не повлияло на целостность данных, платформам, использующим GAP (обобщенный состязательный процесс), возможно, придется интегрировать человеческих аналитиков или искусственный интеллект для фильтрации случаев, когда помечается полезная и точная информация.

Обеспечение качества данных в качестве основного направления

Принимая участие, люди могут быть мотивированы выявлять неверные метки или ненужные данные в базах данных ИИ, тем самым повышая точность и эффективность систем машинного обучения и искусственного интеллекта. Кроме того, геймификация может повысить точность и полноту наборов данных с открытым исходным кодом, таких как Wikipedia и OpenStreetMap. Такое обнаружение дезинформации в режиме реального времени приведет к повышению надежности репозиториев в целом.

Внедрение системы GAP (Общего подхода к равенству) может помочь более эффективно справляться с оскорбительным, предвзятым или неприемлемым контентом. Например, такие платформы, как Reddit или YouTube, могут использовать этот метод для быстрого обнаружения и удаления такого сомнительного контента со своих сайтов.

Смотрите также

2024-12-19 16:04