Почему важна разметка данных: в основе ChatGPT лежит труд людей / Хабр

Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.

Предисловие: ChatGPT и его влияние

ChatGPT — это генеративный предобученный трансформер (Generative Pre-trained Transformer, GPT), разработанный OpenAI. Первая его версия появилась в 2019 году, быстро обретя популярность благодаря способности генерации напоминающих человеческие ответы на текстовые промты. Модель была обучена на огромном датасете из более чем восьми миллионов веб-страниц, что позволило ей изучить нюансы языков и генерировать ответы, которые часто неотличимы от человеческих.

Успех ChatGPT имел глубокое влияние на сферу ИИ, продемонстрировав мощь предварительно обученных на крупных датасетах моделей и вдохновив исследователей и инженеров на исследование потенциала моделей на основе GPT в широком спектре применений. Кроме того, он привлёк внимание медиа, что позволило нам лучше понять потенциал использования ИИ в обществе.

Разметка данных: ключ к успеху ChatGPT

Однако несмотря на то, что успех ChatGPT часто связывают с его современными технологиями, люди часто недооценивают человеческие усилия, приложенные к созданию модели. Важнейшим аспектом этого процесса была разметка данных — процесс аннотирования крупных датасетов содержательной информацией.

Разметка данных играет критически важную роль в разработке языковых моделей наподобие ChatGPT, поскольку помогает модели понять взаимосвязи между разными словами и понятиями в тексте. Без разметки данных модель испытывала бы трудности с пониманием контекста промта и с генерацией соответствующего ответа.

Для обучения ChatGPT компания OpenAI использовала труд команды аннотаторов, размечавших огромный датасет из более чем восьми миллионов веб-страниц. Этот процесс заключается в чтении огромных объёмов текста и в аннотировании его информацией о взаимосвязях различных слов и понятий. Затем эта информация применяется для тонкой настройки модели, позволяющей ей генерировать ответы, напоминающие человеческие.

Вот несколько примеров типов аннотаций, необходимых для обучения модели наподобие ChatGPT:

Распознавание именованных сущностей (Named Entity Recognition, NER): выявление и разметка в тексте именованных сущностей, например, людей, организаций, мест и событий.
Разметка частей речи (Part-of-Speech Tagging, POS): разметка частей речи для каждого слова в тексте, например, существительных, глаголов, прилагательных и так далее.
Анализ эмоционального настроя (Sentiment Analysis): разметка эмоционального настроя, выраженного в тексте, например, положительного, отрицательного или нейтрального.
Разрешение кореференции (Coreference Resolution): выявление и разрешение отсылок на сущности в тексте, например, когда местоимение относится к ранее упомянутой сущности.
Выявление взаимосвязей (Relationship Identification): выявление взаимосвязей между сущностями в тексте, например, «Джон работает CEO в компании XYZ».

Такие аннотации обеспечивают модели глубокое понимание взаимосвязей между словами и понятиями в тексте, позволяя ей генерировать ответы, более близкие к человеческим. Труд аннотаторов по созданию этих аннотаций был очень важен для успеха ChatGPT, он подчёркивает важность человеческого труда в разработке современных моделей ИИ.

Важность человеческого труда в разработке ИИ

Важность разметки данных в разработке ChatGPT подчёркивает критичность применения человеческого труда в создании моделей ИИ. Хотя ИИ имеет потенциал автоматизации множества задач, разработка современных моделей наподобие ChatGPT требует работы опытной команды аннотаторов, инженеров и исследователей.

По-прежнему ли важен труд человека в разработке ChatGPT?

Роль человеческого труда в разработке ChatGPT далеко не исчерпана. Хотя модель существенно развила свои способности в генерации ответов, похожих на человеческие, всё равно существуют области, в которых для совершенствования и улучшения модели по-прежнему требуется человеческий опыт; особенно это справедливо для специализированных предметных областей и языков.

Например, люди могут предоставлять критическую обратную связь о результатах работы модели, помогая выявлять и устранять ошибки и перекосы. Живых аннотаторов также можно использовать для создания новых датасетов, позволяющих модели обучаться новым понятиям и взаимосвязям, ещё сильнее расширяя её возможности. Кроме того, людей можно привлекать к валидации результатов работы модели и проверке её соответствия этическим и моральным стандартам, например, отсутствию генерации вредного или оскорбительного содержимого. Эти примеры показывают, что роль человеческого опыта в разработке и совершенствовании ChatGPT остаётся критически важным компонентом его успеха.

Заключение

Хотя успех ChatGPT часто связывают с его современными технологиями, не стоит недооценивать человеческий труд, приложенный к созданию модели. Разметка данных — критически важный аспект разработки модели, а работа аннотаторов была играла важную роль в осознании моделью взаимосвязей между различными словами и понятиями в тексте. Важность человеческого труда в разработке ИИ подчёркивает необходимость непрерывного взаимодействия между людьми и машинами в процессе исследования потенциала ИИ во влиянии на общество.

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале.

Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Как работать с синтетическими данными в 2024 году?
В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

Почему важна разметка данных: в основе ChatGPT лежит труд людей