Информация
- В рейтинге
- Не участвует
- Откуда
- Москва, Москва и Московская обл., Россия
- Зарегистрирован
- Активность
Специализация
Ученый по данным, ML разработчик
Стажёр
От 40 000 ₽
Python
Английский язык
Базы данных
Docker
Linux
NLP
PyTorch
Deep Learning
TensorFlow
Keras
Большое спасибо за полезную статью!!
Спасибо за ваш комментарий!
Хорошо, тогда обязательно рассмотрю данную тему в одной из следующих статей.
Спасибо за ваш комментарий!
Для того, чтобы извлекать свои сущности из необходимых документов, необходимо дообучить нашу базовую модель. В процесс обучения будут входить данные этапы:
Определение новых сущностей (ЗАТРАТЫ, ЛЕКАРСТВО и др.).
Сбор и разметка данных или использование готового датасета .
Подготовка датасета (представим наши данные в формате, который будет совместим со spaCy).
Настройка модели (добавляем новые метки сущностей)
Дообучение модели на наших данных
Тестирование нашей модели и оценка
Использование (проверим, как наша модель извлекает новые сущности из новых текстов)
Я считаю, что в данной статье нет смыла такое рассматривать, т.к. уж слишком большой скачок. Я рассказал про создание и обучение моделей на уже готовых датасетах в третьей части.
Если вам интересна тема самостоятельного сбора, разметки данных, подготовки датасета и дальнейшего обучения модели на этих данных, то я буду только рад рассказать про это в одной из следующих статей, дайте только знать интересно ли вам это.
Также я поискал уже готовые датасеты, которые могут помочь в обучении модели для дальнейшего извлечения новых меток для "определенного пита документов ".
Мед. сфера (для распознавания мед. статей): The NCBI Disease Corpus
Финансовая сфера: NTCIR-14: FinNum
Тех. сфера: Multi-Task Identification of Entities, Relations, and Coreferencefor Scientific Knowledge Graph Construction
Юридическая сфера: EUR-Lex Dataset
Общий датасет: Universal Dependencies
Если вы хотите сами попробовать обучить модель, то информация ниже может вам помочь))
Преобразование любого формата датасета в формат spaCy:
Настройка конфигурационного файла:
После выполнения команды вы получите файл
config.cfgс базовыми настройками для обучения модели на русском языке.Обучение на нашем датасете:
config.cfg: Файл конфигурации, созданный на предыдущем шаге.
paths.train: Путь к вашему обучающему набору данных (выглядит +- так
train.spacy).paths.dev: Путь к вашему валидационному набору данных (выглядит +- так
dev.spacy).output ./model: Директория, куда будет сохранена обученная модель.
Спасибо за ваш комментарий!
Добавил извлечение других сущностей в статью. Благодарю за помощь в том, чтобы стать лучше.
Спасибо за ваш комментарий!
Да, это функции активации. В статье отредактировал, чтоб было понятнее.
Спасибо за ваш комментарий!
Фотка была взята со страницы, где опубликована полная статья (ссылка на неё есть в публикации). Тема локоманипуляции достаточно обширна для простого новостного поста, поэтому и была указана ссылка на официальный сайт команды WildLMA, где можно подробнее про неё узнать.
Спасибо за ваш комментарий!
Вы правы, есть открытые проекты, такие как supervoice-vall-e-2, которые достигают впечатляющих результатов без лишнего шума. И ElevenLabs также предлагает качественные решения в области синтеза речи. Круто, что у нас есть выбор между открытыми и коммерческими инструментами, поэтому каждый может найти то, что ему подходит.
Кто-то использует ИИ в разумных целях для решения рутинных задач. И некоторые компании также разрешают своим работникам использовать ИИ, но ни в коем случае не злоупотреблять. Так что тут всё сводится к самому работнику. Хочет ли он развиваться или готов остаться на своей должности.