Обновить
2
0
Герман Березин@ceoofmsc

ML-инженер

Отправить сообщение

Большое спасибо за полезную статью!!

Спасибо за ваш комментарий!

Хорошо, тогда обязательно рассмотрю данную тему в одной из следующих статей.

Спасибо за ваш комментарий!

Для того, чтобы извлекать свои сущности из необходимых документов, необходимо дообучить нашу базовую модель. В процесс обучения будут входить данные этапы:

  1. Определение новых сущностей (ЗАТРАТЫ, ЛЕКАРСТВО и др.).

  2. Сбор и разметка данных или использование готового датасета .

  3. Подготовка датасета (представим наши данные в формате, который будет совместим со spaCy).

  4. Настройка модели (добавляем новые метки сущностей)

  5. Дообучение модели на наших данных

  6. Тестирование нашей модели и оценка

  7. Использование (проверим, как наша модель извлекает новые сущности из новых текстов)

Я считаю, что в данной статье нет смыла такое рассматривать, т.к. уж слишком большой скачок. Я рассказал про создание и обучение моделей на уже готовых датасетах в третьей части.

Если вам интересна тема самостоятельного сбора, разметки данных, подготовки датасета и дальнейшего обучения модели на этих данных, то я буду только рад рассказать про это в одной из следующих статей, дайте только знать интересно ли вам это.

Также я поискал уже готовые датасеты, которые могут помочь в обучении модели для дальнейшего извлечения новых меток для "определенного пита документов ".

Мед. сфера (для распознавания мед. статей): The NCBI Disease Corpus

Финансовая сфера: NTCIR-14: FinNum

Тех. сфера: Multi-Task Identification of Entities, Relations, and Coreferencefor Scientific Knowledge Graph Construction

Юридическая сфера:  EUR-Lex Dataset

Общий датасет: Universal Dependencies

Если вы хотите сами попробовать обучить модель, то информация ниже может вам помочь))

Преобразование любого формата датасета в формат spaCy:

   python -m spacy convert /путьдодатасета.форматдатасета ./output -c ner

Настройка конфигурационного файла:

   python -m spacy init config config.cfg --lang ru --pipeline ner --optimize efficiency

После выполнения команды вы получите файл config.cfg с базовыми настройками для обучения модели на русском языке.

Обучение на нашем датасете:

python -m spacy train config.cfg --paths.train ./output/train.spacy --paths.dev ./output/dev.spacy --output ./model
  • config.cfg: Файл конфигурации, созданный на предыдущем шаге.

  • paths.train: Путь к вашему обучающему набору данных (выглядит +- так train.spacy).

  • paths.dev: Путь к вашему валидационному набору данных (выглядит +- так dev.spacy).

  • output ./model: Директория, куда будет сохранена обученная модель.

Спасибо за ваш комментарий!

Добавил извлечение других сущностей в статью. Благодарю за помощь в том, чтобы стать лучше.

Спасибо за ваш комментарий!

Да, это функции активации. В статье отредактировал, чтоб было понятнее.

Спасибо за ваш комментарий!

Фотка была взята со страницы, где опубликована полная статья (ссылка на неё есть в публикации). Тема локоманипуляции достаточно обширна для простого новостного поста, поэтому и была указана ссылка на официальный сайт команды WildLMA, где можно подробнее про неё узнать.

Спасибо за ваш комментарий!

Вы правы, есть открытые проекты, такие как supervoice-vall-e-2, которые достигают впечатляющих результатов без лишнего шума. И ElevenLabs также предлагает качественные решения в области синтеза речи. Круто, что у нас есть выбор между открытыми и коммерческими инструментами, поэтому каждый может найти то, что ему подходит.

Кто-то использует ИИ в разумных целях для решения рутинных задач. И некоторые компании также разрешают своим работникам использовать ИИ, но ни в коем случае не злоупотреблять. Так что тут всё сводится к самому работнику. Хочет ли он развиваться или готов остаться на своей должности.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность

Специализация

Ученый по данным, ML разработчик
Стажёр
От 40 000 ₽
Python
Английский язык
Базы данных
Docker
Linux
NLP
PyTorch
Deep Learning
TensorFlow
Keras