Комментарии / Профиль ceoofmsc / Хабр

Герман Березин@ceoofmsc

ML-инженер

Подписчики

ПрофильСтатьи4ПостыНовости1Комментарии8

Прогнозирование продаж с использованием библиотеки Prophet, часть 2

ceoofmsc 10 дек 2024 в 06:30

Большое спасибо за полезную статью!!

NLP: когда машины начинают понимать нас (Часть 2)

ceoofmsc 9 дек 2024 в 21:04

Спасибо за ваш комментарий!

Хорошо, тогда обязательно рассмотрю данную тему в одной из следующих статей.

NLP: когда машины начинают понимать нас (Часть 2)

ceoofmsc 9 дек 2024 в 15:21

Спасибо за ваш комментарий!

Для того, чтобы извлекать свои сущности из необходимых документов, необходимо дообучить нашу базовую модель. В процесс обучения будут входить данные этапы:

Определение новых сущностей (ЗАТРАТЫ, ЛЕКАРСТВО и др.).
Сбор и разметка данных или использование готового датасета .
Подготовка датасета (представим наши данные в формате, который будет совместим со spaCy).
Настройка модели (добавляем новые метки сущностей)
Дообучение модели на наших данных
Тестирование нашей модели и оценка
Использование (проверим, как наша модель извлекает новые сущности из новых текстов)

Я считаю, что в данной статье нет смыла такое рассматривать, т.к. уж слишком большой скачок. Я рассказал про создание и обучение моделей на уже готовых датасетах в третьей части.

Если вам интересна тема самостоятельного сбора, разметки данных, подготовки датасета и дальнейшего обучения модели на этих данных, то я буду только рад рассказать про это в одной из следующих статей, дайте только знать интересно ли вам это.

Также я поискал уже готовые датасеты, которые могут помочь в обучении модели для дальнейшего извлечения новых меток для "определенного пита документов ".

Мед. сфера (для распознавания мед. статей): The NCBI Disease Corpus

Финансовая сфера: NTCIR-14: FinNum

Тех. сфера: Multi-Task Identification of Entities, Relations, and Coreferencefor Scientific Knowledge Graph Construction

Юридическая сфера: EUR-Lex Dataset

Общий датасет: Universal Dependencies

Если вы хотите сами попробовать обучить модель, то информация ниже может вам помочь))

Преобразование любого формата датасета в формат spaCy:

   python -m spacy convert /путьдодатасета.форматдатасета ./output -c ner

Настройка конфигурационного файла:

   python -m spacy init config config.cfg --lang ru --pipeline ner --optimize efficiency

После выполнения команды вы получите файл config.cfg с базовыми настройками для обучения модели на русском языке.

Обучение на нашем датасете:

python -m spacy train config.cfg --paths.train ./output/train.spacy --paths.dev ./output/dev.spacy --output ./model

config.cfg: Файл конфигурации, созданный на предыдущем шаге.
paths.train: Путь к вашему обучающему набору данных (выглядит +- так train.spacy).
paths.dev: Путь к вашему валидационному набору данных (выглядит +- так dev.spacy).
output ./model: Директория, куда будет сохранена обученная модель.

NLP: когда машины начинают понимать нас (Часть 2)

ceoofmsc 9 дек 2024 в 11:39

Спасибо за ваш комментарий!

Добавил извлечение других сущностей в статью. Благодарю за помощь в том, чтобы стать лучше.

NLP: когда машины начинают понимать нас (Часть 3)

ceoofmsc 9 дек 2024 в 10:49

Спасибо за ваш комментарий!

Да, это функции активации. В статье отредактировал, чтоб было понятнее.

Фреймворк имитационного обучения улучшает навыки локоманипуляции у четвероногих роботов в реальных условиях

ceoofmsc 8 дек 2024 в 13:10

Спасибо за ваш комментарий!

Фотка была взята со страницы, где опубликована полная статья (ссылка на неё есть в публикации). Тема локоманипуляции достаточно обширна для простого новостного поста, поэтому и была указана ссылка на официальный сайт команды WildLMA, где можно подробнее про неё узнать.

VALL-E 2: Нейронные кодировочные языковые модели являются синтезаторами речи с человеческим уровнем в zero-shot

ceoofmsc 7 дек 2024 в 10:07

Спасибо за ваш комментарий!

Вы правы, есть открытые проекты, такие как supervoice-vall-e-2, которые достигают впечатляющих результатов без лишнего шума. И ElevenLabs также предлагает качественные решения в области синтеза речи. Круто, что у нас есть выбор между открытыми и коммерческими инструментами, поэтому каждый может найти то, что ему подходит.

5 ИИ-инструментов для программирования, о которых вам следует знать

ceoofmsc 7 дек 2024 в 09:34

Кто-то использует ИИ в разумных целях для решения рутинных задач. И некоторые компании также разрешают своим работникам использовать ИИ, но ни в коем случае не злоупотреблять. Так что тут всё сводится к самому работнику. Хочет ли он развиваться или готов остаться на своей должности.

Информация

Специализация