Unistar Digital | Юнистар Диджитал, Москва - Управление знаниями и разговорный ИИ / Статьи / Хабр

Компания Unistar Digital | Юнистар Диджитал временно не ведёт блог на Хабре

Xeanst 20 окт 2022 в 13:00

Понимают ли нейронные модели грамматику человеческого языка?

11 мин

2.5K

Блог компании Unistar Digital | Юнистар ДиджиталPython*Машинное обучение*Искусственный интеллектNatural Language Processing*

В лингвистике принято считать, что основным свойством языковой способности человека является возможность определять, насколько грамматически корректно предложение. Подобные суждения говорящих о правильности языкового высказывания получили название «оценок грамматичности/ приемлемости». Лингвисты используют суждения о грамматичности для исследования синтаксической структуры предложений.

diana_dev 13 окт 2022 в 13:09

Автоматическое реферирование научных статей. Обзор работ

19 мин

2.3K

Блог компании Unistar Digital | Юнистар ДиджиталСемантика*Natural Language Processing*

Задача автоматического реферирования научного текста формулируется следующим образом: на основе текста научной статьи и, возможно, некоторой другой информации о ней, например цитат и ссылок на эту статью, содержащихся в других работах, требуется породить с помощью алгоритмов автоматической обработки текста небольшой сжатый реферат, который при этом будет максимально точно и полно передавать основные идеи, методы и результаты, описанные в статье.

Weshid 30 сен 2022 в 13:04

Создание интеллектуальной вопросно-ответной системы

6 мин

3.9K

Блог компании Unistar Digital | Юнистар ДиджиталСемантика*Машинное обучение*Natural Language Processing*

В последнее время все больше крупных компаний выделяют свои ресурсы на создание искусственных диалоговых помощников (Алиса от Яндекса, Ассистенты Салют от Сбер и др). С такими системами можно, хоть и не в полной мере, поддерживать диалог. Ассистенты умеют выполнять простые команды: ставить таймер или будильник, вызывать такси, управлять умным домом. Но в то же время разработка таких систем стоит больших денег, а также ресурсов на поддержку. В большинстве своем многим предприятиям не требуется, чтобы система умела поддерживать диалог, а просто отвечала на конкретный вопрос. Аналог современных вопросно-ответных систем появился в 60-х годах XX века и назывался экспертными системами. Экспертная система включала в себя оболочку на естественном языке и позволяла задавать вопросы на узкую тематику. С развитием методов обработки естественного языка вопросно-ответные системы стало возможным выделить в отдельный класс и не акцентировать их под решение специализированной задачи. В статье описан процесс создания вопросно-ответной системы, в частности, с какими трудностями пришлось столкнуться, какие технологии использовались, и приведен реальный пример практического использования на базе поступающих заявок в Приемную комиссию МТУСИ.

Xeanst 8 сен 2022 в 13:53

Что такое тезаурус и как определить семантическое сходство слов

7 мин

11K

Блог компании Unistar Digital | Юнистар ДиджиталPython*Семантика*Natural Language Processing*Голосовые интерфейсы*

При разработке чат-ботов и голосовых ассистентов часто возникает задача нахождения семантического сходства слов. Причина тому – наличие в языке большого количества схожих по смыслу слов и выражений.

+17

diana_dev 26 авг 2022 в 15:20

Автоматическое реферирование текстов. Обзор работ

13 мин

Блог компании Unistar Digital | Юнистар ДиджиталСемантика*Математика*Машинное обучение*Natural Language Processing*

Я думаю, многим знакома ситуация, когда в сжатые сроки необходимо ознакомиться с большим объёмом текстов – статей, обзоров, сюжетов, отзывов и так далее. Читать их все от начала и до конца слишком напряжно, не правда ли? И здесь на помощь приходят рефераты – краткие выжимки текстов, содержащие только самое главное и важное. Написанием рефератов занимаются зачастую эксперты, однако такая работа требует немало времени и усилий. Кроме того, труд экспертов должен, само собой, оплачиваться. Решение – применять методы автоматического реферирования текстов (Automatic Summarization), то есть порождать рефераты с помощью специальных компьютерных программ. В этой статье мы познакомимся с некоторыми наиболее распространёнными подходами к решению данной задачи.

Weshid 11 авг 2022 в 14:16

Алгоритм обучения CBOW архитектуры для векторизации слов

5 мин

4.4K

Блог компании Unistar Digital | Юнистар ДиджиталСемантика*Математика*Машинное обучение*Natural Language Processing*

В этой статье подробно разбирается алгоритм обучения архитектуры CBOW (Continuous Bag of Words), которая появилась в 2013 году и дала сильный толчок в решении задачи векторного представления слов, т.к. в первый раз на практике использовался подход на основе нейронных сетей. Архитектура CBOW не столь требовательна к наличию GPU и вполне может обучаться на ЦП (хотя и более медленно). Большие готовые модели, обученные на википедии или новостных сводках, вполне могут работать на 4-х ядерном процессоре, показывая приемлемое время отклика.

Xeanst 29 июл 2022 в 13:30

Автоматический синтез речи: взгляд лингвиста

8 мин

3.5K

Блог компании Unistar Digital | Юнистар ДиджиталСемантика*Машинное обучение*Natural Language Processing*Голосовые интерфейсы*

Что первым придет в голову, если перед нами встанет задача автоматического порождения речи по тексту? Вероятнее всего, мы позаботимся о расстановке пауз между словами, постараемся правильно выбрать интонацию фразы и расставить смысловые акценты. Обязательно построим фонетическую транскрипцию: орфография и произношение далеко не всегда однозначно соответствуют друг другу, о чем компьютер не узнает без нашей помощи. Полученную транскрипцию переведем в цифровой сигнал, который затем преобразуем в звуковые колебания.