Как стать автором
Обновить

Компания Unistar Digital | Юнистар Диджитал временно не ведёт блог на Хабре

Сначала показывать

Понимают ли нейронные модели грамматику человеческого языка?

Время на прочтение11 мин
Количество просмотров2.7K

В лингвистике принято считать, что основным свойством языковой способности человека является возможность определять, насколько грамматически корректно предложение. Подобные суждения говорящих о правильности языкового высказывания получили название «оценок грамматичности/ приемлемости». Лингвисты используют суждения о грамматичности для исследования синтаксической структуры предложений.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии8

Автоматическое реферирование научных статей. Обзор работ

Время на прочтение19 мин
Количество просмотров2.6K

Задача автоматического реферирования научного текста формулируется следующим образом: на основе текста научной статьи и, возможно, некоторой другой информации о ней, например цитат и ссылок на эту статью, содержащихся в других работах, требуется породить с помощью алгоритмов автоматической обработки текста небольшой сжатый реферат, который при этом будет максимально точно и полно передавать основные идеи, методы и результаты, описанные в статье.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Создание интеллектуальной вопросно-ответной системы

Время на прочтение6 мин
Количество просмотров4.6K

В последнее время все больше крупных компаний выделяют свои ресурсы на создание искусственных диалоговых помощников (Алиса от Яндекса, Ассистенты Салют от Сбер и др). С такими системами можно, хоть и не в полной мере, поддерживать диалог. Ассистенты умеют выполнять простые команды: ставить таймер или будильник, вызывать такси, управлять умным домом. Но в то же время разработка таких систем стоит больших денег, а также ресурсов на поддержку. В большинстве своем многим предприятиям не требуется, чтобы система умела поддерживать диалог, а просто отвечала на конкретный вопрос. Аналог современных вопросно-ответных систем появился в 60-х годах XX века и назывался экспертными системами. Экспертная система включала в себя оболочку на естественном языке и позволяла задавать вопросы на узкую тематику. С развитием методов обработки естественного языка вопросно-ответные системы стало возможным выделить в отдельный класс и не акцентировать их под решение специализированной задачи. В статье описан процесс создания вопросно-ответной системы, в частности, с какими трудностями пришлось столкнуться, какие технологии использовались, и приведен реальный пример практического использования на базе поступающих заявок в Приемную комиссию МТУСИ.

Читать далее
Всего голосов 6: ↑4 и ↓2+4
Комментарии0

Что такое тезаурус и как определить семантическое сходство слов

Время на прочтение7 мин
Количество просмотров12K

При разработке чат-ботов и голосовых ассистентов часто возникает задача нахождения семантического сходства слов. Причина тому – наличие в языке большого количества схожих по смыслу слов и выражений.

Читать далее
Всего голосов 17: ↑17 и ↓0+17
Комментарии5

Автоматическое реферирование текстов. Обзор работ

Время на прочтение13 мин
Количество просмотров6.6K

Я думаю, многим знакома ситуация, когда в сжатые сроки необходимо ознакомиться с большим объёмом текстов – статей, обзоров, сюжетов, отзывов и так далее. Читать их все от начала и до конца слишком напряжно, не правда ли? И здесь на помощь приходят рефераты – краткие выжимки текстов, содержащие только самое главное и важное. Написанием рефератов занимаются зачастую эксперты, однако такая работа требует немало времени и усилий. Кроме того, труд экспертов должен, само собой, оплачиваться. Решение – применять методы автоматического реферирования текстов (Automatic Summarization), то есть порождать рефераты с помощью специальных компьютерных программ. В этой статье мы познакомимся с некоторыми наиболее распространёнными подходами к решению данной задачи.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Истории

Алгоритм обучения CBOW архитектуры для векторизации слов

Время на прочтение5 мин
Количество просмотров5.3K

В этой статье подробно разбирается алгоритм обучения архитектуры CBOW (Continuous Bag of Words), которая появилась в 2013 году и дала сильный толчок в решении задачи векторного представления слов, т.к. в первый раз на практике использовался подход на основе нейронных сетей. Архитектура CBOW не столь требовательна к наличию GPU и вполне может обучаться на ЦП (хотя и более медленно). Большие готовые модели, обученные на википедии или новостных сводках, вполне могут работать на 4-х ядерном процессоре, показывая приемлемое время отклика.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии3

Автоматический синтез речи: взгляд лингвиста

Время на прочтение8 мин
Количество просмотров3.7K

Что первым придет в голову, если перед нами встанет задача автоматического порождения речи по тексту? Вероятнее всего, мы позаботимся о расстановке пауз между словами, постараемся правильно выбрать интонацию фразы и расставить смысловые акценты. Обязательно построим фонетическую транскрипцию: орфография и произношение далеко не всегда однозначно соответствуют друг другу, о чем компьютер не узнает без нашей помощи.  Полученную транскрипцию переведем в цифровой сигнал, который затем преобразуем в звуковые колебания. 

Читать далее
Всего голосов 8: ↑6 и ↓2+7
Комментарии4