Обновить
113.44

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Восходящие тренды. Дизайн как инструмент восприятия информации между машиной и человеком

Время на прочтение5 мин
Охват и читатели1.1K

Боязнь новых технологий и чувство дискомфорта перед ними у людей происходит повсеместно. Тридцать, а то и двадцать лет назад трудно себе было представить современного здорового и образованного человека, зарабатывающего через интернет, продажей каких-либо товаров или услуг. Сегодня подобная тенденция с каждым годом всё больше набирает обороты. Роботы заменяют человека во всем, но, независимо от функции всё-таки имеют четкое предназначение — помощь, комфорт и удобство. В данном случае, проявление заботы робототехникой может стать явным плюсом в наборе его основных характеристик — автономности, интеллектуальности и самостоятельности. Но, увы, тут же появляется опасность разработки такого дизайн-продукта, который может быть воспринят людьми как «отдельное социальное существо», практически равный член общества и участник коммуникационного процесса жизнедеятельности человека. В случае повсеместного распространения подобных роботов по миру, люди будут вынуждены налаживать отношения с ними и находить новые способы осваивания коммуникационных процессов в разных сферах жизнедеятельности.

Читать далее

AntiToxicBot — бот, распознающий токсичных пользователей в телеграм чатах. Немного об архитектуре нейросети бота.Часть 2

Время на прочтение2 мин
Охват и читатели5.2K

Есть известная проблема с токсичными людьми в чатах. У модераторов чатов не всегда получается отслеживать и банить токсичных людей, хотелось бы автоматизировать процесс.

В прошлой статье было мало уделено архитектуре нейросети. Цель данной статьи рассказать больше об архитектуре сети и её компонентов, который использует бот для определения токсичных сообщений.

Читать далее

gamio. Русскоязычное текстовое приключение с GPT2

Время на прочтение2 мин
Охват и читатели3.6K

Моя попытка создать аналог aidungeon, novelai, holo AI для русского языка. Хоть я и пытался сделать всё с абсолютного нуля, получилось не плохо.

В данном посте я затрону технические проблемы и расскажу про самые ранние попытки создать gamio.ru

Читать далее

Вычисление стихотворного размера

Время на прочтение8 мин
Охват и читатели31K

Привет, Хабр! Расскажу о решении нестандартной задачи: алгоритм определения силлабо-тонического стихотворного размера по строке на русском языке. Опишу все нюансы и неочевидные подводные камни, с которыми столкнулся.

Читать далее

Проблемы современного машинного обучения

Время на прочтение41 мин
Охват и читатели46K

Во многих популярных курсах машинного и глубокого обучения вас научат классифицировать собак и кошек, предсказывать цены на недвижимость, покажут еще десятки задач, в которых машинное обучение, вроде как, отлично работает. Но вам расскажут намного меньше (или вообще ничего) о тех случаях, когда ML-модели не работают так, как ожидалось.

Частой проблемой в машинном обучении является неспособность ML-моделей корректно работать на большем разнообразии примеров, чем те, что встречались при обучении. Здесь идет речь не просто о других примерах (например, тестовых), а о других типах примеров. Например, сеть обучалась на изображениях коровы, в которых чаще всего корова был на фоне травы, а при тестировании требуется корректное распознавание коровы на любом фоне. Почему ML-модели часто не справляются с такой задачей и что с этим делать – мы рассмотрим далее. Работа над этой проблемой важна не только для решения практических задач, но и в целом для дальнейшего развития ИИ.

Читать далее

Потратил 1 000 000 $, чтобы сделать свой переводчик. Продолжение истории

Время на прочтение7 мин
Охват и читатели10K

Начало этой истории тут:

https://habr.com/ru/post/492524/

 Вступление

После первой статьи мне написало несколько сотен человек. Надеюсь, ответил всем. В основном были вопросы, как заработать на мобильных приложениях, как уйти из найма в свой бизнес и т.д. Через год несколько человек сказали, что их жизнь очень изменилась в лучшую сторону. Значит, советы помогли и время было потрачено c пользой.

Если выделить самый главный совет, то он будет следующий:

Читать далее

Обзор олимпиады AIIJC 2021 и разбор задачи трека NLP

Время на прочтение5 мин
Охват и читатели5.1K

Привет, Хабр! Сегодня я хочу рассказать о своем опыте участия в соревновании Artificial Intelligence International Junior Contest и о решении моей команды, которое заняло первое место в треке NLP.

Читать далее

Новый запуск курса Natural Language Processing

Время на прочтение2 мин
Охват и читатели5.6K

TL;DR: Этой осенью сообщество Open Data Science и компания Huawei делают новый запуск курса по обработке естественного языка. Страница курса вот. Первая лекция - в среду, 14 сентября.

Читать далее

Нейролингвистика, робототехника и видеоигры: сборник статей «Наука в Сбере-2021»

Время на прочтение5 мин
Охват и читатели1.4K

Технологические прорывы часто случаются в результате совместной работы научного сообщества и бизнеса. Поэтому помимо хороших айтишников, мы приглашаем работать в Сбер учёных и инженеров. Они публикуются в научных журналах и проводят доклады на международных конференциях, которые мы решили собрать в сборник «Наука в Сбере-2021». Сегодня, в День российской науки, мы расскажем про этот сборник и сделаем мини-обзор некоторых статей. 

Читать далее

Few-Shot NER, или Как перестать размечать и начать жить

Время на прочтение8 мин
Охват и читатели16K

Всем привет! Наша команда SberIDP занимается задачей извлечения сущностей и фактов из текстовых данных. В банке исторически обрабатывается большое число неструктурированных документов и автоматизация в этой области позволяет сэкономить много времени и ресурсов, а также улучшить клиентский путь. Например, с помощью предварительной обработки документов мы ускорили выдачу кредитов до 7 минут.

Современные методы, основанные на глубинном обучении, требуют от сотен до тысяч примеров для получения приемлемого качества в задачах NER. Сегодня мы разберем направление Few-Shot, которое позволяет решать данную задачу всего лишь на нескольких примерах, и поделимся результатами наших экспериментов. Мы смогли достичь state-of-the-art результатов на датасете Few-NERD и выложили полученные веса на HuggingFace для всех желающих.

Читать далее

Четыре урока о создании инструментов для машинного обучения

Время на прочтение6 мин
Охват и читатели2.4K

Мне хотелось бы поделиться с вами одними из самых удивительных выводов о том, как создавать оснастку для машинного обучения, что необходимо для движения вперёд и почему в будущем ИИ гораздо большую роль будут играть специалисты в предметных областях.

На протяжении прошлого года Humanloop создавала новый вид инструмента для обучения и внедрения моделей natural language processing (NLP). Мы помогали командам юристов, сотрудников службы поддержки, маркетологов и разработчиков ПО быстро обучать способные понимать речь ИИ-модели, а затем мгновенно их использовать. Начали мы с применения активного обучения, чтобы снизить потребность в аннотированных данных, но при этом поняли, что требуется гораздо больше.

На самом деле нам был необходим новый набор инструментов и рабочих процессов, изначально спроектированных для решения сложных задач работы с ИИ. Ниже мы расскажем о том, чему научились.
Читать дальше →

RuCLIP tiny — быстрее, чем вы думаете

Время на прочтение2 мин
Охват и читатели5K

Совсем недавно компания Сбер представила ряд, адаптированных под русский язык, моделей машинного обучения под названием RuCLIP. Суть их работы заключается в возможности сравнения схожести текстового описания и изображения. Рассматривая результаты тестирования, мы заметили, что их модели довольно большие (150+ миллионов параметров) и при этом занимают довольно много места, связи с чем решили сделать свою маленькую, быструю и масштабируемую версию под названием RuCLIP tiny.

Читать далее

Векторное представление товаров Prod2Vec: как мы улучшили матчинг и избавились от кучи эмбеддингов

Время на прочтение5 мин
Охват и читатели22K
Привет! Меня зовут Александр, я работаю в команде матчинга Ozon. Ежедневно мы имеем дело с десятками миллионов товаров, и наша задача — поиск и сопоставление одинаковых предложений (нахождение матчей) на нашей площадке, чтобы вы не видели бесконечную ленту одинаковых товаров.
На странице любого товара на Ozon есть картинки, заголовок, описание и дополнительные атрибуты. Всю эту информацию мы хотим извлекать и обрабатывать для решения разных задач. И особенно она важна для команды матчинга. 
Чтобы извлекать признаки из товара, мы строим его векторные представления (эмбеддинги), используя различные текстовые модели (fastText, трансформеры) для описаний и заголовков и целый набор архитектур свёрточных сетей (ResNet, Effnet, NFNet) — для картинок. Далее эти векторы используются для генерации фичей и товарного сопоставления.
На Ozon ежедневно появляются миллионы обновлений — и считать эмбеддинги для всех моделей становится проблематично. А что, если вместо этого (где каждый вектор описывает отдельную часть товара) мы получим один вектор для всего товара сразу? Звучит неплохо, только как бы это грамотно реализовать…


Читать дальше →

Ближайшие события

Способы представления аудио в ML

Время на прочтение5 мин
Охват и читатели11K

В статье рассмотрены основные формы представления аудио для дальнейшего использования в различных сферах обработки данных.

Читать далее

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 3: Формальный анализ, корпуса и палеография

Время на прочтение12 мин
Охват и читатели4.4K

Пришло время вернуться к теме, отложенной из-за большого количества работы.

Напомню, в первой части был рассказ о дешифровке древнейшей греческой письменности – Линейного письма В, исчезнувшего вскоре после Троянской войны, когда у дешифровщиков не было привычных «верных помощников» - параллельных текстов на других языках или хотя бы близкородственных письменностей (был разве что очень «дальний родственник»).

Во второй части речь пошла о более древних письменностях Крита, Линейном А и иероглифах, а также родственном кипро-минойском письме о. Кипр, на которых та же методика уже не сработала, поскольку их язык (или языки) имел(и) в принципе иную структуру. Все эти письменности (вместе с дешифрованными Линейным В и кипрским греческим) в настоящее время известны как «эгейские письменности» (по месту их происхождения в бассейне Эгейского моря).

Рассказав о весьма медленном прогрессе в их изучении, мы остановились на ряде «чисто человеческих» ошибок, совершённых дешифровщиками – например, в попытках определить язык надписей. Но там, где человеческий интеллект слаб – возможно, поможет компьютерная лингвистика, если правильно поставить задачу?

Читать далее

Автоматизация обработки клиентских обращений

Время на прочтение11 мин
Охват и читатели6.8K

В этой статье мы опишем опыт внедрения нашей командой Accenture технологии машинного обучения в бизнес логистической компании 5Post со стороны обработки обращений. Мы уделим внимание не только описанию сути проекта и специфики опробованных технологий, но сделаем акцент на коммуникации с бизнесом, чтобы обеспечить максимальный эффект от проекта и опишем этот бизнес-эффект.

Читать далее

Редкий кейс: как мы учили нейросети определять болезни животных

Время на прочтение10 мин
Охват и читатели5.1K

В интернете вы легко найдете статьи о том, как нейросети помогают прогнозировать урожаи, сортировать огурцы, идентифицировать болезни растений по снимкам и еще много других применений в различных сферах и не только в сельском хозяйстве. Однако почти нет информации о том, как  нейросети помогают животным и людям по описаниям симптомов определять заболевания, чтобы вовремя предотвратить серьезные последствия для здоровья. Мы расскажем, как учили нейросеть выявлять болезни животных. Возможно, когда-то нейросети аналогичным образом смогут помогать людям, оперативно обрабатывая в различных каналах сообщения с симптомами заболевших, которые обратились за помощью при первых недомоганиях.

Читать далее

Анализ тональности текста с использованием фреймворка Lightautoml

Время на прочтение6 мин
Охват и читатели6.7K

Сентиментный анализ (анализ тональности) – это область компьютерной лингвистики, занимающаяся изучением эмоций в текстовых документах, в основе которой лежит машинное обучение.

В этой статье я покажу, как мы использовали для этих целей внутреннюю разработку компании – фреймворк LightAutoML, в котором имеется всё для решения поставленной задачи – предобученные готовые векторные представления слов FastText и готовые текстовые пресеты, в которых необходимо только указать гиперпараметры.

Задача

При возникновении трудностей в работе с автоматизированными системами внутренние клиенты оставляют обращения нейтрального или же негативного характера (положительный не учитывается по причине того, что таких обращений очень мало).

Анализ тональности текста позволит понять, что в обращении пытается донести пользователь – что-то нейтральное или негативное. Нас интересуют случаи, где напрямую описываются проблемы в автоматизированной системе и на что требуется внимание и проведение дальнейшего анализа.

Читать далее

AASIST: Аудио защита с использованием сети с интегрированным спектро-временным графом внимания

Время на прочтение16 мин
Охват и читатели2.3K

Артефакты, которые отличают подделку от реальных данных, могут находиться в спектральной или временной областях. Их надежное обнаружение обычно зависит от ансамбля сложных систем, где каждая подсистема настроена на определенные артефакты. Мы стремимся разработать единую, эффективную систему, которая может обнаруживать широкий спектр различных атак с использованием спуфинга без использования групп баллов. Мы предлагаем новый слой внимания с гетерогенным наложением графа, который моделирует артефакты, охватывающие разнородные временные и спектральные области с гетерогенным механизмом внимания и узлом стека. С новой операцией максимального графа, которая включает конкурентный механизм и расширенную схему считывания, наш подход, названный AASIST, превосходит текущее состояние дел в данной области примерно на 20%. Даже облегченный вариант, AASIST-L, всего с 85 тыс. параметров, превосходит все конкурирующие системы.

Читать далее

keyT5 или генерация ключевых слов из текста

Время на прочтение4 мин
Охват и читатели8K

Я попытался обучить русскоязычную модель ruT5-base и ruT5-large на задаче извлечения ключевых слов из текста.

Читать далее

Вклад авторов