Все потоки

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

sveta_pavlos 21 фев 2022 в 11:09

Восходящие тренды. Дизайн как инструмент восприятия информации между машиной и человеком

5 мин

1.1K

Big Data * Data Engineering * Data Mining * IT-компанииNatural Language Processing *

Из песочницы

Боязнь новых технологий и чувство дискомфорта перед ними у людей происходит повсеместно. Тридцать, а то и двадцать лет назад трудно себе было представить современного здорового и образованного человека, зарабатывающего через интернет, продажей каких-либо товаров или услуг. Сегодня подобная тенденция с каждым годом всё больше набирает обороты. Роботы заменяют человека во всем, но, независимо от функции всё-таки имеют четкое предназначение — помощь, комфорт и удобство. В данном случае, проявление заботы робототехникой может стать явным плюсом в наборе его основных характеристик — автономности, интеллектуальности и самостоятельности. Но, увы, тут же появляется опасность разработки такого дизайн-продукта, который может быть воспринят людьми как «отдельное социальное существо», практически равный член общества и участник коммуникационного процесса жизнедеятельности человека. В случае повсеместного распространения подобных роботов по миру, люди будут вынуждены налаживать отношения с ними и находить новые способы осваивания коммуникационных процессов в разных сферах жизнедеятельности.

Читать далее

-3

DenisIndenbom 18 фев 2022 в 20:16

AntiToxicBot — бот, распознающий токсичных пользователей в телеграм чатах. Немного об архитектуре нейросети бота.Часть 2

2 мин

5.2K

Python * Natural Language Processing *

Есть известная проблема с токсичными людьми в чатах. У модераторов чатов не всегда получается отслеживать и банить токсичных людей, хотелось бы автоматизировать процесс.

В прошлой статье было мало уделено архитектуре нейросети. Цель данной статьи рассказать больше об архитектуре сети и её компонентов, который использует бот для определения токсичных сообщений.

Читать далее

+2

0x7o 18 фев 2022 в 13:50

gamio. Русскоязычное текстовое приключение с GPT2

2 мин

3.6K

Python * Машинное обучение * Искусственный интеллектNatural Language Processing * Программирование *

Моя попытка создать аналог aidungeon, novelai, holo AI для русского языка. Хоть я и пытался сделать всё с абсолютного нуля, получилось не плохо.

В данном посте я затрону технические проблемы и расскажу про самые ранние попытки создать gamio.ru

Читать далее

+3

Enfriz 14 фев 2022 в 10:33

Вычисление стихотворного размера

8 мин

31K

Программирование * .NET * Алгоритмы * C# * Natural Language Processing *

Привет, Хабр! Расскажу о решении нестандартной задачи: алгоритм определения силлабо-тонического стихотворного размера по строке на русском языке. Опишу все нюансы и неочевидные подводные камни, с которыми столкнулся.

Читать далее

+87

boygenius 14 фев 2022 в 10:30

Проблемы современного машинного обучения

41 мин

46K

Блог компании Open Data ScienceМашинное обучение * Научно-популярноеИскусственный интеллектNatural Language Processing *

Технотекст 2021

Во многих популярных курсах машинного и глубокого обучения вас научат классифицировать собак и кошек, предсказывать цены на недвижимость, покажут еще десятки задач, в которых машинное обучение, вроде как, отлично работает. Но вам расскажут намного меньше (или вообще ничего) о тех случаях, когда ML-модели не работают так, как ожидалось.

Частой проблемой в машинном обучении является неспособность ML-моделей корректно работать на большем разнообразии примеров, чем те, что встречались при обучении. Здесь идет речь не просто о других примерах (например, тестовых), а о других типах примеров. Например, сеть обучалась на изображениях коровы, в которых чаще всего корова был на фоне травы, а при тестировании требуется корректное распознавание коровы на любом фоне. Почему ML-модели часто не справляются с такой задачей и что с этим делать – мы рассмотрим далее. Работа над этой проблемой важна не только для решения практических задач, но и в целом для дальнейшего развития ИИ.

Читать далее

+102

Aliaksei_Rudak 14 фев 2022 в 07:16

Потратил 1 000 000 $, чтобы сделать свой переводчик. Продолжение истории

7 мин

10K

Проектирование API * Локализация продуктов * Growth Hacking * Развитие стартапаNatural Language Processing *

Начало этой истории тут:

https://habr.com/ru/post/492524/

Вступление

После первой статьи мне написало несколько сотен человек. Надеюсь, ответил всем. В основном были вопросы, как заработать на мобильных приложениях, как уйти из найма в свой бизнес и т.д. Через год несколько человек сказали, что их жизнь очень изменилась в лучшую сторону. Значит, советы помогли и время было потрачено c пользой.

Если выделить самый главный совет, то он будет следующий:

Читать далее

+33

vladimir_vorobev 10 фев 2022 в 14:29

Обзор олимпиады AIIJC 2021 и разбор задачи трека NLP

5 мин

5.1K

Блог компании OTUSМашинное обучение * Искусственный интеллектNatural Language Processing *

Привет, Хабр! Сегодня я хочу рассказать о своем опыте участия в соревновании Artificial Intelligence International Junior Contest и о решении моей команды, которое заняло первое место в треке NLP.

Читать далее

+14

madrugado 9 фев 2022 в 11:18

Новый запуск курса Natural Language Processing

2 мин

5.6K

Блог компании Open Data ScienceМашинное обучение * Искусственный интеллектNatural Language Processing *

TL;DR: Этой осенью сообщество Open Data Science и компания Huawei делают новый запуск курса по обработке естественного языка. Страница курса вот. Первая лекция - в среду, 14 сентября.

Читать далее

+6

Sber 8 фев 2022 в 07:00

Нейролингвистика, робототехника и видеоигры: сборник статей «Наука в Сбере-2021»

5 мин

1.4K

Блог компании СберNatural Language Processing * Искусственный интеллектРобототехникаЧитальный зал

Технологические прорывы часто случаются в результате совместной работы научного сообщества и бизнеса. Поэтому помимо хороших айтишников, мы приглашаем работать в Сбер учёных и инженеров. Они публикуются в научных журналах и проводят доклады на международных конференциях, которые мы решили собрать в сборник «Наука в Сбере-2021». Сегодня, в День российской науки, мы расскажем про этот сборник и сделаем мини-обзор некоторых статей.

Читать далее

+3

Kirili4ik 4 фев 2022 в 10:03

Few-Shot NER, или Как перестать размечать и начать жить

8 мин

16K

Блог компании СберNatural Language Processing * Искусственный интеллектМашинное обучение *

Всем привет! Наша команда SberIDP занимается задачей извлечения сущностей и фактов из текстовых данных. В банке исторически обрабатывается большое число неструктурированных документов и автоматизация в этой области позволяет сэкономить много времени и ресурсов, а также улучшить клиентский путь. Например, с помощью предварительной обработки документов мы ускорили выдачу кредитов до 7 минут.

Современные методы, основанные на глубинном обучении, требуют от сотен до тысяч примеров для получения приемлемого качества в задачах NER. Сегодня мы разберем направление Few-Shot, которое позволяет решать данную задачу всего лишь на нескольких примерах, и поделимся результатами наших экспериментов. Мы смогли достичь state-of-the-art результатов на датасете Few-NERD и выложили полученные веса на HuggingFace для всех желающих.

Читать далее

+6

kucev 3 фев 2022 в 08:04

Четыре урока о создании инструментов для машинного обучения

6 мин

2.4K

Big Data * Data Mining * Natural Language Processing * Искусственный интеллектМашинное обучение *

Перевод

Мне хотелось бы поделиться с вами одними из самых удивительных выводов о том, как создавать оснастку для машинного обучения, что необходимо для движения вперёд и почему в будущем ИИ гораздо большую роль будут играть специалисты в предметных областях.

На протяжении прошлого года Humanloop создавала новый вид инструмента для обучения и внедрения моделей natural language processing (NLP). Мы помогали командам юристов, сотрудников службы поддержки, маркетологов и разработчиков ПО быстро обучать способные понимать речь ИИ-модели, а затем мгновенно их использовать. Начали мы с применения активного обучения, чтобы снизить потребность в аннотированных данных, но при этом поняли, что требуется гораздо больше.

На самом деле нам был необходим новый набор инструментов и рабочих процессов, изначально спроектированных для решения сложных задач работы с ИИ. Ниже мы расскажем о том, чему научились.

Читать дальше →

0

cene655 1 фев 2022 в 18:01

RuCLIP tiny — быстрее, чем вы думаете

2 мин

5K

Python * Обработка изображений * Машинное обучение * Искусственный интеллектNatural Language Processing *

Туториал

Совсем недавно компания Сбер представила ряд, адаптированных под русский язык, моделей машинного обучения под названием RuCLIP. Суть их работы заключается в возможности сравнения схожести текстового описания и изображения. Рассматривая результаты тестирования, мы заметили, что их модели довольно большие (150+ миллионов параметров) и при этом занимают довольно много места, связи с чем решили сделать свою маленькую, быструю и масштабируемую версию под названием RuCLIP tiny.

Читать далее

+8

alex_golubev13 28 янв 2022 в 07:59

Векторное представление товаров Prod2Vec: как мы улучшили матчинг и избавились от кучи эмбеддингов

5 мин

22K

Блог компании Ozon TechОбработка изображений * Машинное обучение * Natural Language Processing * Data Mining *

Привет! Меня зовут Александр, я работаю в команде матчинга Ozon. Ежедневно мы имеем дело с десятками миллионов товаров, и наша задача — поиск и сопоставление одинаковых предложений (нахождение матчей) на нашей площадке, чтобы вы не видели бесконечную ленту одинаковых товаров.
На странице любого товара на Ozon есть картинки, заголовок, описание и дополнительные атрибуты. Всю эту информацию мы хотим извлекать и обрабатывать для решения разных задач. И особенно она важна для команды матчинга.
Чтобы извлекать признаки из товара, мы строим его векторные представления (эмбеддинги), используя различные текстовые модели (fastText, трансформеры) для описаний и заголовков и целый набор архитектур свёрточных сетей (ResNet, Effnet, NFNet) — для картинок. Далее эти векторы используются для генерации фичей и товарного сопоставления.
На Ozon ежедневно появляются миллионы обновлений — и считать эмбеддинги для всех моделей становится проблематично. А что, если вместо этого (где каждый вектор описывает отдельную часть товара) мы получим один вектор для всего товара сразу? Звучит неплохо, только как бы это грамотно реализовать…

Читать дальше →

+30

NewTechAudit 26 янв 2022 в 06:13

Способы представления аудио в ML

5 мин

11K

Python * Программирование * Алгоритмы * Машинное обучение * Natural Language Processing *

В статье рассмотрены основные формы представления аудио для дальнейшего использования в различных сферах обработки данных.

Читать далее

+7

Mitridat1974 24 янв 2022 в 03:45

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 3: Формальный анализ, корпуса и палеография

12 мин

4.4K

Изучение языковNatural Language Processing *

Пришло время вернуться к теме, отложенной из-за большого количества работы.

Напомню, в первой части был рассказ о дешифровке древнейшей греческой письменности – Линейного письма В, исчезнувшего вскоре после Троянской войны, когда у дешифровщиков не было привычных «верных помощников» - параллельных текстов на других языках или хотя бы близкородственных письменностей (был разве что очень «дальний родственник»).

Во второй части речь пошла о более древних письменностях Крита, Линейном А и иероглифах, а также родственном кипро-минойском письме о. Кипр, на которых та же методика уже не сработала, поскольку их язык (или языки) имел(и) в принципе иную структуру. Все эти письменности (вместе с дешифрованными Линейным В и кипрским греческим) в настоящее время известны как «эгейские письменности» (по месту их происхождения в бассейне Эгейского моря).

Рассказав о весьма медленном прогрессе в их изучении, мы остановились на ряде «чисто человеческих» ошибок, совершённых дешифровщиками – например, в попытках определить язык надписей. Но там, где человеческий интеллект слаб – возможно, поможет компьютерная лингвистика, если правильно поставить задачу?

Читать далее

+23

Accenture_team 19 янв 2022 в 15:40

Автоматизация обработки клиентских обращений

11 мин

6.8K

Блог компании Axenix (ex-Accenture)Блог компании X5 TechМашинное обучение * Natural Language Processing *

В этой статье мы опишем опыт внедрения нашей командой Accenture технологии машинного обучения в бизнес логистической компании 5Post со стороны обработки обращений. Мы уделим внимание не только описанию сути проекта и специфики опробованных технологий, но сделаем акцент на коммуникации с бизнесом, чтобы обеспечить максимальный эффект от проекта и опишем этот бизнес-эффект.

Читать далее

+1

sweetlhare 18 янв 2022 в 08:56

Редкий кейс: как мы учили нейросети определять болезни животных

10 мин

5.1K

Блог компании РСХБ.Цифра (Россельхозбанк)Машинное обучение * Искусственный интеллектNatural Language Processing * Хакатоны

В интернете вы легко найдете статьи о том, как нейросети помогают прогнозировать урожаи, сортировать огурцы, идентифицировать болезни растений по снимкам и еще много других применений в различных сферах и не только в сельском хозяйстве. Однако почти нет информации о том, как нейросети помогают животным и людям по описаниям симптомов определять заболевания, чтобы вовремя предотвратить серьезные последствия для здоровья. Мы расскажем, как учили нейросеть выявлять болезни животных. Возможно, когда-то нейросети аналогичным образом смогут помогать людям, оперативно обрабатывая в различных каналах сообщения с симптомами заболевших, которые обратились за помощью при первых недомоганиях.

Читать далее

+17

NewTechAudit 18 янв 2022 в 05:41

Анализ тональности текста с использованием фреймворка Lightautoml

6 мин

6.7K

Программирование * Машинное обучение * Natural Language Processing *

Сентиментный анализ (анализ тональности) – это область компьютерной лингвистики, занимающаяся изучением эмоций в текстовых документах, в основе которой лежит машинное обучение.

В этой статье я покажу, как мы использовали для этих целей внутреннюю разработку компании – фреймворк LightAutoML, в котором имеется всё для решения поставленной задачи – предобученные готовые векторные представления слов FastText и готовые текстовые пресеты, в которых необходимо только указать гиперпараметры.

Задача

При возникновении трудностей в работе с автоматизированными системами внутренние клиенты оставляют обращения нейтрального или же негативного характера (положительный не учитывается по причине того, что таких обращений очень мало).

Анализ тональности текста позволит понять, что в обращении пытается донести пользователь – что-то нейтральное или негативное. Нас интересуют случаи, где напрямую описываются проблемы в автоматизированной системе и на что требуется внимание и проведение дальнейшего анализа.

Читать далее

+8

Axe357 9 янв 2022 в 19:28

AASIST: Аудио защита с использованием сети с интегрированным спектро-временным графом внимания

16 мин

2.3K

Информационная безопасность * Алгоритмы * Машинное обучение * Искусственный интеллектNatural Language Processing *

Перевод

Артефакты, которые отличают подделку от реальных данных, могут находиться в спектральной или временной областях. Их надежное обнаружение обычно зависит от ансамбля сложных систем, где каждая подсистема настроена на определенные артефакты. Мы стремимся разработать единую, эффективную систему, которая может обнаруживать широкий спектр различных атак с использованием спуфинга без использования групп баллов. Мы предлагаем новый слой внимания с гетерогенным наложением графа, который моделирует артефакты, охватывающие разнородные временные и спектральные области с гетерогенным механизмом внимания и узлом стека. С новой операцией максимального графа, которая включает конкурентный механизм и расширенную схему считывания, наш подход, названный AASIST, превосходит текущее состояние дел в данной области примерно на 20%. Даже облегченный вариант, AASIST-L, всего с 85 тыс. параметров, превосходит все конкурирующие системы.

Читать далее

+1

0x7o 8 янв 2022 в 22:35

keyT5 или генерация ключевых слов из текста

4 мин

8K

Машинное обучение * Искусственный интеллектNatural Language Processing * Программирование *

Из песочницы

Я попытался обучить русскоязычную модель ruT5-base и ruT5-large на задаче извлечения ключевых слов из текста.

Читать далее

+8

1 2 ...

42

43 44 ...