Обновить
123.84

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Атрибутивное распознавание документов

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели3.1K

Многие компании, несмотря на переход на электронный документооборот, всё равно сталкиваются с задачами автоматизации ввода информации с бумажных документов. Все они хотят избавиться от этой рутинной операции, и внедряют системы атрибутивного распознавания. На практике, часто оказывается, что такие системы не всегда соответствуют ожиданиям. Сегодня хочу обсудить подходы к решению задачи атрибутивного распознавания, а также проблемы с которыми я сталкивался за 10 лет практики в этой области. 

Многие забывают, что само распознавание документов не является конечной целью. Главная задача - это сократить человеческие трудозатраты на ввод информации с бумажных документов. т.е. в теории, если производительность человека на ввод информации магическим образом вырастет, то и распознавать ничего не надо.  Скорее всего, для этой магии нам конечно понадобится распознавание, но это лишь один из инструментов. 

Так как же сократить трудозатраты?

Маршрутизация обращений: автоматизация в ИТ-поддержке с помощью ИИ и языковых моделей

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели3.6K

ИИ может не только ускорить, но и значительно повысить качество обработки обращений в техподдержку. Я занимаюсь в НЛМК генеративным искусственным интеллектом и расскажу, как нам совместно с ИТ‑вендором Аксеникс удалось преобразовать подход к обслуживанию ИT‑запросов поддержки пользователей через проект интеллектуальной классификации и маршрутизации.

Читать далее

Дообучение модели GPT-2 (RUS) для генерации описаний заведений на основании названия, рубрики и оценки

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели4.6K

В данной работе представлен процесс дообучения модели генерации текста на основе архитектуры GPT-2. Целью работы является демонстрация возможностей применения дообученной модели для генерации текстов, соответствующих определённым наименованиям заведений, рубрикам и оценкам, выставленных пользователями. Используя предварительно подготовленный датасет, который включал названия заведений, отношение к определённым рубрикам и рейтинг, мы обучили модель на генерацию описательных текстов, которые могли бы отражать характер и уровень заведений в зависимости от их оценочной характеристики.

Читать далее

Моя б̶е̶з̶умная колонка: часть вторая // программная

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели11K

Привет, Хабр!

В прошлой статье я описал аппаратную реализацию своего голосового ассистента на базе бюджетного одноплатника Orange Pi Zero 2W с 4Гб оперативной памяти. Эту же статью хочу посвятить программной реализации данного устройства. Если стало интересно, то добро пожаловать под кат.
Читать дальше →

1-битные LLM могут решить проблему энергопотребления ИИ

Время на прочтение4 мин
Охват и читатели8K

Большие языковые модели, системы искусственного интеллекта, на которых работают такие чат-боты, как ChatGPT, становятся все лучше и лучше, но они также становятся все больше и больше, требуя все больше энергии и вычислительной мощности.

Читать далее

Как интегрировать виртуального помощника на Rasa?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели976

На сегодняшний день существует много интегрированных информационных систем и клиентских приложений, и при работе с ними у пользователей возникают проблемы различной степени сложности, и чтобы разгрузить и улучшить качество взаимодействия с ними, в разрабатываются диалоговые помощники и виртуальные консультанты с использованием искусственного интеллекта и технологиями NLP.

Одним из инструментов создания диалоговых помощников является Rasa — сценарная платформа машинного обучения с открытым исходным кодом.

Для более удобного взаимодействия с виртуальным консультантом встает вопрос об интеграции его в социальные сети и мессенджеры, что позволит работать с чат‑ботом при помощи смартфона.

Читать далее

Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных

Уровень сложностиПростой
Время на прочтение19 мин
Охват и читатели6.4K

В этой статье я расскажу про свой опыт решения рабочей задачи — анализ отзывов о компании от пользователей. Мы разберем возможные ошибки и посмотрим на пример кода и реальных данных. Гайд будет полезен всем, у кого нет большого опыта в анализе данных или работе с LLM через API.

Читать далее

Лучший друг интроверта: как ИИ помогает в общении с людьми

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели1K

Начнем с того, что интровертам порой бывает нелегко сформулировать правильное сообщение, особенно когда речь идет о важных или личных вопросах. Сомнения, страх сказать что-то не то, и даже простое нежелание вступать в диалог – все это может сделать коммуникацию настоящим испытанием. С такой проблемой я сталкиваюсь каждый день. Тем не менее, умение правильно выразить свои мысли и чувства чрезвычайно важно, и здесь на помощь могут прийти технологии.

Чат-боты уже давно перестали быть просто развлечением. В условиях, когда технологии становятся все более сложными, чат-боты представляют собой простой и удобный интерфейс для взаимодействия с различными сервисами и приложениями. ChatGPT показал, насколько удобно использовать интерфейс чата, и насколько много различных задач можно решить в таком виде. Такой интерфейс понятен каждому и доступен в любое время.

Я всегда стараюсь найти, какие трудности из моей жизни я могу решить с помощью технологий. Итак, позвольте представить вам Дейта – чат-бота ВКонтакте, который поможет вам на каждом этапе диалога. Вот что он умеет:

Читать далее

Яндекс разработал и выложил в опенсорс YaFSDP — инструмент для ускорения обучения LLM и сокращения расходов на GPU

Время на прочтение12 мин
Охват и читатели17K

Сегодня мы выкладываем в опенсорс наш новый инструмент — алгоритм YaFSDP, который помогает существенно ускорить процесс обучения больших языковых моделей.

В этой статье мы расскажем о том, как можно организовать обучение больших языковых моделей на кластере и какие проблемы при этом возникают. Рассмотрим альтернативные методы ZeRo и FSDP, которые помогают организовать этот процесс. И объясним, чем YaFSDP отличается от них.

Читать далее

Гайд по ICLR 2024: тренды и лучшие доклады

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели2.8K

Привет! Меня зовут Света Маргасова, и я руковожу бригадой моделей с внешней информацией в Яндексе. В этом году в большой компании коллег впервые побывала на конференции ICLR (Learning Representations (ICLR) — обучение представлений), которая проходила в Вене. Масштаб и формат ICLR 2024 подтверждаюет её статус — A*. Конференция продолжалась 5  дней, на неё подали больше 7000  статей, 2260  из которых приняли. Участников тоже было очень много  — все старались успеть познакомиться с авторами на постер-сессиях, послушать доклады и попасть на воркшопы. 

В этой статье я расскажу о самом интересном по моему мнению и по отзывам коллег  — над постом также работали Илья Удалов и Максим Кузин, которые занимаются  ML в рекламе. Здесь же вы найдёте нашу коллективную подборку полезных статей. 

Читать далее

Как мы обучали нейросеть распознавать юридические документы

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели5.1K

Проверка юридических документов с помощью визуальных помощников может оказаться важной задачей. Если человек способен хранить в голове одновременно в зоне его мозговых вычислений 6-8 параметров, ну может и больше, если гений... А остальные держать в блокноте. То ИИ учитывает больше параметров, те же модели LLM доступны с количеством 70 миллиардов параметров. То есть мы-то тоже ежедневно принимаем решения на основе большого количества входных параметров: купить ли сегодня эту вещь, поехать ли отдыхать на море, бросив все, доехать на такси или на автобусе. Но учитываем не все сразу, хотя что-то учитывается на подсознательном уровне. Эдакое дело вкуса, когда просто чувствуешь, что так правильнее, и в итоге не прогадал.

Правда люди еще не научились влиять на решения сети. У нейросетей особенные вкусы. Если GAN-сеть создает нам девушку, у которой 2 руки, то для каких-нибудь художников эпохи Сюрреализма это могло бы показаться гениальным. Двумя руками обнимает парня, словно вцепилась в него всей душой и влюбилась всем сердцем... К сожалению или к счастью, в задачах создания юридических документов мало необходимости творить что-либо на уровне латентного вектора в цепочке между кодировщиком и декодировщиком. Но работа с юридическими документами – тот самый скоп задач, где важно найти судебную практику, предшествующие документы и просто оформить все примерно также.

Таким образом, работа с юридическими документами – лакомый кусочек уже лет так 5, особенно на зарубежном рынке, где задача автоматизации рутинной деятельности сводится именно к тому, чтобы из исторически предшествующих документов собрать что-то стоящее, применимое к текущему документу. По семантическому окрасу и истории работы с документом можно понимать, что именно перед тобой: проигрышная трактовка, выигрышная трактовка, доводы, играющие в пользу истца или аргументы, помогающие ответчику, если дело идет о судебных исках.

Читать далее

Как мы сломали языковой барьер с помощью одной модели?

Время на прочтение8 мин
Охват и читатели6.6K

В этой статье я расскажу о реализации моего бесшовного модуля мультиязычности. Технологии, способной преодолевать языковые барьеры.

Виртуальный ассистент поддерживает 109 языков, понимает на каком языке к нему обратились и генерирует ответ уже на этом языке. И все это благодаря пайплайну на основе языковой модели LaBSE (Language-agnostic BERT Sentence Embedding) и фреймворка RASA.

Читать далее

Enbeddrus — обучение независящей от языка эмбеддинг-модели

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели3.7K

Приветствую, хабровчане!

Сегодня хочу рассказать вам историю о том, как я обучил простую и компактную независящую от языка модель-эмбеддер, которая умеет работать с техническими текстами о PHP и способна извлекать схожие эмбеддинги для параллельных текстов на английском и русском языках.

Основная причина, по которой я решил заняться этим проектом, заключается в том, что мои заметки, код и документация, накопленные за более чем десять лет практики, представляют собой солянку текстов о разных технологиях, языках программирования, пометки о настройке серверов Linux и т.д. на русском и английском языках. Поэтому мне захотелось сделать Retrieval-Augmented Generation (RAG) помогалку, которая сможет принимать запросы пользователя (меня) и эффективно находить информацию в столь разношерстой базе данных, независимо от того на каком языке я сделал запрос и на каком языке написана документация.

Для достижения этой цели необходима независимая от языка модель-эмбеддер, которая будет одинаково хорошо работать с техническими текстами на русском и английском языках.

Ещё одним важным аспектом было то, чтобы модель потребляла как можно меньше ресурсов и, если возможно, чтобы её можно было преобразовать в формат GGUF.

Читать далее

Ближайшие события

Kandinsky Video 1.1: обновленная модель генерации видео

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6K

В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Kandinsky Video, основанную на модели генерации изображений Kandinsky 3.0, по которой мы недавно выпустили обновление – версию 3.1 (о чем можно почитать здесь). Первая видеомодель уже обладала весьма достойным качеством, сравнимым с лучшими мировыми решениями на тот момент. Нам удалось прокачать скорость генерации и моделирование динамики, но главное – мы вступили в новую для себя область генеративного искусственного интеллекта и быстро достигли в ней заметных результатов. Тогда, полгода назад, о подобных моделях знали в основном лишь те, кто так или иначе интересуется областью генеративного искусственного интеллекта. Сегодня же ситуация изменилась – благодаря значительному росту качества генерации видео за последний период, о существовании подобных моделей не слышал только ленивый. Разумеется, такой вход новых технологий в нашу жизнь стал возможным именно благодаря тем исследованиям, которые сообщество проводило за последние полтора года и в которые исследователи из нашей команды включились практически сразу.

Сегодня мы представляем следующую версию нашей модели генерации видео по тексту – Kandinsky Video 1.1. Мы учли последние тенденции в области разработок видеомоделей и сделали нашу технологию еще более впечатляющей, проведя собственные исследования в области архитектур, обработки данных и замере показателей качества, которые мы опишем ниже.

Читать далее

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

Время на прочтение28 мин
Охват и читатели12K

Сегодня через API стала доступна новая модель YandexGPT 3 Lite. Одним из ключевых этапов её обучения, как и в случае с другими недавними моделями, стал этап выравнивания (Alignment), включающий в том числе стадию обучения с подкреплением (RL). Пожалуй, без этого этапа мы бы не смогли добиться такого роста в качестве, который был необходим для запуска новых возможностей и сервисов (например, Нейро). Поэтому эту статью мы полностью посвятим особенностям выравнивания моделей. 

На тему Alignment и RL было написано уже немало статей. Кажется, любой ML-инженер уже, так или иначе, сталкивался или читал о них. Поэтому мы хоть и напомним базовую информацию, но всё же сфокусируемся на тех деталях реализации, которые не на слуху. 

Читать далее

Шпаргалка для создания идеального промпта LLM

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели21K

Большие языковые модели могут производить любую последовательность символов на каком угодно языке в любом формате данных (включая языки программирования, аудио и видео). Соответственно и качество этой последовательности может быть самым разным. Иногда мы получаем многословные запутанные объяснения с галлюцинациями и устаревшими знаниями, а иногда ― элегантную функцию на Python решающую сложную задачу,  идеальное название для бренда, а скоро и первую серию будущего бестселлера. Более того, модель может надёжно и точно ответить на миллионы вопросов ваших клиентов, сопоставить запросы из сотен позиций с многотысячным каталогом, самостоятельно обработать заявки по страховым искам, обучить робота или перебрать новые патентные заявки в поисках конфликтов со старыми. Однако чтобы полностью реализовать потенциал LLM, необходимо научиться мастерски давать им подсказки. А как это делать, я расскажу в этой статье.

Читать далее

Векторные БД vs Точность — часть 2

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели2.7K

В первой части из тестов стало понятно, что в векторном поиске с терминами что-то не так. И точность достаточно низкая для корректной работы RAG (retrieval augmentation generation). Давайте попробуем гибридный поиск и посмотрим, что из этого получится.

Читать далее

LLM Leaderboard за май 2024

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели7.9K

Привет, Хабр!

AI-хайп достиг нового пика, и кажется, что весь мир сейчас занят внедрением AI-функций в свои продукты, собирая миллионы на разработку новых оболочек для ChatGPT и добавляя в свои арсеналы бесчисленные AI-инструменты. В этом вихре инноваций интересно узнать, какие LLM действительно помогают бизнесу решать задачи эффективнее. Сегодня мы готовы раскрыть LLM Leaderboard за май 2024 и показать, какие модели оказались в авангарде, а каким еще предстоит доказать свою эффективность. Давайте разберем, кто по-настоящему заслуживает вашего внимания и инвестиций, а кто просто ловит волну хайпа!

Читать далее

Большие языковые модели гораздо линейнее, чем мы думали

Уровень сложностиСложный
Время на прочтение4 мин
Охват и читатели23K

Хабр, привет! Это снова Антон Разжигаев, аспирант Сколтеха и научный сотрудник лаборатории Fusion Brain в Институте AIRI, где мы продолжаем углубляться в изучение языковых моделей. В прошлый раз мы выяснили, что эмбеддинги трансформеров-декодеров сильно анизотропны. На этот раз я бы хотел рассказать об их удивительной линейности, ведь нашу статью про обнаруженный эффект («Your Transformer is Secretly Linear») несколько дней назад приняли на международную конференцию ACL!

Читать далее

Как ИИ расскажет о видео из YouTube: или RAG Telegram бот с langchain и докерами

Время на прочтение11 мин
Охват и читатели6.3K

Зачем тратить ценное личное время на просмотр продолжительных видео, когда можно получить краткий обзор от ИИ-робота? Попробуем создать бота, способного предоставлять краткий обзор любого видео с YouTube и отвечать на вопросы по его содержимому.

Читать далее

Вклад авторов