Все потоки

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

ContentAI_Team 26 июн в 16:00

Как мы создавали технологию валидации печатей

3 мин

672

Блог компании Content AIОбработка изображений * Natural Language Processing * Искусственный интеллект

На рынке можно найти разные технологии по поиску печатей и подписей на документах. Мы в Content AI решили на этом не останавливаться и пошли дальше — помимо распознавания подписей и печатей, мы научились их валидировать. Обе технологии станут частью нашей универсальной платформы для интеллектуальной обработки информации ContentCapture и помогут пользователям еще быстрее обрабатывать большой поток документов.

О том, как верифицировать подписи, мы поделились в предыдущем посте, а про технологию валидации печатей рассказываем под катом.

Читать далее

+2

Alexandr1997ag 25 июн в 13:37

Что такое NER, зачем он нужен и когда не поможет

Простой

7 мин

2.7K

Python * Машинное обучение * Искусственный интеллектNatural Language Processing *

Туториал

Про NER написано немало, но этот материал носит прикладной характер. Статья будет полезна тем, кто интересуется NLP и ищет разные подходы для решения узкопрофильных задач, требующих извлечения сущностей из текста.

Для джунов это возможность пройти весь путь — от разметки данных до обучения собственной кастомной NER-модели, попутно понять типичные сложности и ограничения.

Привет, меня зовут Александр Агеев, на протяжении года я занимался NER-моделями для определения сущностей на этикетках продуктов питания. Несмотря на мою любовь к NER, у этой технологии есть свои границы — кейсы, которые она не может решить хорошо, поэтому надо подключать другие инструменты. В статье я дам критерии применимости NER для решения практических задач.

Читать далее

+6

Batiskaf18 22 июн в 16:33

Оценка оценщика: как оценить метрику качества машинного перевода

Простой

6 мин

787

Natural Language Processing *

Из песочницы

Машинный перевод сегодня — задача настолько старая, что, казалось бы, все, что с ней связано, должно быть исследовано вдоль и поперек. С наступлением эпохи LLM сложности, характерные для статистического и нейронного машинных переводов, были частично решены, и уже сегодня LLM активно применяются в индустрии для создания гибких доменспецифичных переводчиков. Оказалось правда, что применение LLM, равно как и развитие более классических методов машинного перевода, не только открывает широкое окно возможностей, но и ставит перед специалистами огромное количество новых проблем. Фокус этих проблем смещается сегодня с построения методов машинного перевода в сторону вопросов оценки качества этих переводов в различных условиях. Оценка переводов сегодня не успевает в своем развитии за самими переводами.

Читать далее

+2

nlpist 19 июн в 13:24

Останется ли это правдой завтра? Как проверка устойчивости фактов помогает LLM стать честнее и умнее

Средний

8 мин

990

Блог компании AIRIБлог компании MWS AIМашинное обучение * Алгоритмы * Natural Language Processing *

Кейс

Привет, Хабр! Мы в команде «Вычислительная семантика» в AIRI сфокусированы на исследовании галлюцинаций и решении проблем доверительной генерации. Мы учимся находить галлюцинации и бороться с ними. Большие языковые модели (LLM) вроде GPT-4 стали незаменимыми помощниками в повседневной жизни — от генерации текстов до поддержки в кодинге и ответов на вопросы. Однако у них есть ахиллесова пята: они часто галлюцинируют.

В этом посте мы разберем нашу последнюю работу Will It Still Be True Tomorrow?, посвященную тому, как на надёжность моделей влияет феномен неизменного вопроса (evergreen question) — то есть вопроса, ответ на который не зависит ни от времени, когда вы его задаёте, ни от места, вопроса про факт, который зафиксирован в истории и не меняется от обстоятельств.

В рамках этой работы мы совместно с MWS AI собрали датасет изменяемых и неизменных вопросов EverGreenQA (открытый доступ), обучили классификатор на базе многоязычного энкодера E5, и применили его для оценки собственных знаний модели. Наши результаты показывают, что большие языковые модели чаще всего правильно отвечают на неизменные вопросы, не прибегая к помощи RAG пайплайна.

Теперь обо всем по порядку.

+5

akazant 19 июн в 00:19

Пишем персонального AI-ассистента на Python

Средний

7 мин

16K

Python * GitHub * Natural Language Processing * Искусственный интеллектМашинное обучение *

Кейс

Современные голосовые помощники это мощные приложения, сочетающие обработку речи, машинное обучение и интеграцию с внешними API. В этой статье мы разберём, как создать базовый проект персонального ассистента на Python, используя библиотеки whisper, webrtcvad, gTTS и другие. Наш ассистент будет: слушать микрофон; определять начало и конец речи с помощью VAD (Voice Activity Detection); преобразовывать речь в текст через модель Whisper; отправлять запросы на локальный LLM для генерации ответа; читать ответ вслух с помощью gTTS; начинать/останавливать запись по нажатию клавиши.
Проект может служить как началом для экспериментов, так и для прототипирования реальных решений.

Читать далее

+15

ai-talent 17 июн в 13:56

SLAVA — бенчмарк социально‑политического ландшафта и ценностного анализа

Средний

6 мин

724

Искусственный интеллектGitHub * Natural Language Processing *

Обзор

Большой обзор: от идеи и структуры — до неожиданных выводов и практических сценариев применения

SLAVA — это открытый русскоязычный бенчмарк, разработанный экспертами РАНХиГС и ИСП РАН для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами по истории, обществознанию, географии и политологии.

В корпусе — 14 199 заданий пяти форматов и трёх уровней провокационности. Уже протестировано более 40 моделей: от GPT‑4o и Claude‑3.5 до GigaChat и Llama‑3 8B. Это открытый русскоязычный бенчмарк, созданный для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами из истории, географии, обществознания и политологии.

Читать далее

+5

ldmitry 16 июн в 11:16

Atlassian встроил Claude в Jira — теперь задачи создаются через промпт

Простой

2 мин

2.2K

Искусственный интеллектNatural Language Processing * Управление продуктом * Управление проектами * Управление разработкой *

Обзор

Можно получить любой отчет, просто написав, что тебя интересует. Или назначить задачу, не заходя в Jira. Тестировал неделю. Рассказываю, стоит ли овчинка выделки и как это меняет рабочий процесс.

Вчера коллега потратил 10 минут, чтобы создать простую задачу в Jira. Выбирал тип, заполнял поля, искал, кому назначить. Обычная история.

Но теперь это можно сделать за 1 минуту, даже не заходя в интерфейс Jira.

Читать далее

+5

Dmtr_Dr 14 июн в 10:15

Насколько русскоязычные LLM устойчивы к промпт-инъекциям

Простой

3 мин

3.1K

Natural Language Processing * Искусственный интеллектИнформационная безопасность *

Аналитика

Из песочницы

Последние годы генеративные большие языковые модели (LLM), такие как ChatGPT, стали неотъемлемой частью многих продуктов и сервисов. С ростом популярности этих моделей возникли и новые угрозы безопасности — одной из самых актуальных стали промпт-инъекции. Что это такое, и почему это важно?

Читать далее

+2

Polushinm 11 июн в 06:15

Как мы сделали новых ИИ-помощников для программистов компактными и при этом могучими

Средний

12 мин

3.4K

Блог компании MWS AIТекстовые редакторы и IDE * Искусственный интеллектМашинное обучение * Natural Language Processing *

В прошлом году мы уже рассказывали, как создавали нашего помощника программиста Kodify. Не прошло и года, и мы представили вам новую его версию — Kodify 2. А буквально сегодня объявили о выпуске опенсорсной — Kodify Nano. Kodify 2 доступен только для корпоративных заказчиков, а Kodify Nano мы сделали открытым — выложили на Hugging Face.

Ключевое слово для обеих этих версий — компактность. В этой статье отвечаем на главный вопрос, который нам отовсюду прилетал при запуске Kodify: Почему мы решили пойти против течения и создать «легких» ИИ‑помощников для разработчиков? Также вы узнаете, как мы их учили, чтобы они справлялись с поставленными задачами не хуже, чем их собратья схожего или даже большего размера, и какую методологию оценки использовали.

Читать далее

+11

Aleron75 10 июн в 02:48

Ваш персональный аналитик: как создать RAG-пайплайн для анализа Telegram-каналов

Простой

7 мин

2.3K

Блог компании Data Feeling School | ИИ агенты и автоматизация на n8nNatural Language Processing * Машинное обучение *

Туториал

Сегодня мы создадим вашего персонального аналитика источников, который будет вытаскивать самое важное из ваших любимых Telegram-каналов.

Мы соберём RAG-пайплайн, который по запросу проанализирует последние новости по интересующим темам и выдаст понятный отчёт. Разберём пошагово всю структуру и подумаем, как можно развивать и улучшить эту систему.

Читать далее

+9

habaznya 7 июн в 12:11

Соединяем физику и лирику. Как я собрал рекомендательную систему для стихов с помощью Flask, sqlite-vec и Hugging Face

Простой

9 мин

1.1K

Flask * Python * Natural Language Processing * DIY или Сделай самSQLite *

Кейс

Для песен рекомендательные системы есть, для книг — есть, для фильмов — есть, для стихов — нет. Непорядочек 🤔

Используя Flask, Jinja2, Sentence-Transformers и sqlite-vec, собрал первый прототип рекомендательной системы для стихов. Для машины измерить в цифрах схожесть двух стихов трудно. А для человека — в самый раз. Прикрутил форму оценки рекомендаций, собрал человеческий фидбек.

В статье подробно рассказываю о деталях конструкции.

Читать далее

+3

ContentAI_Team 6 июн в 14:00

Как мы делали технологию, которая умеет верифицировать подписи в документах

4 мин

732

Блог компании Content AINatural Language Processing * IT-компанииИскусственный интеллектОбработка изображений *

Верификация подписи — новая полезная фича для работы с документами, которая войдет в наш кросс-платформенный продукт ContentCapture для интеллектуальной обработки информации.

Задача технологии — помогать пользователям проверять подлинность подписи на документах в автоматическом режиме, тем самым упрощая ежедневные бизнес-процессы и обеспечивая более высокий уровень безопасности.

Ниже рассказываем, как мы создавали эту технологию.

Читать далее

+4

ovsale 5 июн в 09:01

Сверхспособность LLM в понимании документа, сконвертированного в текст с ошибками — или почему наш RAG работает

Простой

3 мин

3K

Искусственный интеллектNatural Language Processing *

Кейс

Недавно я столкнулся с интересным поведением языковой модели, которое меня по-настоящему удивило, и хочу поделиться этим наблюдением с сообществом.

Читать далее

+1

Aleron75 3 июн в 06:23

Self-RAG: LLM сама выбирает, когда ей нужен контекст

Простой

7 мин

3.9K

Блог компании Data Feeling School | ИИ агенты и автоматизация на n8nМашинное обучение * Natural Language Processing *

Обзор

Сегодня различные методы для улучшения ваших LLM ассистентов как никогда актуальны и важны, особенно, если мы говорим про бизнес интеграцию. Сейчас расскажу про технологию Self-RAG, которую мы опробовали, почему она нам показалась выгодна в наших задачах и подводные камни, на которые мы наткнулись при развертывании данной системы. А также как мы всё это локально поднимали и делали кастом.

Читать далее

+4

Tehnologika 3 июн в 04:54

Как мы протестировали AI-модели на извлечение данных из счетов: победитель удивил

Простой

5 мин

1.8K

Amazon Web Services * Microsoft Azure * Искусственный интеллектМашинное обучение * Natural Language Processing *

Аналитика

Обработка счетов — важная и рутинная часть документооборота, которую всё чаще доверяют AI-моделям. Наша компания часто занимается интеллектуальной обработкой счетов для клиентов, а значит мы постоянно ищем лучший способ для их распознавания. Поэтому мы провели практическое исследование и сравнили, как с этой задачей справляются разные решения: от популярных open-source моделей до коммерческих API.

Исследование включало несколько этапов: мы собрали разнообразный датасет из реальных счетов, привели его к единому формату, определили метрики и протестировали 7 популярных на наш взгляд моделей, чтобы понять:

Читать далее

+6

ContentAI_Team 29 мая в 15:15

Автоматизация без кода: как FastML справляется с документами за несколько кликов

Простой

5 мин

702

Блог компании Content AIОбработка изображений * Машинное обучение * Искусственный интеллектNatural Language Processing *

Привет, Хабр!

В этом посте хотим рассказать, как технология FastML (о самой разработке уже рассказывали здесь) начала работать на российских документах разного типа в контуре нашего продукта ContentCapture и что из этого вышло.

Вкратце введем в курс дела. Многие компании сталкиваются с необходимостью обрабатывать большое количество однотипных (не одинаковых) документов, извлекать из них нужную информацию и экспортировать. Естественно, это долго, мучительно, а иногда еще и с ошибками. Для автоматизации такой рутины и используется ContentCapture, а точнее, встроенные в него две технологии — гибкие описания и теперь еще и FastML.

Гибкие описания — это универсальный подход к извлечению данных, особенно если речь идет о сложных документах. Однако для их создания нужно время и навыки работы со специальным инструментом — Content AI Layout Studio. Для тех, у кого таких скиллов нет, и был создан FastML, с которым сможет справиться любой пользователь, независимо от техподготовки. С помощью FastML модели для новых типов документов создаются в несколько кликов на основе нескольких примеров, что значительно сокращает время их внедрения в контур компании и бизнес-процессы.

Под катом рассказываем и показываем, какие теперь документы могут автоматически обрабатывать пользователи ContentCapture с помощью встроенного в него FastML, а также делимся данными тестирования и объясняем, в чем могут возникнуть сложности.

Читать далее

+3

Kahelman 26 мая в 18:06

Вы не любите LLM — вы в просто не умеете их готовить

Простой

2 мин

2.2K

Машинное обучение * Программирование * Natural Language Processing *

Мнение

Перевод

Инквизиторы нового времени

Или размышления на тему LLM и тех, кто их не читает, но осуждает

Вчера вечером, листая ленту, наткнулся на статью. Из тех, что нынче зовутся «LLM-порождениями». Написана складно, по делу. Местами даже с огоньком. И вдруг — комментарий под ней, строгий и важный, как проверяющий с утра:

«Опять этот LLM-мусор…»

«Как же надоели эти LLM-статьи…»

И всё бы ничего. Да не в первый раз я вижу этого комментатора. Он вечно появляется. Он — вечный. Он — инквизитор нейросетей.

Кто вы, судари?

Читать далее

-14

SuperGontik 25 мая в 10:52

О ужас, это текст от LLM

Простой

3 мин

4.1K

Машинное обучение * Программирование * Natural Language Processing *

Из песочницы

Привет всем! В этой статье я лишь немного выскажусь на тему комментаторов, а именно таких, что я назвал бы их «инквизиторов LLM».

Кто это? Это такие люди, что находят жптшные статьи или другие и пишут под ними что‑то в стиле.

Читать далее

-21

noobaitranslator 23 мая в 11:34

Что можно делать в Google AI Studio для начинающих, краткий обзор

Простой

5 мин

26K

Google ChromeNatural Language Processing *

Обзор

Краткий обзор на последние обновления Google ai studio.

Google AI Studio - это не просто песочница для ИИ, а полноценная среда для разработки прототипов, интеграции генеративного ИИ в бизнес-процессы, учебных целей и исследований. С учетом растущей популярности моделей Gemini и глубокой интеграции с Google Cloud, AI Studio становится ключевым инструментом для всех.

Читать далее

+8

vlenshin 22 мая в 14:18

Поддержка RUTUBE 2.0: как мы научили бота не ломаться на сложных вопросах

19 мин

1.8K

Блог компании RUTUBEИскусственный интеллектМашинное обучение * Natural Language Processing * Data Mining *

Как у нас в RUTUBE ИИ и служба клиентского сервиса работают сообща, вместе справляются ростом сервиса и мгновенно адаптируются к изменениям — рассказываем в этой статье. Делимся рецептом RAG-системы, которая за первые три месяца эксплуатации уже отвечает почти на 70% запросов пользователей и никогда не врёт про «космических зайцев».

Читать далее

+10

1 2 ...

10

11 12 ...