Обновить
124.45

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

LLM во временных рядах: от предикта температуры до криптовалют

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели3.1K

Базовое желание человека -- знать что будет дальше. Какая завтра погода, в какое время не будет пробок, сколько будет стоить нефть и бакс. Было бы удобно провести быстрый анализ с LLM, ведь у каждого есть доступ хотя бы к одной нашумевшей нейросетке.

Тем более LLM уже может прогнозировать будущее! Ниже вы можете посмотреть результаты прогноза для разных временных рядов из статьи Large Language Models Are Zero Shot Time Series Forecasters.

Остается лишь вопрос, а можно ли лучше?

Давайте разберемся!

Методы распознавания матерных (и не только) языков

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели1.2K

Всем привет! Меня зовут Миша, я работаю Backend-разработчиком в Doubletapp. В одном из проектов появилась фича по добавлению тегов по интересам. Любой пользователь может создать интерес, и он будет виден всем остальным. Неожиданно (!!!) появились интересы с не очень хорошими словами, которые обычно называют матерными. Встала задача по распознаванию языка с матерными словами, чтобы исключить возможность добавления гадости в наш огород!

Читать далее

10 примеров и вариантов использования RAG от реальных компаний. Со схемами и пояснениями

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели5.5K

Приходилось ли вам когда-нибудь упрекать чат-бот с LLM — к примеру, ChatGPT или Claude — в устаревшей или неточной информации?

Дело в том, что, формируя ответ, крупные языковые модели (LLM) опираются на наборы данных, на которых они были обучены. Однако, поскольку их основная задача — предсказывать текст, а не извлекать факты, на их точность нельзя полагаться во всех случаях. Кроме того, обучающие датасеты обычно ограничены общедоступными данными и в некоторых областях быстро теряют актуальность.

Читать далее

Мама, у меня RAG: пути к улучшению, когда он «наивный»

Уровень сложностиПростой
Время на прочтение22 мин
Охват и читатели5.3K

В последние пару лет RAG (retrieval-augmented generation) стал одной из самых обсуждаемых технологий в области обработки текстов и поисковых систем. Его идея проста: объединить поиск (retrieval) и генерацию (generation), чтобы быстрее находить нужную информацию и создавать более точные тексты.

Рост объёмов данных и информационного шума привёл к тому, что классические методы поиска и генерации уже не всегда справляются с новыми задачами. Например, большие языковые модели без доступа к актуальной информации могут искажать факты, а традиционные поисковики при запросах на естественном языке дают слишком общий результат. RAG решает эти проблемы, добавляя дополнительный "слой знаний" за счёт внешних баз данных, что особенно полезно для чат-ботов, систем вопрос-ответ, рекомендательных сервисов и многих других приложений.

Целью данной статьи является погружение читателя в технологию RAG, а также ознакомление с основными критериями и методами его улучшения. В этой статье мы обсудим, как именно устроен RAG, как правильно оценивать его эффективность и какие существуют техники улучшения – от уже известных методов до совершенно новых решений.

Читать далее

Илон Маск заинтересовался взломом AI-агента на $50000

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели1.4K

AI-агенты, способные самостоятельно обращаться к функциям системы для решения задач, набирают популярность. На прошлой неделе OWASP опубликовал гайд об угрозах для AI-агентов и примеры уязвимостей на базе популярных фреймворков. Участник лаборатории ИТМО AI Security Lab Александр Буянтуев предложил версию криптоагента Freysa на базе CrewAI. Этот криптоагент должен был защитить призовой фонд и привлёк внимание Илона Маска, когда кто-то смог заполучить $50000.

Стоит ли доверять AI-агентам?

Как мы создавали новый LLM-переводчик Яндекса

Время на прочтение21 мин
Охват и читатели6.5K

Меня зовут Николай Карпачёв, я руковожу группой базового качества перевода в Яндексе. Недавно мы впервые разработали модель документного перевода на основе YandexGPT и, используя различные оптимизации, уже применяем её в Поиске, Умной камере, а также в нейропереводчике Яндекс Браузера. Кроме того, мы протестировали новую модель на независимом международном бенчмарке DiBiMT, где заняли первое место по качеству англо-русского перевода.

Читать далее

Большой обзор больших языковых моделей

Время на прочтение9 мин
Охват и читатели13K

LLM, или большая языковая модель, это нейронная сеть с крайне большим количеством изменяемых параметров, которая позволяет решать задачи по обработке и генерации текста. Чаще всего реализована в виде диалогового агента, с которым можно общаться в разговорной форме. Но это только определение, причём одно из. В статье — больше о понятиях LLM, из чего она состоит, а также возможность немного попрактиковаться.

Читать далее

Как мы прикрутили RAG для интент-классификации, или Трудности перевода на LLM-ский

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели3.9K

И не опять, а снова — про этот ваш RAG. Многие продуктовые команды сейчас пробуют приспособить его для своих задач — и мы, команда Speech&Text в компании Домклик, не избежали этой участи. Но не (только) потому, что это модно и молодёжно — попробовать RAG‑подход нас побудила необходимость решить определённые насущные проблемы. Что же это за проблемы, как мы встраивали RAG и что из этого получилось? Если интересно узнать, то милости просим в текст :-)

Читать далее

Устройство Re-Act ИИ агента

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели3.4K

Как научить языковую модель не только «думать», но и «действовать»? В этой статье я расскажу о Re-Act (Reason + Act) — подходе, который объединяет логические рассуждения и вызовы внешних инструментов, превращая обычную языковую модель в гибкого и эффективного помощника при решении самых разных задач.

Читать далее

До 5 % новых статей «Википедии» содержат тексты от ИИ

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели1.4K

Исследователи Принстонского университета оценили новые статьи «Википедии» на «машинность». Сравнение до и после распространения больших языковых моделей показало, что почти 5 % материалов на английском языке содержат значительные объёмы текста, который писал искусственный интеллект. В других языковых разделах этот показатель ниже, но явление выражено и там.

Читать далее

Автоматическая оптимизация промпта под конкретную задачу с библиотекой DSPy

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели2.9K

Цель — научиться создавать модульные (multi-stage) системы на базе LLM, а затем оптимизировать промпты (инструкции и примеры) таким образом, чтобы итоговая метрика качества (accuracy, retrieval score и т.п.) превышала вариант с ручным подбором текста промпта.

Читать далее

Обучить модель RoBERTa расстановке запятых на балконе для продакшена

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели1.2K

RoBERTa — улучшенная версия модели BERT, разработанная Facebook AI. Она показывает отличные результаты в задачах обработки естественного языка, таких как классификация текстов и генерация ответов.

Построим конкурентоспособный сайт расстановки пунктуации, обучив свою нейронную сеть. Для прогнозирования популярности в поисковой выдаче начнем с анализа запросов Вордстат: расставить запятые – 290 000 запросов/месяц; расставить точки – 15 000 запросов/месяц.

По статистике, 95% запросов посвящены запятым, уделим им особое внимание. Добавим мультиязычность, чтобы получать больше трафика.

Читать далее

Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели2.6K

Предварительная обработка текстовых данных: ключевые этапы и методы

Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.

Читать далее

Ближайшие события

Как сделать чат-бот с RAG безопаснее?

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели1.8K

Каждый день появляются решения на базе генеративных моделей, помогающие бизнесу привлекать новых пользователей и удерживать старых. Подход Retrieval augmented generation позволяет вводить в контекст больших языковых моделей (LLM) корпоративные документы, чтобы чат-бот корректнее отвечал на вопросы пользователей. Гарантирует ли добавление документа в контекст, что чат-бот не будет вводить пользователей в заблуждение или отвечать на вопросы про изготовление бомб?

Как защитить RAG?

Почему искусственный интеллект такой дорогой: пять причин от Bloomberg

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели1.6K

Глобальная гонка за всё более мощными моделями искусственного интеллекта дарит крупнейшим IT-гигантам небывалые возможности, но одновременно толкает их на колоссальные траты. Microsoft, Google и Meta уже инвестируют миллиарды в создание и обслуживание масштабных систем, расширяя облачные мощности и строя новые дата-центры. Однако за первыми успехами скрываются астрономические затраты на инфраструктуру, чипы и кадры, заставляя рынок гадать, куда приведёт стремительный рост ИИ-технологий и готов ли бизнес платить столь высокую цену за будущее.

Читать далее

Супер-простой анализ отзывов с помощью GPT

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели3.4K

Для менеджера по продукту отзывы пользователей – это бесценный источник знаний о проблемах, запросах, пожеланиях и юзкейсах аудитории. Но есть нюанс: анализировать текстовые отзывы вручную тяжело, поэтому команды часто их игнорируют целиком или анализируют отзывы редко и несистемно.

Мы решили упорядочить анализ и систематизацию отзывов пользователей с помощью GPT. В итоге получился полностью автоматизированный дашборд, который обновляется каждый день и приносит много пользы и инсайтов.

Читать далее

Как оценить качество чат-бота? Бот с LLM vs бот на интентах по новой методологии usability-тестирования

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели1.4K

Привет, Хабр! Я Юля, дизайнер диалоговых интерфейсов в Just AI. Мир захлестнула LLM-волна, и сфера чат-ботов оказалась в самом ее центре: все больше компаний хотят внедрять именно генеративные решения.

В этой статье я расскажу о том, как мы провели эксперимент и сравнили старую версию бота и новую — с нейросетью под капотом. Одним из результатов эксперимента стала методика оценки качества, которой я также поделюсь в этой статье.

Читать далее

Как я объединил перевод и суммаризацию текстов, и что из этого вышло

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели1.3K

Перевод и суммаризация текстов – это две задачи, которые на первый взгляд кажутся совершенно разными. Перевод требует точного передачи исходного содержания на другой язык, сохраняя все детали и нюансы. Суммаризация же предполагает сокращение текста до его основных идей, часто убирая второстепенные детали.

Однако при ближайшем рассмотрении эти задачи имеют много общего...

Читать далее

DeepSeek-R1 для чайников

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели45K

В последние месяцы всё чаще слышим про «reasoning-модели», способные не просто продолжать текст, а действительно шаг за шагом решать сложнейшие задачи цепочкой рассуждений (chain-of-thought). Впервые такой подход эффектно показали в OpenAI o1, но, к сожалению, подробности там остаются секретными. Недавно же команда DeepSeek наделала шуму с открытыми вариантами R1 и R1-Zero, созданными поверх их собственной большой MoE-модели DeepSeek-V3. В этом посте я не стану углубляться в вопрос «чья модель лучше — o1 или R1». Зато разберу, какие главные технические детали стоят за R1, почему Zero-версия выглядит особо захватывающе, и как именно авторам удалось обучить модель мыслить.

Читать далее

Если шутка не смешная. Часть 2. Я беру мрамор и отсекаю всё лишнее

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели1K

В первой части статьи я рассказывала о том, как извлекала культурные реалии из субтитров фильмов. Теперь пришло время оптимизировать сам подход, скрипт и результаты анализа. В этот раз я обработала все четыре сезона любимого многими яркого и отдыхающего сериала Emily in Paris и узнала, например, что «hemorrhaging clients» — это отнюдь не «геморройные клиенты» и даже не клиенты с геморроем в медицинском смысле, а стремительная потеря клиентов (по аналогии с кровотечением, которое, как мы знаем, «hemorrhage» на английском). Узнала, что раскованные французы поднимают бокалы с возгласом Tchin‑tchin!, заимствованном, между прочим, из китайского, а сдержанные норвежцы в этой же ситуации произносят Skol! И это «сакральное» знание обошлось мне всего в 40 рублей.

Читать далее

Вклад авторов