Обновить
256K+

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

90,91
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Локальный запуск GLM-5.1

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели7.7K

Перевод подготовил автор канала Друг Опенсурса, приятного прочтения, заранее благодарю за подписку

В этой статье мы подробно разберем процесс развертывания GLM-5.1 с использованием llama.cpp и форматов GGUF. Узнаем о системных требованиях, сборке и настройках, оптимизации и практическом применении.

Читать далее

Новости

Что не так с оценкой RAG-системи какое решение предлагает динамический бенчмарк DRAGOn

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели5.5K

Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus — будет полезна всем, кто интересуется RAG и хочет знать, как оценивать такие системы. 

Структура

1. Почему RAG сложно оценивать 
2. Идея DRAGOn
3. Как строится бенчмарк
4. Проверка качества QA 
5. Проверка бенчмарка на RAG-системах
6. Публичный лидерборд 
7. Ограничения, проблемы и практические выводы

Читать далее

На что реально способна LLM или «нестандартные подходы к промптам, которые дают неожиданный результат»

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели6.3K

В этой статье я на одном простом примере покажу, как перестать ковыряться в словах и начать дирижировать эмоциями читателя. Мы возьмем самую обычную задачу, выбьем нейросеть из «банальщины» и заставим текст искрить. Никаких унылых ролей в духе «представь, что ты копирайтер». Вместо этого мы пустим в ход неочевидные инструменты и неожиданные способы использования LLM, чтобы научиться управлять тем, что обычно остается за кадром

Читать далее

От линейного текста к семантическому графу: строим knowledge‑extraction‑пайплайн для учёбы

Время на прочтение22 мин
Охват и читатели7K

Меня зовут Аскольд Романов, я руковожу продуктовой командой в Яндекс Образовании. Сегодня я хочу поделиться историей своего проекта K2-18. Это опенсорс‑инструмент, который трансформирует учебный текст в семантический граф знаний с образовательными метриками. Я назвал его в честь экзопланеты, в атмосфере которой (предположительно) нашли водяной пар: тоже история про извлечение скрытой структуры из наблюдаемых данных. В этой статье — как устроен инструмент, какие решения за ним стоят и что с этим графом можно делать.

Моя основная задача в Образовании — внедрение AI‑технологий в образовательные процессы, и K2-18 вырос из этой работы напрямую. Мне нужно было решить конкретную задачу: как превратить учебный контент в структуру, с которой LLM сможет эффективно работать для построения различных образовательных сценариев.

Идея родилась не на пустом месте. Я закончил ВМиК МГУ и аспирантуру там же с научным фокусом на компьютерной лингвистике. Сейчас, когда LLM научились читать текст, понимать его структуру и контекст, оказалось, что знания, опыт и контекст текущей работы позволяют решить эту задачу системно. 

Конечно, семантические графы — это не новая идея. Но мне всегда хотелось сделать знания в учебных курсах действительно структурированными, а не скрытыми за линейными страницами учебника — так, чтобы и студенту, и преподавателю было легко ориентироваться и развиваться в своем темпе. По сути, это и есть один из продуктивных сценариев применения ИИ в образовании: помогать лучше структурировать знания и выстраивать более персонализированное обучение. 

Читать далее

Agent Harness: одна LLM, разные результаты — в чем секрет?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.2K

Использование кодовых агентов (Codex, Cursor, Claude Code) стало обыденностью. Внутри разных AI-агентов могут использоваться одни и те же модели, но результаты будут сильно отличаться.

Например, есть мнение, что Cursor лучше и быстрее справится с написанием качественного UI, Claude Code покажет себя лучше в проектировании архитектуры приложения, а WindSurf лучше остальных создаст прототип системы.

Почему одна и та же модель в разных агентах дает разный результат? Давайте разбираться.

Читать далее

Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели8K

LangChain обещает: переключите модель одной строкой, подключите RAG за две. У меня в production мультиагентная система с RAG, CRM и тремя мессенджерами — и я построил её без LangChain. Под катом — почему абстракции ломаются, сколько стоит фоллбек на YandexGPT и при чём тут медведь с удочкой.

Читать далее

Разбираем 14 самых популярных бенчмарков для LLM

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели8.9K

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?

Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO.

Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

Читать далее

Тендеры без ошибок: как ИИ обошёл экспертов в проверке документации

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.4K

Кто победит в соревновании по обработке документов — опытный специалист или нейросеть? На рутинных повторяющихся задачах ИИ уверенно обходит человека: он работает быстрее и не устаёт, тогда как внимание человека дискретно — мы ошибаемся из‑за усталости или монотонности работы.

Оптимальное решение — разделить роли: нейросеть быстро и точно сортирует данные, а человек ставит задачи, контролирует процесс и оценивает результат. Как же на практике превратить ИИ-помощника и живого эксперта в эффективную команду?

Для этого мы в Doubletapp разработали ИИ-платформу, которая облегчает и ускоряет работу с тендерной документацией:

Читать далее

Печальный гений смеха. Выявляю элементы комического в текстах Зощенко с помощью Python

Время на прочтение6 мин
Охват и читатели5.6K

Зощенко умел писать точно, коротко и смешно. Попробовал с помощью Python математически установить лексические средства, которые делают язык писателя столь особенным и смешным.

Читать далее

ИИ и конец эпохи интеллектуальной собственности: неожиданное освобождение от бремени авторства

Уровень сложностиСложный
Время на прочтение21 мин
Охват и читатели7.9K

Этот текст писался долго и стал частью более широкой работы о том, как генеративный ИИ меняет не только рынок контента, но и сами основания авторского права. Вобщем, попытка увидеть общий сдвиг: что происходит с авторством, собственностью и культурным производством в мире, где создавать стало проще, чем доказывать оригинальность.

Каждая информационная революция сначала ломает старые правила, а потом заставляет право в панике придумывать новые. Так было с книгопечатанием. Так было с интернетом. Теперь то же самое делает генеративный ИИ - только на этот раз под удар попадает уже не способ распространения текста, а сама фигура автора.

Авторское право строилось на простой идее: есть человек, который создал произведение, и потому именно он получает исключительное право на результат своего труда. Генеративный ИИ делает эту схему неочевидной. Он показывает, что содержательный, убедительный и коммерчески ценный текст или образ может появляться без привычного для права автора - как суверенного субъекта с намерением, волей и контролем над результатом.

В этом смысле ИИ - не просто новая технология. Это вызов самой логике интеллектуальной собственности в ее классическом виде.

История с ИИ не возникла на пустом месте. Право уже проходило через похожие кризисы, когда технология резко меняла правила игры. После появления книгопечатания государства сначала пытались не защищать авторов, а контролировать сам поток текстов. В Англии это вылилось в систему лицензирования, цензуры и издательских монополий. И только потом появилась более знакомая нам модель: авторское право как ограниченное по времени право на произведение, а вместе с ним - и идея общественного достояния.

Читать далее

Почему никто не ожидал, что механизм «предсказать следующее слово» не должен был оказаться так успешен (но оказался)

Время на прочтение7 мин
Охват и читатели17K

Привет, Хаброжители! Большие языковые модели по-прежнему просто предсказывают следующее слово. Два года назад одна лишь эта причина казалось достаточной, чтобы их отвергать — ведь именно ею обосновывали их неуклюжий вывод.

Но в настоящее время большие языковые модели стали гораздо лучше, и одним лишь масштабированием этого не объяснить.

Читать далее

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 3: добавляем историю сообщений и контекст

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели11K

Во второй части мы сделали консольный чат с циклом и system prompt. Но у него был пробел: каждый запрос шёл к модели независимо, без контекста предыдущих реплик. В третьей части добавляем историю сообщений — и чат наконец начинает помнить разговор.

Читать далее

Список литературы тоже умеет галлюцинировать: как я делаю систему проверки научных источников

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели7.8K

Список литературы долго казался мне самой скучной частью научной работы. Пока не выяснилось, что именно там может прятаться очень неприятная штука: ссылка, которая выглядит убедительно, аккуратно и по‑научному, но в реальности либо ведет в никуда, либо вообще не существует.

Когда я брала тему диплома, она казалась мне очень приличной и даже немного слишком аккуратной.

Ну правда: что может быть понятнее, чем проверить список литературы?

Берем научную работу, смотрим на ссылки, сверяем их с реальностью, находим ошибки, помогаем автору, делаем мир чуть менее хаотичным. На бумаге это выглядело как хорошая прикладная задача. В жизни оказалось, что библиография умеет устраивать маленький фестиваль боли.

Сейчас до защиты у меня два месяца, и это как раз тот момент, когда уже можно честно рассказать не только красивую формулировку темы, но и то, почему проблема правда важная, что именно я пытаюсь построить и где все оказалось сильно интереснее, чем я думала в начале.

Тема моей ВКР звучит так:

Читать далее

Ближайшие события

PageIndex: замена векторному поиску в RAG?

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели5.4K

Попытки заменить чем‑то векторный поиск в RAG продолжаются. Про GraphRAG я уже высказывался, новый претендент на замену — Pageindex.

Идея простая. Сегментируем документ на страницы, при помощи LLM и хитрого кода строим для него таблицу содержания, TOC с деревом узлов и саммари для каждого узла. Далее отправляем эту структуру в промпт поискового запроса и просим LLM найти релевантные узлы. За каждым найденным узлом закреплены страницы документа. Эти страницы достаём и используем в качестве контекста в финальном запросе.

Нет чанков, не нужны эмбеддинги и векторные хранилища. Выглядит заманчиво. Попытаюсь добавить к этой идее немного критики и заодно расскажу как эту штуку запустить локально.

Читать далее

Это вам не шутки: как я пыталась отучить LLM петросянить

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели8.7K

Каждый, кто хоть раз пытался выдавить из нейросети хоть что-нибудь смешное, сталкивался с двумя проблемами: она либо выдает бородатую банальщину, либо что-то вообще невразумительное (а бывает, даже и оскорбительное). В честь Дня смеха я, как ведущий специалист Cloud.ru по хиханькам да хаханькам, попытаюсь разобрать по винтикам: почему LLM-ки шутят из рук вон плохо и до какого предела это способна пофиксить современная наука и кривые промпт-инженерные лапки вашей покорной слуги.

«А кому это вообще надо?» — спросите вы. Контент-маркетологам, копирайтерам, креативным продюсерам, пиарщикам, специалистам по внутренним коммуникациям, организаторам мероприятий в ИТ, короче, всем в индустрии, для кого контент — это бесконечный поток задач, а юмор — способ не умереть в этом балагане и один из многих инструментов для налаживания связи с целевой аудиторией. Вы ведь не думаете, что всякие слоганы для ИТ-продуктов, смешные квизы на корпоратив и названия коктейлей для конференций спавнятся пачками сами, из воздуха?

Здесь попробуем на практике понять, где нейросети уже могут в юмор, а где лучше даже не пытаться. Возможно, статья поможет и профессиональным переводчикам, которые ищут способы выражать непереводимое.

Читать далее

Долой иерархию и роли: о том, как LLM-агенты самоорганизуются лучше, чем мы их проектируем (только на сильных моделях)

Время на прочтение7 мин
Охват и читатели12K

Роли, иерархии, департаменты — всё это придумано для людей. ИИ-агенты устроены иначе. Мы 6 месяцев проверяли, что произойдёт, если не назначать агентам роли и дать им самоорганизоваться. 25 000 задач, 8 моделей, до 256 агентов. Результат: назначать роли — антипаттерн. Система, где агенты сами выбирают специализацию, превосходит систему с координатором на 14%. 8 агентов создали 5 006 уникальных ролей. Агенты сами решают, когда не участвовать — и это повышает качество. В статье — полный разбор эксперимента и практические рекомендации.

Читать далее

Как выбрать лучшего AI-ассистента для разработки: тестируем Codex, Claude и Cursor

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели11K

В 2026 году кодовые ассистенты окончательно перестали быть просто автокомплитом и превратились в полноценный инструмент разработки: они читают кодовую базу целиком, понимают зависимости, дебажат по логам и могут довести задачу до рабочего состояния почти без участия разработчика. Но на практике всё не так однозначно — один агент хорошо чинит баги, но ломает архитектуру, другой уверенно пишет на Python, но теряется в TypeScript. Чтобы разобраться, кто из них реально помогает в разработке, а кто только выглядит убедительно, мы прогнали популярные решения через собственный приватный бенчмарк с задачами на 15+ языках.

Меня зовут Ильнур Файзиев, я руковожу юнитом Data LLM в Doubletapp и расскажу, как и почему мы тестировали агентов, какие задачи давали и какие выводы из этого можно сделать для команды и бизнеса.

Содержание

Какой бенчмарк выбрать для теста кодовой модели?
Почему многие выбирают именно Codex/Claude Code и Cursor как компаньонов по разработке
Claude Code
Codex
Cursor
Какие задачи брали для прогона
Результат
Сравнение с публичными бенчмарками
Сравнение с приватным Python-репозиторием
Итоговый рейтинг
Итоговый рейтинг на разных языках
Разбивка по языкам
Заключение

Читать далее

Теперь silero-tts v5 на русском языке умеет задавать вопросы

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8.9K

Мы недавно писали про обновление нашего публичного синтеза, silero-tts. В прошлый раз мы существенно увеличили скорость, качество и добавили поддержку омографов.

В этот раз мы хотим вас порадовать особенной фичей, которая в большинстве случаев стабильно не работает даже в моделях синтеза, которые требуют для своей работы на 3-4 порядка больше вычислительных ресурсов и современные серверные видеокарты (наш синтез запускается даже на слабых процессорах).

Как вы догадались, эта фича — это постановка вопросов.

Хочу послушать вопросы

Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели22K

Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ. Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда.

Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%?

В этом и заключается магия квантизации.

В этой статье вы узнаете:
Почему параметры модели делают её такой большой
Как работает точность чисел с плавающей точкой и чем жертвуют модели
Как сжимать числа с плавающей точкой с помощью квантизации
Как измерить потерю качества модели после квантизации

Читать далее

Способы автоматизации ответов на часто задаваемые вопросы (FAQ)

Время на прочтение6 мин
Охват и читатели4.4K

Привет, Хабр!
Меня зовут Анатолий, я помогаю бизнесу автоматизировать процессы, в том числе применять Искусственный Интеллект в решении реальных задач.

Автоматизация ответов на часто задаваемые вопросы (FAQ) - актуальная задача в процессах, где важно быстро и качественно взаимодействовать с клиентами и с аудиторией.

Если клиент долго не может найти информацию, долго не получает ответа в чате, то он уходит к другому продавцу. В итоге и продажа теряется, и клиент теряется. Особенно это критично во время проведения активной рекламной кампании, когда количество обращений резко возрастает и очень большая часть не успевает обрабатываться.

Что можно сделать, чтобы не терять обращения, продажи и клиентов?
Самое простое - автоматизировать ответы на часто задаваемые вопросы (FAQ).

Автоматизация ответов на часто задаваемые вопросы (FAQ) - один из распространенных способов применения Искусственного Интеллекта в бизнесе.

Раньше клиент был вынужден искать информацию самостоятельно на сайте, в том числе в FAQ‑разделе сайта. Если же вопрос отправлялся оператору, то оператору приходилось самому готовить ответ, опираясь на свой опыт и имеющую документацию.

Теперь у клиентов появилась возможность составлять свой вопрос на естественном языке, и система автоматически выдает ответ, основываясь на соответствующей Базе Знаний.

В итоге клиенты получают быстрые и точные ответы на типичные вопросы и переходят к оформлению и оплате.

Читать далее
1
23 ...