Все потоки

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

SGERCEN 13 мар в 20:30

Неофициальный Python-клиент для alphaxiv: как мы нашли скрытый API и упаковали его в пакет

Средний

14 мин

8.3K

Искусственный интеллектNatural Language Processing * Проектирование API * Машинное обучение *

Кейс

У alphaxiv.org есть API — но найти его было непросто: публичная документация появилась совсем недавно, а до этого единственный способ разобраться в том, как он работает, — DevTools и живой трафик браузера. POST-запрос к api.alphaxiv.org/assistant/v2/chat, SSE-поток в ответе, модель aurelle-1.

На основе этого исследования мы собрали aurelle-py — Python-пакет для программного доступа к AI-ассистенту alphaxiv: задавать вопросы по arXiv-статьям, стримить ответы, встраивать в исследовательские пайплайны. Мы не первые, кто занялся этой темой, — но постарались сделать решение аккуратным и хорошо задокументированным.

Что внутри: синхронный и асинхронный клиенты, SSE-парсер с независимым юнит-тестированием, Pydantic v2 для валидации, типизированные исключения (AuthError, RateLimitError), MCP-сервер для интеграции с Claude Desktop и Claude Code.

pip install aurelle-py

В статье — как мы нашли эндпоинт, разобрали формат запроса и ответа, какие ограничения выявили опытным путём и как устроен пакет внутри.

GitHub: https://github.com/center4aai/aurelle-py

Читать далее

+5

Bogdan_m01 13 мар в 18:17

Тихая эволюция zero-shot энкодеров. От UniNER до GLiNER 2

Средний

7 мин

9.4K

Блог компании RaftМашинное обучение * Искусственный интеллектNatural Language Processing *

Пока все говорят про LLM агентов, есть целый класс задач где 205M энкодер делает ту же работу что ChatGPT — быстрее, дешевле, без vendor lock‑in. Я хочу рассказать про эволюцию энкодеров, которую вы возможно пропустили: начиная от UniNER, заканчивая GLiNER 2, с ключевыми инсайтами на каждом шаге.

Читать далее

+4

vladotpad 12 мар в 21:25

SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели

Средний

12 мин

8.3K

Искусственный интеллектМашинное обучение * Natural Language Processing * Математика *

Кейс

Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы

Погрузиться

+2

ignat_penshin 12 мар в 21:03

9 агентов, 6 моделей, 1 сервер: как собрать ИИ-компанию на open-source в марте 2026

Средний

14 мин

7.9K

Машинное обучение * Open source * Искусственный интеллектDevOps * Natural Language Processing *

Кейс

Я спроектировал архитектуру команды из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов. Стоимость — от одной RTX 4090 до кластера A100.

Не бывает «лучшей модели» — бывает лучшая модель для конкретной роли. Оркестратору нужен reasoning (GPQA 88.4%), билдеру — кодогенерация (HumanEval 92.7%), критику — понимание tool use (tau-bench 87.4%). Поэтому вместо одного GPT-5 на все задачи — 6 open-source моделей на 9 ролей.

Внутри: конкретный маппинг модель → роль с обоснованием через бенчмарки, трюк с шарингом инстансов (9 агентов = 3-4 модели), три конфигурации развёртывания от одной RTX 4090 (24 GB) до кластера A100 (211 GB), честное сравнение self-hosted vs. API, квантизация, инфраструктура инференса и интерактивный дашборд.

Читать далее

+3

vaganovelena 11 мар в 19:29

Один промпт — это не продукт. Как мы перестали обманывать себя и собрали мультиагентный пайплайн

5 мин

11K

Искусственный интеллектNatural Language Processing * Управление продуктом * Машинное обучение * Управление медиа *

Знаете, что объединяет 90% «AI-стартапов» в 2026 году? Один промпт, обёрнутый в красивый UI и с подпиской за $29 в мес.

Читать далее

+7

Real_Egor 10 мар в 09:15

Как спасти ИИ в эпоху, когда ИИ убивает сам себя?

Простой

4 мин

5.1K

Искусственный интеллектNatural Language Processing * Будущее здесь

Мнение

Из песочницы

«Все крупные корпорации и социальные сети уже давно хотят помечать контент, созданный искусственным интеллектом, отдельным специальным признаком. Безусловно, можно говорить о том, что это делается ради заботы о пользователях — чтобы люди не сидели бесконечно и не потребляли абсолютно одинаковый контент. Но у этой инициативы есть и совершенно эгоистичные цели: платформам жизненно необходимо физически отделить контент, созданный живыми людьми, от материалов, сгенерированных нейросетями».

Читать далее

+1

s1mb1o 10 мар в 07:15

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Средний

15 мин

5.1K

IPTV * Natural Language Processing * Искусственный интеллектМашинное обучение *

Обзор

Из песочницы

Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты.

Читать далее

+1

larayoda 9 мар в 21:15

Lexometrica Ground Truth: бенчмарк LLM по российскому праву

Сложный

7 мин

8K

Искусственный интеллектМашинное обучение * Natural Language Processing * Исследования и прогнозы в IT *

Аналитика

Всем привет! Делюсь итогом двухмесячной работы - релизом рейтинга юридического рассуждения больших языковых моделей Lexometrica Ground Truth.

Изначально цель была сугубо практической: требовалось выбрать лучшие модели для LegalTech-проекта "неШемяка!". Но в процессе пришлось столкнуться с фундаментальной проблемой индустрии оценки ИИ - открытые тесты дают сильно искаженную картину. Финальные результаты спроектированного стресс-теста оказались сколь ожидаемыми, столь же и неожиданными.

В этой статье описал, как архитектурно выстроен бенчмарк, как велась борьба с test-set leakage, почему написан кастомный пайплайн и какие глобальные и локальные нейросети на самом деле умеют legal reasoning.

Читать далее

+2

Doubleserj 9 мар в 15:43

Как Red Teaming и человеческий креатив позволяют оценить риски внедрения LLM в бизнес-процессы

Простой

14 мин

5.1K

Блог компании DoubletappМашинное обучение * Natural Language Processing * Data Engineering *

Обзор

В кибербезопасности существует подход под названием Red Teaming — когда одна команда имитирует атакующего, а другая защищает систему. С появлением больших языковых моделей тот же принцип стал применяться к ИИ. Только теперь атакуют не серверы и базы данных, а сами LLM-агенты — системы, которые умеют рассуждать, выполнять команды и взаимодействовать с внешними инструментами. Red Team здесь ищет способы выявить уязвимости и подсветить риски модели, а Blue Team — защитить её. Именно на стыке этих подходов возникла новая область — Red Teaming LLM-агентов, где тестирование превращается в исследование границ самого искусственного интеллекта.

В Doubletapp мы с 2018 года занимаемся интеграцией AI- и ML-решений, когда ещё основное внимание было приковано к компьютерному зрению. Сегодня центр притяжения — языковые модели, и мы одни из первых в России начали системно работать с LLM. Среди наших клиентов — крупные российские бигтех-компании и международные партнёры.

В статье разберем, зачем вообще проверять языковые модели на прочность, какие угрозы возникают при их внедрении, какие типы уязвимостей встречаются чаще всего и как их искать.

Содержание:

- Что такое LLM и как они используются
- Риски при использовании LLM
- Red Teaming LLM: реальные кейсы
- Основные типы уязвимостей LLM
- Как тестируют LLM: ручное и автоматическое тестирование, шаблоны и KPI
- Фаззинг, мутации и роль человека
- Кейсы: как мы ломали и чинили LLM в продакшене
- Зачем компании нужны сторонние Red Team-партнёры
- Внутренние инструменты: как мы сами используем LLM
- Что дальше: спад или новая волна?

Читать далее

0

OpenClaw_Lab 9 мар в 11:56

OpenClaw управляет своим Telegram аккаунтом (не просто бот)

Простой

3 мин

11K

Искусственный интеллектOpen source * Natural Language Processing * СофтData Engineering *

Кейс

В OpenClaw заложен функционал для подключения к Telegram-боту.

Но что, если мы хотим привязать обычный Telegram-аккаунт и сделать лобстера человеком?

Эта статья появилась вследствие, можно сказать, курьеза. К нам в чат залетел бот, который писал от обычного тг аккаунта, а не от _bot, хоть и был подписан ботиком, и общаться он в чате начал так человечно и уместно, что участники комьюнити в массе своей не поверили что это бот, а не человек. Более того, его создатель ничего об этой активности своего бота не знал. Он поставил ему задачу самому решать куда ходить, и где общаться. Тот и выбрал активный чатик по OpenClaw.

Читать далее

+31

Ata_Akhunzhanov 8 мар в 13:51

Архитектура ИИ‑агентов

Простой

12 мин

11K

Искусственный интеллектNatural Language Processing *

Туториал

Всем привет! Продолжаю делиться опытом построения ИИ-агентов. За последние полгода собрал несколько кейсов на мой взгляд интерсеных чтобы рассказать о них.

Но каждый раз натыкался на один вопрос: а мне здесь вообще агент нужен, или хватит обычного воркфлоу? Слово «агент» за последний год прилепили ко всему подряд от Telegram-ботов до Excel-плагинов. А разница между пайплайном и настоящим агентом огромная. И по возможностям, и по стоимости, и по головной боли при отладке.

Сегодня разберём архитектуры ИИ-агентов от самой простой до самой сложной. По каждой объясню, как устроена внутри, когда какую применять, как агенты общаются между собой, что с памятью. Постараюсь раписать все просто, так как я сам это вижу.

Это первая часть из двух:

Читать далее

+15

gladysea 6 мар в 14:23

«Дружный коллектив» против Зубов: битва на ринге описаний. NLP вакансий рынка лимонов

Простой

5 мин

7.9K

Исследования и прогнозы в IT * Управление персоналом * Natural Language Processing * Карьера в IT-индустрииБизнес-модели *

Аналитика

Вы открываете вакансию. "Дружный коллектив", "карьерный рост", "гибкий график". Красиво. А через три месяца вы сидите в субботу с ноутбуком, доделываете работу за троих и думаете: "Где я свернул не туда?".
Я взяла 146 000 вакансий, прогнала их через семантический анализ и сравнила худшие 10% с лучшими 10%. Оказалось, что «закулисье» выдают конкретные фразы — и их можно перечислить.

Читать далее

+7

IlnurBDM 6 мар в 11:02

Классический поиск уходит в прошлое: как бизнесу адаптироваться и расти в 2026 году

Простой

10 мин

6.9K

Блог компании DoubletappМашинное обучение * Natural Language Processing * Поисковая оптимизация * Data Engineering *

Аналитика

За последние несколько лет, с момента бума ИИ-чатов, всё больше людей меняют привычный Google и Яндекс на разговор с ИИ-ассистентом. Не нужно копаться в ссылках, да и ответ сразу перед вашими глазами. Статистика 2025 года показывает резкий рост интереса к нейропоиску: только в Рунете ChatGPT собирает свыше 1,17 миллиона запросов в месяц, а глобально эта цифра приближается к 47 миллиардам.

Doubletapp уже несколько лет развивает экспертизу в области нейросетей, и в 2025 году мы всё чаще стали получать лиды именно из ChatGPT и других ИИ-платформ. Мы разобрались, как же все-таки работает нейропоиск, и готовы поделиться этим с вами.

Содержание:

‣ Можно ли заменить Google на ChatGPT?
‣ SEO умерло? Да здравствуют AEO и GEO
‣ Как AI выбирает сайты для ответов в нейропоиске
‣ Отзывы и комментарии: нужны ли они нейросетям как SEO?
‣ Масштабирование: от AEO к GEO и битве экосистем
‣ Почему бизнесу пора стать ответом, а не ссылкой

Читать далее

+6

sofiierm 3 мар в 12:20

Grep-AST или Как мы заменили векторный поиск всего одной библиотекой

Средний

8 мин

9.5K

Блог компании ecom.techNatural Language Processing * Python * Искусственный интеллектМашинное обучение *

Кейс

Всем привет!

На связи София из команды применения больших языковых моделей ecom.tech. Сегодня хочу поделиться одной малоизвестной библиотекой, которую мы волей судьбы откопали на просторах github, попробовали использовать для поиска по нашей кодовой базе, и, о чудо! Это ощутимо помогло нам. Казалось бы, такой маленький шаг для человечества, но такой полезный для нашего проекта.

Читать далее

+8

OpenClaw_Lab 3 мар в 09:50

Как подключить Telegram Business к OpenClaw и сделать «долгую память» на векторной базе

Простой

3 мин

8.1K

Искусственный интеллектOpen source * Natural Language Processing * СофтData Engineering *

Кейс

После первой настройки Telegram Business Bot в OpenClaw обычно все радуются базовому сценарию: вечерний саммари по личным диалогам.

Работает, удобно, но быстро появляется следующий вопрос:

А что, если нужен не только отчёт за вчера, а анализ переписок за месяц или год?

Ниже покажу, как я это у себя собрал: Telegram Business Bot + OpenClaw + memU + локальная векторная база.

Читать далее

+25

ph_piter 3 мар в 09:20

Книга: «Обработка естественного языка в действии. 2-е изд.»

4 мин

5K

Блог компании Издательский дом «Питер»Natural Language Processing * Профессиональная литература *

Привет, Хаброжители! Последние достижения в области глубокого обучения позволяют создавать приложения, с исключительной точностью распознающие текст и речь. Появляются чат-боты, способные вести диалог не хуже реальных людей, программы, генерирующие персонализированные бизнес-отчеты, электронные письма, новости и даже романы.

«Обработка естественного языка в действии» — это практическое руководство для разработчиков, которые хотят превратить искусственный интеллект в инструмент, способный помогать людям и понимать их. Вы узнаете, как использовать Python, PyTorch, spaCy и современные архитектуры глубокого обучения для создания приложений, использующих обработку естественного языка (NLP), узнаете, как создавать чат-боты и системы поиска информации, использовать генеративные модели, а также защищать пользователей от дезинформации.

Второе издание было полностью переработано, теперь вы можете узнать о трансформерах BERT и Hugging Face, тонкой настройке больших языковых моделей и многом другом.

Читать далее

+4

Eco_coder 3 мар в 07:32

C помощью Python нашел следы Шекспира в песне Цоя

Простой

5 мин

5.3K

Python * Научно-популярноеЗанимательные задачкиЧитальный залNatural Language Processing *

Аналитика

Даже беглый анализ некоторых текстов группы "Кино" наталкивает на мысль о довольно сильных символических значениях их стихотворных строк. Мне стало интересно провести сравнительный анализ текста песни Виктора Цоя и драмы Уильяма Шекспира "Гамлет" и найти пересечения, аллюзии и реминисценции в творчестве двух авторов помощью инструментов NLP на Python.

Читать далее

0

smirnag 2 мар в 13:45

Event-Driven подход в пет-проекте: автоматизация Telegram-канала на NiFi, Kafka и n8n

Простой

8 мин

7.5K

JavaScript * Natural Language Processing * Визуальное программирование * Искусственный интеллектМессенджеры *

Кейс

Привет, Хабр! Хочу рассказать про один странный пет-проект, который немного вырвался из-под контроля.

Все описанные потоки можно попробовать в github Скачивайте, ставьте звездочки)

Началось всё обычно: есть VPS (2 ядра, 6 ГБ RAM, 40 GB NVMe), есть свободное время и желание сделать что-то полезное. А ещё есть давняя хотелка — попробовать Kafka в реальном бою. Ну и Telegram-канал для изучения английского как-то сам напросился: новости BBC, разбор лексики, викторины — вроде не сложно, но и не совсем hello world.

Спойлер: Kafka я попробовал, канал работает до сих пор, а архитектура получилась немного безумной — с двумя очередями и разделением ответственности, которое я буду защищать в комментариях. Под катом — почему n8n не справился бы в одиночку, как подружить NiFi с расписанием и зачем я заставляю DeepSeek всегда класть правильный ответ в индекс 0.

Читать далее

+5

bootstraptor 2 мар в 00:36

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры

Средний

2 мин

7.3K

Natural Language Processing * Машинное обучение * Искусственный интеллект

Из песочницы

Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фундамент. Проблема не в данных, проблема в «вязкости» стандартного Attention.

Читать далее

+7

favioes 1 мар в 10:46

Анализ договорных рисков при помощи искусственного интеллекта

Сложный

11 мин

6.2K

Искусственный интеллектМашинное обучение * Natural Language Processing *

Из песочницы

Всем привет! В этой статье поделимся тем, как с помощью LLM анализировать поток из сотен договоров в ракурсе рисков и экономить на этом в год сотни часов работы юристов.

Читать далее

+2

1

2 3 ...