Обновить
154.33

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Grep-AST или Как мы заменили векторный поиск всего одной библиотекой

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели8.4K

Всем привет! 

На связи София из команды применения больших языковых моделей ecom.tech. Сегодня хочу поделиться одной малоизвестной библиотекой, которую мы волей судьбы откопали на просторах github, попробовали использовать для поиска по нашей кодовой базе, и, о чудо! Это ощутимо помогло нам. Казалось бы, такой маленький шаг для человечества, но такой полезный для нашего проекта.

Читать далее

Новости

Как подключить Telegram Business к OpenClaw и сделать «долгую память» на векторной базе

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели6.3K

После первой настройки Telegram Business Bot в OpenClaw обычно все радуются базовому сценарию: вечерний саммари по личным диалогам.

Работает, удобно, но быстро появляется следующий вопрос:

А что, если нужен не только отчёт за вчера, а анализ переписок за месяц или год?

Ниже покажу, как я это у себя собрал: Telegram Business Bot + OpenClaw + memU + локальная векторная база.

Читать далее

Книга: «Обработка естественного языка в действии. 2-е изд.»

Время на прочтение4 мин
Охват и читатели4.2K

Привет, Хаброжители! Последние достижения в области глубокого обучения позволяют создавать приложения, с исключительной точностью распознающие текст и речь. Появляются чат-боты, способные вести диалог не хуже реальных людей, программы, генерирующие персонализированные бизнес-отчеты, электронные письма, новости и даже романы.

«Обработка естественного языка в действии» — это практическое руководство для разработчиков, которые хотят превратить искусственный интеллект в инструмент, способный помогать людям и понимать их. Вы узнаете, как использовать Python, PyTorch, spaCy и современные архитектуры глубокого обучения для создания приложений, использующих обработку естественного языка (NLP), узнаете, как создавать чат-боты и системы поиска информации, использовать генеративные модели, а также защищать пользователей от дезинформации.

Второе издание было полностью переработано, теперь вы можете узнать о трансформерах BERT и Hugging Face, тонкой настройке больших языковых моделей и многом другом.

Читать далее

C помощью Python нашел следы Шекспира в песне Цоя

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели4.7K

Даже беглый анализ некоторых текстов группы "Кино" наталкивает на мысль о довольно сильных символических значениях их стихотворных строк. Мне стало интересно провести сравнительный анализ текста песни Виктора Цоя и драмы Уильяма Шекспира "Гамлет" и найти пересечения, аллюзии и реминисценции в творчестве двух авторов помощью инструментов NLP на Python.

Читать далее

Event-Driven подход в пет-проекте: автоматизация Telegram-канала на NiFi, Kafka и n8n

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели6.6K

Привет, Хабр! Хочу рассказать про один странный пет-проект, который немного вырвался из-под контроля.

Все описанные потоки можно попробовать в github Скачивайте, ставьте звездочки)

Началось всё обычно: есть VPS (2 ядра, 6 ГБ RAM, 40 GB NVMe), есть свободное время и желание сделать что-то полезное. А ещё есть давняя хотелка — попробовать Kafka в реальном бою. Ну и Telegram-канал для изучения английского как-то сам напросился: новости BBC, разбор лексики, викторины — вроде не сложно, но и не совсем hello world.

Спойлер: Kafka я попробовал, канал работает до сих пор, а архитектура получилась немного безумной — с двумя очередями и разделением ответственности, которое я буду защищать в комментариях. Под катом — почему n8n не справился бы в одиночку, как подружить NiFi с расписанием и зачем я заставляю DeepSeek всегда класть правильный ответ в индекс 0.

Читать далее

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели6.9K

Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фундамент. Проблема не в данных, проблема в «вязкости» стандартного Attention.

Читать далее

Анализ договорных рисков при помощи искусственного интеллекта

Уровень сложностиСложный
Время на прочтение11 мин
Охват и читатели5.9K

Всем привет! В этой статье поделимся тем, как с помощью LLM анализировать поток из сотен договоров в ракурсе рисков и экономить на этом в год сотни часов работы юристов.

Читать далее

RAG vs Fine-tuning: когда что выбирать — опыт 30+ проектов

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели8K

За 30+ проектов я использовал RAG в 80% случаев, Fine-tuning — в 15%, комбинацию — в 5%. В статье — практическая матрица выбора: когда RAG достаточно, когда нужен fine-tuning, а когда гибрид. С примерами кода, реальными сценариями и разбором ошибок.2

Читать далее

Создание системы по управлению цифровыми активами для базы данных PostGIS. Часть 3. Семантические связи между таблицами

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели5.4K

Здравствуйте, уважаемые читатели Хабра!

В этой публикации рассмотрим применение тематического моделирования для анализа имеющихся данных и визуализации семантических связей между таблицами.

Интересно? Читать!

Ответственность и свобода: как мы ищем баланс в своём стартапе

Время на прочтение4 мин
Охват и читатели7.3K

Последние годы стали временем ограничений (ещё помните ковид и свои первые ощущения на самоизоляции?). То, что вчера казалось стабильным фундаментом, сегодня может исчезнуть. В таких условиях легко начать воспринимать ограничения как главного врага.

Жан-Поль Сартр писал, что человек «обречён быть свободным» — но эта свобода всегда связана с ответственностью за выбор. В цифровых продуктах мы часто говорим о свободе пользователя, но гораздо реже — о цене этой свободы.

Читать далее

Машинный перевод. Как развивалась технология

Уровень сложностиПростой
Время на прочтение39 мин
Охват и читатели6.5K

Почти десять лет я занимаюсь машинным переводом в Lingvanex - и за это время увидел, как меняются не только модели, но и само понимание языка. В этой статье я прослежу путь от первых философских идей Древней Греции до нейросетей и LLM, которые формируют индустрию сегодня. Разберём ключевые этапы эволюции, прорывные исследования 2024–2026 годов и попробуем понять, куда движется машинный перевод дальше.

Читать далее

Как я построил Graph RAG систему с точностью 96.7% за 5 дней: от научных статей до production-ready пайплайна

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели13K

Я реализовал Graph RAG систему, которая комбинирует 5 техник из свежих научных статей (KET-RAG, HippoRAG 2, VectorCypher) в единый пайплайн с декларативным Datalog reasoning-движком, полной провенансной трассировкой и типизированным API. Результат: 174/180 (96.7%) на билингвальном бенчмарке из 30 вопросов, оценённых в 6 режимах retrieval. Три режима достигли 100%. В статье — архитектура, 10 уроков оптимизации и эволюция от 38% до 96.7% за 10 итераций.

Читать далее

Фактчек не нужен: мы решили не делать то, что делают все

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели4.3K

Мы строим AI-систему для автоматизации рерайта новостей в региональных СМИ. В таких СМИ часто три человека делают работу пятерых, а восемь из десяти материалов в день — это пересказ чужих новостей. Не потому что хотят, просто план, трафик, выживание и тд. Мы забираем эти восемь рерайтов на себя, чтобы у редакции осталось время на журналистику, а не тупизну.

Начали делать модуль фактчека.

Читать далее

Ближайшие события

Базовый минимум. Часть 3:  RAG-системы

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели12K

Большая языковая модель это не источник актуальных сведений, а статистическая система, обученная на данных прошлого. Она не обращается к внешним базам знаний и не узнает о новых событиях. Все что она знает было усвоено на этапе обучения и зафиксировано в ее параметрах.

В современных прикладных системах это ограничение часто скрыто за инструментами, поиском и дополнительными модулями. Однако именно архитектурный подход Retrieval-Augmented Generation, RAG стал стандартным способом расширения возможностей модели без ее дообучения. Он позволяет подключать внешние базы знаний, работать с актуальными документами и заметно снижать количество галлюцинаций.

В третьей части серии Базовый минимум разбирается как устроен RAG и как реализовать его минимальную рабочую версию на практике.

Читать далее

Что пугает лично меня в развитии искусственных помощников

Время на прочтение4 мин
Охват и читатели20K

Пока генераторы текста на базе языковых моделей соревнуются в скорости производства поверхностных текстов на тему отъема рабочих мест, мне тоже есть, что сказать про гонку вооружений человека искусственными помощниками (которых здесь и далее я для простоты буду называть малорелевантным, но устоявшимся термином «ИИ»).

Я не боюсь, что меня вышвырнут на улицу, потому что ИИ начнет писать код и проектировать системы лучше меня. Неважно даже, почему я так спокоен: оттого ли, что мой уникальный опыт — в некоторых областях — не получить путем всасывания и переработки всей мудрости интернета, или просто потому, что я — беспечный дурак. Речь не об этом.

Есть вещи, связанные с бешеным распространением ИИ в шарнармассах, которые меня по-настоящему, действительно беспокоят.

Нытьё Кассандры

Как мы пытаемся снизить возвраты животных из приютов с помощью NLP

Время на прочтение6 мин
Охват и читатели15K

Четыре года я была волонтёром в приюте для животных. Это не про красивые фотографии с пушистыми котиками — это про ежедневный уход, уборку, лечение, адаптацию и работу с людьми. Самое тяжёлое — видеть стресс у «вернувшихся» животных. Ещё вчера у них был человек, дом, надежда, а сегодня снова клетка, шум и тревожное ожидание. Некоторые так и не находят семью. Самое страшное для животного — прожить жизнь и так и не получить собственного дома хотя бы на один день.

Читать далее

От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

Уровень сложностиСложный
Время на прочтение26 мин
Охват и читатели7.5K

В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI.

Четыре года спустя у нас зоопарк из десятка методов выравнивания, половину из которых можно запустить на одной RTX 4090 за выходные. DPO убрал reward model. SimPO убрал reference model. GRPO и DeepSeek R1 доказали, что RL жив — но в новой форме. Anthropic опубликовала конституцию Claude на ~80 страниц в открытом доступе и сменила парадигму: от правил к причинам.

Мир изменился. Разбираемся, как именно.

В статье — полная история пост-обучения от RLHF до Constitutional AI, математика ключевых методов (в спойлерах, без боли), рабочий код на TRL + QLoRA с гиперпараметрами, большие сравнительные таблицы и дерево решений «что выбрать для вашей задачи». Плюс честный разговор о проблемах, о которых не пишут в туториалах: distribution mismatch, reward hacking, catastrophic forgetting и почему модели умеют «притворяться» выровненными.

Для разработчиков, ML-инженеров и всех, кто хоть раз открывал Hugging Face и думал: «а что если я это fine-tune...»

Читать далее

Метрики для задач NLP. Часть 2. Генерация текста: BLEU, ROUGE, METEOR, BERTScore

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели5.7K

В этой статье будет рассказано о популярных метриках оценки для задач генерации текста: BLEU, ROUGE, METEOR, BERTScore. Рассказ будет сопровождаться визуализацией, примерами и кодом на Python.

🔥 Начинаем 🔥

Data Structure Protocol (DSP): как дать LLM-агентам «долговременную память» о большом репозитории

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8.7K

Есть паттерн, который видит каждый, кто работает с агентами: первые 5–15 минут уходят не на задачу, а на "ориентацию". Где точка входа? Откуда растут зависимости? Почему эта библиотека, а не другая? Кто считает это публичным API? В маленьком проекте раздражает. В большом — превращается в постоянный налог на токены и внимание.

DSP (Data Structure Protocol) "выносит карту проекта наружу" — в простой, версионируемый, языковой граф, который живёт рядом с кодом и доступен агенту как постоянная память.

k-kolomeitsev/data-structure-protocol

Цель в архитектуре сформулирована так:

1) Цель и границы

Цель DSP — хранить минимальный, но достаточный контекст о репозитории/системе артефактов в виде графа «сущности → зависимости/публичный API», чтобы LLM могла:

- быстро находить нужные фрагменты по UID,

- понимать «зачем» сущности существуют и «как» они связаны,

- не требовать загрузки исходников целиком в контекстное окно.

DSP — это долговременная память и индекс проекта для LLM. Агент может в любой момент выполнить поиск (grep) по проекту, найти нужные сущности по описаниям/ключевым словам и от найденного UID раскрутить весь граф связей: входящие зависимости, исходящие импорты, реципиентов через exports. Это заменяет необходимость «помнить» структуру проекта или загружать его целиком — вся карта проекта всегда доступна через .dsp.

Читать далее

Театр продуктивности и страшный вопрос «Зачем?». «Виноваты зумеры — убийцы бизнеса»

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели5.1K

Зумеров обвиняют в том, что они разваливают бизнес кофе-брейками и нежеланием работать. Но проблема глубже: рынок труда превратился в театр продуктивности, где имитация давно заменила результат, а человек стал функцией. NLP анализ датасета из 146 тысяч вакансий вскрывает системную проблему — и она касается не только молодых.

Читать далее
1
23 ...