Data Feeling School / Статьи / Хабр

Как стать автором

ПрофильСтатьи20Посты185Подписчики42Сотрудники1

Aleron75 29 июл в 22:50

LLMops дома: быстрое разворачивание и настройка инфраструктуры с помощью Langfuse

Простой

6 мин

1.7K

Блог компании Data Feeling SchoolМашинное обучение*Natural Language Processing*

Обзор

Задумывались ли вы о том, как сделать трассировку в ML/LLM‑пайплайнах? А может, сталкивались с ситуацией, когда хотелось быстро понять, почему система сработала не так, как ожидалось, и в каком месте всё пошло не так? Мы вот задумались и сталкивались, поэтому расскажу о том, что пробуем сейчас.

В этой статье поделюсь нашим опытом использования Langfuse - мощного инструмента для трассировки и оценки пайплайнов, построенных на больших языковых моделях. Мы рассмотрим ключевые возможности Langfuse, особенности интеграции с Python SDK, покажем, как развернуть инфраструктуру локально, и подключим локальную LLM‑модель из Ollama для анализа результатов.

Читать далее

+5

Aleron75 16 июл в 04:15

Cache-Augmented Generation против RAG: как ускорить инференс без потери качества

Простой

5 мин

2.7K

Блог компании Data Feeling SchoolNatural Language Processing*Машинное обучение*

Аналитика

Привет, чемпионы! Сегодня расскажу про очень интересную вещь, которая в определенных ситуаций, может быть выгоднее, чем RAG, а также свой опыт в проведении R&D данной технологии и с помощью какой надстройки можно усилить RAG, чтоб прийти к середине между CAG и RAG.

В настоящее время существует множество техник для улучшения качества ответов LLM при работе с частными или корпоративными данными. В этой статье я постараюсь кратко и понятно объяснить:

• что такое CAG

• в каких случаях он действительно применим

• с какими подводными камнями столкнулись мы, а можете и вы при его использовании,

• и какую надстройку можно внедрить в RAG, чтобы приблизиться к эффективности CAG, не теряя гибкости ретривера.

Читать далее

0

naumtsevalex 9 июл в 15:27

goYSDA: Как мы в ШАДе переизобрели и сделали непрерывную игру Го, выкинув из него сетку

Простой

6 мин

2K

Блог компании Data Feeling SchoolАлгоритмы*Разработка игр*Python*Логические игры

Привет, Хабр!

Все мы знаем Го — глубокую, медитативную игру на доске 19x19. Камни, пересечения, территории... А что, если выкинуть саму сетку и разрешить ставить камни куда угодно в пределах доски?

Мы в команде YSDA (Yandex School of Data Analysis или Школа Анализа Данных, ШАД) задались этим вопросом и решили проверить. Получилось азартно, хаотично и, что самое главное для нас как разработчиков, — чертовски интересно с точки зрения алгоритмов.

В этой статье я расскажу, как мы реализовали эту идею на Python и Pygame, с какими геометрическими головоломками столкнулись и как Диаграмма Вороного помогает считать очки в реальном времени, превращая статичную доску в живое поле битвы.

А в конце встретим неожиданный твист! Узнаем, что такое такое Суго.

Погрузиться в игру →

+11

naumtsevalex 7 июл в 21:47

Собираем MVP product search: дообучение E5 и веб-сервис для сравнения поисковых выдач

Средний

23 мин

1K

Блог компании Data Feeling SchoolИскусственный интеллектМашинное обучение*Python*Big Data*

Туториал

Что важнее: создать продукт, или доставить его до пользователя? Оба этапа необходимы. Сегодня обсудим второй. Как нам построить поисковую e-com систему.

Покажем, что в слово логистика товара входят сложные задачи не только: перевезти наушники из Китая в Америку, но и настройка поисковой выдачи по запросу.

Быстро соберем поисковой MVP-сервис. Дообучим модель E5 на реальных данных от Amazon. Определим метрики качества и сравним BM25, pretrain E5 и fine-tune E5. Так же взглянем глазами с отладочной информацией и проанализируем изменения поисковых выдач.

И под конец обсудим каких технологий еще не хватает и можно добавить, если возникают соответствующие трудности.

Погрузиться в семантический поиск →

+5

Aleron75 2 июл в 04:25

От традиционных LLM-агентов к Agentic AI: будущее автоматизации бизнеса + реализация вашего ассистента по темам

Простой

8 мин

3.4K

Блог компании Data Feeling SchoolМашинное обучение*Natural Language Processing*

Обзор

В последние месяцы термин Agentic AI всё чаще мелькает в статьях, репозиториях и продуктовых обновлениях крупных компаний. Но что он на самом деле означает? В чем вообще отличие от обычного LLM агента, на которого я накручу все, что мне нужно? И соответственно, как это может помочь бизнесу?

Сегодня расскажу про все это, а также расскажу какие существуют реальные примеры интеграции в бизнес и сделаем мини примерчик на базе langgraph, который поможет вам понять примитивы концепции в которой у нас будет небольшой оркестратор в виде Qwen3:4b и его маленькие подопечные в виде Qwen3:1.7b. И сравним решения, если мы будем использовать стандартный пайплайн из LLM-агентов.

Читать далее

+3

Aleron75 1 июл в 04:17

Почему n8n важен в автоматизации бизнеса: примеры успешной автоматизации

Простой

10 мин

12K

Блог компании Data Feeling SchoolУправление продуктом*Управление проектами*Искусственный интеллект

Обзор

Рынок автоматизации процессов сейчас переживает качественное обновление — компании самых разных масштабов стремятся минимизировать ручную работу, ускорить процессы, снизить число ошибок в цепочках передачи данных между системами и повысить управляемость бизнес-процессов в целом…

И именно на стыке этих задач возник интерес к универсальным low-code решениям, которые позволяли бы настаивать автоматизированные потоки данных быстро, а главное — без обязательного привлечения разработчика к каждой задаче. Одним из наиболее ярких представителей этого класса инструментов стал n8n — гибкая платформа для интеграции и автоматизации, получившая признание как среди энтузиастов и стартапов, так и в крупных предприятиях.

Впрочем, обо всем по порядку.

Читать далее

+6

Aleron75 30 июн в 03:42

Как мы научили LLM проверять себя и сэкономили ресурсы на RAG-пайплайне

Простой

4 мин

6.6K

Блог компании Data Feeling SchoolМашинное обучение*Natural Language Processing*

Кейс

Привет, чемпионы! Сегодня поделюсь историей, как мы придумали решение, как используя небольшую надстройку над LLM сделать ее несколько самооценивающейся, что позволило нам при работе с локальными данными и внутренней документацией уменьшить число иницирований работы RAG пайплайна, когда в этом нет необходимости.

Читать далее

+12

Aleron75 10 июн в 02:48

Ваш персональный аналитик: как создать RAG-пайплайн для анализа Telegram-каналов

Простой

7 мин

3K

Блог компании Data Feeling SchoolNatural Language Processing*Машинное обучение*

Туториал

Сегодня мы создадим вашего персонального аналитика источников, который будет вытаскивать самое важное из ваших любимых Telegram-каналов.

Мы соберём RAG-пайплайн, который по запросу проанализирует последние новости по интересующим темам и выдаст понятный отчёт. Разберём пошагово всю структуру и подумаем, как можно развивать и улучшить эту систему.

Читать далее

+12

Aleron75 3 июн в 06:23

Self-RAG: LLM сама выбирает, когда ей нужен контекст

Простой

7 мин

5.6K

Блог компании Data Feeling SchoolМашинное обучение*Natural Language Processing*

Обзор

Сегодня различные методы для улучшения ваших LLM ассистентов как никогда актуальны и важны, особенно, если мы говорим про бизнес интеграцию. Сейчас расскажу про технологию Self-RAG, которую мы опробовали, почему она нам показалась выгодна в наших задачах и подводные камни, на которые мы наткнулись при развертывании данной системы. А также как мы всё это локально поднимали и делали кастом.

Читать далее

+4

Aleron75 24 мая в 21:25

Как алгоритм Recovering Difference Softmax (RDS) делает рекомендации и уведомления точнее и эффективнее

Средний

5 мин

1.3K

Блог компании Data Feeling SchoolBig Data*Искусственный интеллектМашинное обучение*Алгоритмы*

Обзор

Алгоритм Recovering Difference Softmax (RDS) — полноценный подход к оптимизации уведомлений и контента для повышения вовлеченности пользователей. Алгоритм выбирает единственно лучший вариант, удерживая пользователей дольше и возвращая их чаще.

Если коротко, улучшает работу алгоритмов машинного обучения, особенно когда нужно делать выбор из нескольких вариантов.

Как RDS превращает простые сигналы в рост вовлечённости? Разбираемся в статье!

Читать далее

+5

Aleron75 18 мая в 21:51

Грязные схемы на собеседованиях: как мошенники используют разработчиков и обманывают работодателей

Простой

7 мин

7.5K

Блог компании Data Feeling SchoolМашинное обучение*Информационная безопасность*

Кейс

Хотите узнать, как при найме кандидаты могут вас обмануть или как, устраиваясь на работу, случайно создать себе серьёзные проблемы? Тогда эта статья точно для вас.

⚠️ Этическое предисловие

Эта история основана на реальном кейсе одной организации, которая массово поставляла кандидатов на рынок труда в разных регионах и направлениях.

Сотрудники организации получили серьёзные проблемы с правоохранительными органами. А сотрудник, которого трудоустроили через такую схему, оказался в центре внимания как внутренней, так и внешней службы безопасности - с допросами, проверками и серьёзными последствиями.

Читать далее

+1

Aleron75 13 мая в 01:24

Model Context Protocol (MCP): как подружить нейросети со всеми API за пару кликов

Простой

9 мин

13K

Блог компании Data Feeling SchoolМашинное обучение*Natural Language Processing*

Обзор

Казалось бы, совсем недавно мир только начал знакомиться с тем, что такое большие языковые модели (LLM). Вскоре после этого появились их многочисленные вариации — на любой вкус и цвет, от узкоспециализированных до универсальных моделей. Затем началась волна интеграций: LLM начали встраивать в различные сервисы, приложения и API, упрощая и автоматизируя рутинные процессы.

Следующим стало появление LLM-агентов — интеллектуальных систем, способных самостоятельно принимать решения и выполнять сложные задачи, взаимодействуя с внешними сервисами. Вместе с ростом их популярности возникла новая проблема — отсутствие единого стандарта взаимодействия между агентами и их окружением.

И вот, компания Anthropic представила решение этой задачи — новый протокол Model Context Protocol (MCP), который стандартизирует взаимодействие агентов с различными сервисами и между собой.

Давайте разберёмся, что такое MCP, и с чем его едят!

Читать далее

+14

Aleron75 8 мая в 08:48

Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу

Простой

4 мин

8.3K

Блог компании Data Feeling SchoolАлгоритмы*Машинное обучение*Искусственный интеллектBig Data*

Обзор

Теперь всё, что раньше делали люди — создание курсов, проверку ответов, адаптацию персонализированных заданий — почти полностью взял на себя ИИ.

Duolingo — это уже давно не просто приложение с разноцветными совами и скучными заданиями. В 2025-м генеративный ИИ позволил Duolingo быстро создавать новые курсы, и за год почти удвоить число языковых курсов! Как им это удалось и что это значит лично для тебя — рассказываем подробнее...

Читать далее

0

Aleron75 7 мая в 21:28

Правда или нет, что Google победил Cursor?

Простой

4 мин

21K

Блог компании Data Feeling SchoolМашинное обучение*

Обзор

Вы, вероятно, уже слышали, что Google выпустил Firebase Studio как полноценную среду для AI-разработки, основанную на мощной модели Gemini.

Очевидно, гигант не захотел отставать и тоже запрыгнул в поезд хайпа AI-продуктов. Но способен ли он составить реальную конкуренцию популярному Cursor?

Сегодня мы погрузимся в мир двух популярных AI-инструментов для разработки: облачной платформы Firebase Studio от Google и интегрированного AI-редактора Cursor от Anysphere.

Читать далее

-12

Aleron75 25 апр в 04:11

Собеседовали 25 джунов в Data Science: кого стоит брать и почему?

Простой

5 мин

2.5K

Блог компании Data Feeling SchoolData Engineering*Искусственный интеллект

Ретроспектива

Привет, чемпион! Меня зовут Артём, я работаю в Сбере и преподаю в Вышке. Сегодня поговорим о текущей ситуации с наймом джунов в Data Science. Для начала немного личной истории.

Несколько лет назад, только начиная свой путь в Data Science, я наткнулся на анонс большого и насыщенного курса «Введение в соревновательный Data Science». Сомневался, стоит ли покупать: хотелось скорее устроиться на работу, чем получить золотую медаль на Kaggle. В итоге купил и не прогадал — на собеседовании отлично пригодились знания по отбору признаков. Но интереснее другое: спустя пару недель автор курса, Алерон Миленкин, заметил мою 300-дневную серию на Stepik и позвал пообщаться. Так мы встретились в офисе Додо, поговорили про рынок труда в DS, и съели пару додстеров. Тогда я понял главное: нетворкинг решает почти всё — именно благодаря ему я позже нашёл работу и начал преподавать.

Читать далее

0

Aleron75 22 апр в 21:47

Вайб-кодинг: революция для стартаперов или ловушка для программистов? Обзор инструментов

Простой

4 мин

21K

Блог компании Data Feeling SchoolБизнес-модели*Будущее здесьИскусственный интеллектМашинное обучение*

Обзор

Привет, чемпион! В этой статье я Никита и мой биг бро Алерон мы вместе окунёмся в одну из самых хайповых тем года — vibe-coding решения. Почему это "болото"? Сейчас расскажем!

Вроде бы сначала всё выглядит просто: красиво, удобно, даже соблазнительно. Но спустя неделю ты уже перестаёшь писать код и просто таскаешь блоки, задаваясь вопросом: "А зачем я JS учил?". И это не шутка! Многие после первого успеха с vibe-coding начинают по-другому смотреть на разработку и сроки реализации. Но GitHub удалять рано — у всего есть оборотная сторона.

🔥vibe-coding — это проклятие или подарок Прометея? Давай разбираться.

Читать далее

-3

Aleron75 21 апр в 14:50

Mixture of Experts: когда нейросеть учится делегировать

Средний

8 мин

1.4K

Блог компании Data Feeling SchoolМашинное обучение*

Туториал

Представьте, что у вас есть большой и сложный проект, и вы наняли двух управленцев: Кабан-Кабаныча и Руководителева. Вы даете им одинаковую задачу: набрать штат сотрудников и выполнить ваш проект. Вся прибыль вместе с начальным бюджетом останется у них.

Кабан-Кабаныч решил, что нет смысла платить отдельным специалистам по DevOps, backend, ML и другим направлениям, и нанял всего одного сотрудника за 80 монеток. Этот бедняга работал в стиле «один за всех» и, естественно, быстро выгорел и «умер». Кабан-Кабаныч, не долго думая, нанял еще одного такого же сотрудника. В итоге вы вернулись и увидели печальную картину: задачу никто не решил, остался лишь Кабан-Кабаныч и кладбище несчастных сотрудников.

Читать далее

+8

Aleron75 9 апр в 21:20

SmolAgents: или как заставить LLM работать на тебя за 30 минут

4 мин

10K

Блог компании Data Feeling SchoolИскусственный интеллектМашинное обучение*

Представьте, что вы — настоящий папа Карло, который хочет оживить своего робота, но не простого, а на основе больших языковых моделей (LLM). Ваш робот будет не только разговаривать, но и использовать специальные инструменты, которые помогут ему взаимодействовать с сайтами, кодом и даже выполнять ваши повседневные задачи.

Простыми словами, агент — это комбинация модели искусственного интеллекта (LLM) и инструментов, которые вы ему предоставляете для выполнения конкретных задач.

Привет, чемпионы! В этой статье расскажу, как создать своего собственного AI-агента, который сможет помогать вам в различных задачах, и покажу это на конкретных примерах.

Читать далее

+18

Aleron75 23 янв в 13:58

30 трюков на Python с описанием преимущества

Простой

6 мин

17K

Блог компании Data Feeling SchoolPython*

Туториал

Причет, чемпионы! У меня тут нашлось время собрать коллекцию хитростей на python🐍 в примерах. Примеры давно копились у меня в черновиках, и вот делюсь! Это первая часть, поехали!

Изучить трюки 🐍

+4

Stanislav9801 21 янв в 09:15

Мастер-класс по точечному переносу изменений между ветками в git

Простой

7 мин

20K

Блог компании Data Feeling SchoolGit*Системы управления версиями*GitHub*Управление разработкой*

Из песочницы

Представьте ситуацию: вы нашли критический баг в проекте, исправили его в feature-ветке, но до полного слияния ещё далеко. Или вам срочно нужно перенести одно конкретное изменение из текущей ветки в другую. В таких случаях git cherry-pick становится вашим секретным оружием.

Читать далее

+27