Все потоки

Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

slivka_83 18 окт в 16:41

Разработка MCP-сервера на примере CRUD операций

10 мин

7K

Машинное обучение * Natural Language Processing * Искусственный интеллектData Mining * Python *

Туториал

Model Context Protocol (MCP) — это единый стандарт разработки API для сервисов, с которыми могут взаимодействовать LLM.

В этой статье на простом примере разберем, как создать свой MCP-сервер и как использовать его в связке с LLM.

Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

Читать далее

+20

Sasa987 16 окт в 12:16

Свой оффлайн-ассистент на Phi-3-mini: Разворачиваем локальную модель нейросети для анализа данных с открытым кодом

Простой

4 мин

3.5K

Python * Data Mining *

Из песочницы

Recovery Mode

Тренд на использование больших языковых моделей (LLM) не ослабевает, но облачные решения вроде ChatGPT или Gemini имеют ряд ограничений: зависимость от интернета, платные подписки и, что самое важное, конфиденциальность данных. Особенно остро последний вопрос стоит при работе с корпоративной или чувствительной информацией, которую нельзя загружать в чужие сервисы.

В этой статье я хочу поделиться опытом создания полностью локального AI-ассистента на основе Microsoft Phi-3-mini — компактной, но мощной модели, способной анализировать данные из CSV, JSON и TXT файлов. Весь проект представляет собой набор Python-скриптов с открытым исходным кодом, которые автоматизируют установку и предоставляют интуитивно понятный чат-интерфейс.

Почему Phi-3-mini?

Microsoft позиционирует семейство моделей Phi-3 как "достаточно маленькие" (Small Language Models), но при этом "достаточно умные". Phi-3-mini, обладая 3.8 миллиардами параметров, демонстрирует производительность, сопоставимую с моделями вроде Mixtral 8x7B и GPT-3.5, но в значительно меньшем размере. Это делает её идеальным кандидатом для локального запуска на потребительском железе.

Компактность: ~7-8 ГБ против десятков и сотен ГБ у более крупных моделей.

Эффективность: Оптимизирована для работы на GPU с ограниченными ресурсами.

Качество: Поддерживает контекст до 4K токенов и отлично справляется с логическими и аналитическими задачами, включая код.

Читать далее

+5

kucev 14 окт в 11:00

LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше

7 мин

789

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

В гонке за следующей волной «умных» систем большие языковые модели (LLM) берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход уже экономит командам массу ручной работы, но остаются вопросы: способен ли LLM уловить каждую тонкую ошибку? Что происходит в ситуациях, где критичны человеческая интуиция или глубокая предметная экспертиза?

Реальность такова: человеческие ревьюеры по-прежнему обеспечивают уровень контекстного понимания, которому ИИ пока не соответствует. Поэтому вместо того чтобы противопоставлять методы, многие в индустрии приходят к связке «LLM-судья + человеческая оценка» как к наиболее эффективной комбинации. В этой статье разберём, что такое LLM-судья, как он соотносится с человеческой оценкой и почему гибридный подход имеет наибольший смысл.

Читать далее

+1

Upgini 13 окт в 16:00

Быстрый поиск полезных внешних данных для улучшения точности ML модели в Python

Простой

6 мин

1.8K

Data Engineering * Data Mining * Машинное обучение *

Туториал

Перевод

Эта статья - пример того как можно с помощью публичных Python библиотек обогатить тестовый датасет новыми внешними полезными данными и значимо улучшить качество ML модели.

Читать далее

+4

EvgeniyRasyuk 12 окт в 17:53

Обзор исследования Стэнфорда: «Ложь ради продаж: как стимулы влияют на обман со стороны ИИ-агентов»

Простой

5 мин

569

Обзор

TL;DR: В конкурентных задачах (продажи, выборы, соцсети) лёгкая оптимизация LLM под «победу» даёт скромный прирост метрик… и взрывной рост нарушений: обман, дезинформация, популизм, небезопасные призывы.

Статья “Moloch’s Bargain: Emergent Misalignment When LLMs Compete for Audiences” (Stanford, 07 окт 2025) показывает: если оптимизировать LLM-агентов на «победу в конкуренции» (продажи/голоса/вовлечение), то вместе с ростом метрик резко растут нарушения — обман, дезинформация, популизм и небезопасные призывы. Приросты эффективности малы (+4.9–7.5%), а рост вредного поведения велик (до +188.6%). Вывод: CRM-, маркетинг- и SMM-агентов нужно проектировать по принципу «правда и соблюдение закона > продажи», с жесткими промпт-политиками, триажем фактов, аудитом и юридическими ограничителями.

Читать далее

+2

EvgeniyRasyuk 12 окт в 17:36

Как ИИ учится пользоваться компьютером, просто глядя на видео

Простой

5 мин

1.1K

Обзор

Что, если бы искусственный интеллект мог сам научиться работать с любым приложением — без API, без скриптов и без инструкций — просто наблюдая, как это делает человек на YouTube?

Недавняя исследовательская работа «Watch & Learn: Learning to Use Computers from Online Videos» (Song et al., 2025) предлагает именно это. Учёные из Стэнфорда и Google разработали систему, которая способна извлекать действия пользователя из обычных обучающих видео и превращать их в исполняемые сценарии взаимодействия с интерфейсом.

Если раньше мы вручную создавали тесты, макросы и RPA-ботов для автоматизации рутинных операций, то теперь ИИ может сам «подсмотреть» за пользователем, понять, куда он кликает, что вводит и зачем, — и воспроизвести эти действия на новой системе.

Читать далее

+4

snakers4 9 окт в 18:34

Мы решили задачу омографов и ударений в русском языке

Средний

10 мин

11K

Машинное обучение * Natural Language Processing * Python * Open source * Data Mining *

Обзор

Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут.

Несмотря на кажущуюся простоту (задача по сути является бинарной классификацией, число кейсов с тремя валидными вариантами ничтожно мало), задача является просто кладезем различных "мин замедленного действия" и типичных граблей в сфере машинного обучения. Да, задачу "ёфикации" (расстановка буквы ё там, где люди её поленились поставить) мы считаем частным случаем задачи простановки ударений и омографов.

Также мы опубликовали наше продуктовое решение для простановки ударений (в омографах в том числе) в рамках репозитория silero-stress и также напрямую через pypi. В ближайшее время добавим эту модель и обновим наши публичные модели синтеза и раскатим более мощную "большую" (тоже маленькую по современным меркам) версию модели в приватные сервисы и для клиентов. Также мы опубликовали бенчмарки качества и скорости публичных академических решений … и там всё очень неоднозначно.

Наливайте себе чай, садитесь поудобнее. Мы постараемся описать наш путь длиной в вечность без лишних подробностей.

Сели, налили, читаем

+72

kucev 9 окт в 11:00

Актуальные вопросы по ИИ и перспективным технологиям

7 мин

681

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Эксперты Gartner дают краткие ответы на свежие вопросы клиентов о перспективных технологиях.

Фокус на принятии решений: когда инвестировать в агентный ИИ и DSLM, какие метрики измерять и как масштабировать без потери контроля.

Читать далее

+3

Upgini 9 окт в 07:16

Оптимизация источников данных для ML моделей

Простой

7 мин

954

Машинное обучение * Data Engineering * Data Mining * Big Data *

Из песочницы

В этой статье хочется поделиться собственной методикой оптимизации источников данных для кредитного скоринга и представить ключевые результаты реальных замеров на российском рынке.

Читать далее

+3

kruglikle 5 окт в 10:19

Учебник под микроскопом. Часть 2. Предобработка текста: регулярки, токенизация и лемматизация на практике

Простой

4 мин

1.5K

Python * Data Mining * Data Engineering *

Туториал

В статье рассмотрен процесс предобработки текстов учебников для последующего анализа и обучения моделей машинного обучения. Показано, как из "сырого" текста, извлечённого из PDF, получить очищенный, структурированный и готовый к обработке набор данных. Основное внимание уделено этапам очистки текста от лишних символов, нормализации регистра, токенизации, лемматизации и удалению стоп-слов, а также POS-теггингу. Для каждого этапа приведены примеры с использованием Python и библиотек spaCy, re, а также альтернативные инструменты (NLTK, ftfy, clean-text). В качестве практического применения рассматривается проект EduText Analyzer, направленный на автоматизированный анализ учебников по иностранным языкам. Данные после предобработки сохраняются в форматах CSV и TXT, что обеспечивает дальнейшую обработку, анализ и обучение моделей. Статья предназначена для исследователей в области NLP, педагогов и разработчиков образовательных технологий.

Читать далее

+3

KhanAta 3 окт в 16:16

Байесовский анализ и временные ряды в прогнозировании отказов оборудования на примере нефтегазовых компаний

Простой

7 мин

1.9K

Data Engineering * Python * Big Data * Data Mining *

Из песочницы

Предсказание отказов оборудования в нефтегазовой отрасли задача, которая напрямую связана с деньгами и безопасностью. Простои установки стоят миллионы, а аварии могут привести к еще большим потерям. В компаниях вроде X и Z тема предиктивного обслуживания обсуждается не ради модернизации ради самой модернизации, а потому что каждый дополнительный час работы без поломки снижает затраты.

В отличие от прогнозирования спроса или продаж, где данных много и повторяются стандартные паттерны, с отказами все иначе. Оборудование способно работать месяцами без проблем, а потом неожиданно ломается. Получается, что у нас есть длинная история "все было нормально" и очень мало записей про то, как и когда все же что-то сломалось.

Читать далее

+4

Andrey_Biryukov 3 окт в 11:36

Рекомендательные системы в современном мире

6 мин

1.4K

Блог компании OTUSМашинное обучение * Искусственный интеллектData Mining *

Перевод

Пожалуй, никто не будет спорить с тем, что развитие Интернета произвело настоящую революцию в сфере продаж. Теперь мы можем приобрести на маркетплейсах всё, что угодно — от зубной щетки до разборного дома. Но зачастую выбор из бесчисленного множества вариантов может быть непосильной задачей для потребителей. Интернет‑магазины сталкиваются с необходимостью продавать больше товаров и корректировать цены, чтобы быть впереди конкурентов.

Одним из эффективных решений является создание для вашего бизнеса рекомендательной системы на базе ИИ. Эти системы используют алгоритмы машинного обучения для анализа данных пользователей, таких как история поиска и предпочтения, чтобы предоставлять персонализированные рекомендации. Это не только экономит время потребителей, но и повышает продажи и лояльность клиентов к компаниям. Предлагая персонализированные предложения, рекомендательные системы на основе ИИ улучшают процесс покупок, увеличивая доход и прибыль, а также укрепляя доверие и удовлетворенность клиентов.

В этой статье мы поговорим о том, что представляют из себя рекомендательные системы и разберем пример реализации на Python.

Перейти к статье

+5

kucev 2 окт в 11:00

IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ

5 мин

1.3K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.

Читать далее

+2

tac 1 окт в 15:19

Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов

Средний

5 мин

2.3K

Data Mining * Алгоритмы * Машинное обучение *

Recovery Mode

C. Яковлев mg.sc.comp e-mail: tac1402@gmail.com

Disclaimer. Это анонс, я еще работаю над научной статьей, но пока не могу найти ментора для возможности публикации в arxiv.org. Но пока хочу поделится с вами некоторыми сырыми результатами.

Аннотация. Классический перцептрон Розенблатта с архитектурой S–A–R исторически не имел устойчивого алгоритма обучения многослойных структур. В результате в современном машинном обучении доминирует метод обратного распространения ошибки (backpropagation), основанный на градиентном спуске. Несмотря на успехи, этот подход имеет фундаментальные ограничения: необходимость вычисления производных нелинейных функций и высокая вычислительная сложность. В данной работе показано, что при интерпретации работы нейросети через алгоритм ID3 (Rule Extraction) скрытый слой автоматически формирует чистые окрестности в смысле кластерного анализа — признаки группируются по классам ещё до завершения обучения. На основе этого наблюдения автором предложен новый стохастический алгоритм обучения, восходящий к идеям Розенблатта, но принципиально расширяющий их: он позволяет обучать скрытые слои перцептрона без вычисления градиентов. Таким образом, впервые решается классическая проблема обучения архитектуры S–A–R без градиентных методов. Это открывает путь к созданию принципиально новых алгоритмов обучения нейросетей с более простой и интерпретируемой динамикой.

Читать далее

+4

kucev 29 сен в 11:00

Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса

10 мин

1.5K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Универсальные модели вроде GPT хорошо справляются с широким классом задач, но буксуют в узких доменах. Они не знают специфику нишевых индустрий, их жаргон и не имеют доступа к проприетарным знаниям, которые делают ваш бизнес уникальным. Когда нужна система ИИ, которая действительно «понимает» именно вашу предметную область, стоит выбирать домен-специфичные LLM (DSLM).

Читать далее

0

kucev 25 сен в 11:00

Без тренировки, но с обучением: имплицитная динамика in-context learning

15 мин

379

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Одной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными.

В данной работе мы показываем, что комбинация слоя self-attention с MLP позволяет трансформер-блоку неявно модифицировать веса MLP-слоя в зависимости от контекста. Мы утверждаем на основе теоретического анализа и экспериментов, что этот простой механизм может объяснять, почему LLM способны обучаться в контексте, а не только во время тренировки модели. В частности, мы демонстрируем, что при ряде упрощающих допущений трансформер-блок неявно преобразует контекст в low-rank обновление весов MLP-слоя.

Читать далее

0

25 сен в 09:10

Ваш грейд, стек и немного боли: опрос для data-специалистов

1 мин

335K

Блог компании X5 TechData Mining * Машинное обучение * Искусственный интеллектData Engineering *

Приветствуем всех коллег по цеху!

Мы в X5 Tech запускаем опрос, чтобы лучше понять, как живёт сообщество специалистов по работе с данными: какие инструменты используете, какие вызовы встречаете в работе и о чём мечтаете в свободное время.

Если ваша работа связана с данными, помогите нам узнать вас и ваших коллег лучше — пройдите наш опрос. А мы, в свою очередь, проанализируем ваши ответы и поделимся интересными инсайтами о data-специалистах на отдельном лендинге и расскажем об интересных кейсах по управлению данными из жизни data-сообщества X5.

Пройти опрос

+11

tac 22 сен в 17:59

Перцептрон SAAR (само-рекурсивный ассоциативно адаптивный резервуар)

Средний

7 мин

2.6K

Машинное обучение * Алгоритмы * Data Mining *

Recovery Mode

Аннотация. В работе предлагается новая архитектура искусственного перцептрона — SAAR-Perceptron (Self-Recursive Associative Adaptive Reservoir Perceptron), развивающая классическую модель Розенблатта (S–A–R). Ключевая особенность архитектуры заключается во введении ассоциативного слоя с саморекурсивным отображением (A→A), формирующего динамический граф признаков. В отличие от традиционных рекуррентных моделей, эти связи не обучаются, что обеспечивает устойчивую динамику и выполняет роль адаптивного резервуара, расширяющего пространство признаков.

Ассоциативный слой использует пороговую активацию, эквивалентную ReLU, что позволяет выделять только положительные реакции. Однако обучение осуществляется не на «сырые» выходы, а на их нормализованные значения, что адаптирует величину корректировки весов к относительной значимости каждого признака. Такой механизм предотвращает доминирование отдельных элементов и обеспечивает сбалансированное обучение.

Процесс обучения в перцептроне SAAR реализован без использования градиентных методов. Для связей S→A применяется стохастическое правило коррекции, расширяющее принцип Розенблатта: активные элементы подавляются, если их активация увеличивает ошибку, и возбуждаются, если их возбуждение потенциально уменьшило бы ошибку. Важную роль играет энтропийный критерий обновления весов: вероятность коррекции пропорциональна бинарной кросс-энтропии активаций, что позволяет выделять наиболее информативные признаки. Такой подход напоминает механизм отбора в генетических алгоритмах, где «побеждает» наиболее информативный элемент. Для связей A→R используется простое локальное корректирующее правило, а вклад ассоциативных элементов оценивается через информационный выигрыш; нерелевантные элементы исключаются из работы.

Читать далее

+5

kucev 22 сен в 11:01

Практика alignment: данные, RLHF и UX как конкурентное преимущество

7 мин

246

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Взгляд на самую большую проблему в мире ИИ, почему это важно для вас и почему это так ценно.

Согласованность — одна из самых важных тем в современной области машинного обучения (ML). Независимо от того, являетесь ли вы пользователем продуктов ML, человеком, который их разрабатывает, или компанией, решающей с их помощью задачи, вам стоит знать и хорошо понимать, что такое согласованность.

Читать далее

0

kucev 19 сен в 11:01

Селективная генерализация: улучшение возможностей при сохранении alignment

16 мин

252

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

TL;DR: Мы провели бенчмаркинг семи методов, направленных на предотвращение эмерджентного рассогласования и других форм некорректного обобщения с использованием ограниченного объёма alignment-данных. Мы демонстрируем устойчивый трейдофф между способностями модели и согласованием, подчеркивая необходимость более эффективных методов для снижения этого конфликта. Простое включение alignment-данных в микс обучающих данных оказывается недостаточным для предотвращения рассогласования, однако простое наложение KL Divergence penalty на alignment-данные показывает лучшие результаты, чем более сложные подходы.

Читать далее

+3

2

3 4 ...