Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

snakers4 9 окт в 18:34

Мы решили задачу омографов и ударений в русском языке

Средний

10 мин

9.4K

Машинное обучение * Natural Language Processing * Python * Open source * Data Mining *

Обзор

Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут.

Несмотря на кажущуюся простоту (задача по сути является бинарной классификацией, число кейсов с тремя валидными вариантами ничтожно мало), задача является просто кладезем различных "мин замедленного действия" и типичных граблей в сфере машинного обучения. Да, задачу "ёфикации" (расстановка буквы ё там, где люди её поленились поставить) мы считаем частным случаем задачи простановки ударений и омографов.

Также мы опубликовали наше продуктовое решение для простановки ударений (в омографах в том числе) в рамках репозитория silero-stress и также напрямую через pypi. В ближайшее время добавим эту модель и обновим наши публичные модели синтеза и раскатим более мощную "большую" (тоже маленькую по современным меркам) версию модели в приватные сервисы и для клиентов. Также мы опубликовали бенчмарки качества и скорости публичных академических решений … и там всё очень неоднозначно.

Наливайте себе чай, садитесь поудобнее. Мы постараемся описать наш путь длиной в вечность без лишних подробностей.

Сели, налили, читаем

+67

Savvi 14 окт в 07:32

Игра на опережение с LLM: с чем вышли на Q4 (анализ 134 195 научных работ 2025 года)

Средний

9 мин

1.6K

Машинное обучение * Искусственный интеллектАлгоритмы * Управление продуктом * Data Mining *

Чтобы понять, какие технологии будут определять рынок завтра, компании опираются на прогнозы/отчёты аналитиков или анализируют патенты. Но есть источник, который часто опережает и патенты – научные публикации. Далее о том, как я проанализировала 134195 научных статей 2025 года, чтобы ответить на вопрос, на какие технологии делать ставку прямо сейчас.

+15

25 сен в 09:10

Ваш грейд, стек и немного боли: опрос для data-специалистов

1 мин

58K

Блог компании X5 TechData Mining * Машинное обучение * Искусственный интеллектData Engineering *

Приветствуем всех коллег по цеху!

Мы в X5 Tech запускаем опрос, чтобы лучше понять, как живёт сообщество специалистов по работе с данными: какие инструменты используете, какие вызовы встречаете в работе и о чём мечтаете в свободное время.

Если ваша работа связана с данными, помогите нам узнать вас и ваших коллег лучше — пройдите наш опрос. А мы, в свою очередь, проанализируем ваши ответы и поделимся интересными инсайтами о data-специалистах на отдельном лендинге и расскажем об интересных кейсах по управлению данными из жизни data-сообщества X5.

Пройти опрос

+11

Andrey_Biryukov 3 окт в 11:36

Перцептрон SAAR (само-рекурсивный ассоциативно адаптивный резервуар)

Средний

7 мин

2.5K

Машинное обучение * Алгоритмы * Data Mining *

Recovery Mode

Аннотация. В работе предлагается новая архитектура искусственного перцептрона — SAAR-Perceptron (Self-Recursive Associative Adaptive Reservoir Perceptron), развивающая классическую модель Розенблатта (S–A–R). Ключевая особенность архитектуры заключается во введении ассоциативного слоя с саморекурсивным отображением (A→A), формирующего динамический граф признаков. В отличие от традиционных рекуррентных моделей, эти связи не обучаются, что обеспечивает устойчивую динамику и выполняет роль адаптивного резервуара, расширяющего пространство признаков.

Ассоциативный слой использует пороговую активацию, эквивалентную ReLU, что позволяет выделять только положительные реакции. Однако обучение осуществляется не на «сырые» выходы, а на их нормализованные значения, что адаптирует величину корректировки весов к относительной значимости каждого признака. Такой механизм предотвращает доминирование отдельных элементов и обеспечивает сбалансированное обучение.

Процесс обучения в перцептроне SAAR реализован без использования градиентных методов. Для связей S→A применяется стохастическое правило коррекции, расширяющее принцип Розенблатта: активные элементы подавляются, если их активация увеличивает ошибку, и возбуждаются, если их возбуждение потенциально уменьшило бы ошибку. Важную роль играет энтропийный критерий обновления весов: вероятность коррекции пропорциональна бинарной кросс-энтропии активаций, что позволяет выделять наиболее информативные признаки. Такой подход напоминает механизм отбора в генетических алгоритмах, где «побеждает» наиболее информативный элемент. Для связей A→R используется простое локальное корректирующее правило, а вклад ассоциативных элементов оценивается через информационный выигрыш; нерелевантные элементы исключаются из работы.

Upgini 13 окт в 16:00

Быстрый поиск полезных внешних данных для улучшения точности ML модели в Python

Простой

6 мин

1.3K

Data Engineering * Data Mining * Машинное обучение *

Туториал

Перевод

Эта статья - пример того как можно с помощью публичных Python библиотек обогатить тестовый датасет новыми внешними полезными данными и значимо улучшить качество ML модели.

EvgeniyRasyuk 12 окт в 17:36

Как ИИ учится пользоваться компьютером, просто глядя на видео

Простой

5 мин

946

Data Mining *

Обзор

Что, если бы искусственный интеллект мог сам научиться работать с любым приложением — без API, без скриптов и без инструкций — просто наблюдая, как это делает человек на YouTube?

Недавняя исследовательская работа «Watch & Learn: Learning to Use Computers from Online Videos» (Song et al., 2025) предлагает именно это. Учёные из Стэнфорда и Google разработали систему, которая способна извлекать действия пользователя из обычных обучающих видео и превращать их в исполняемые сценарии взаимодействия с интерфейсом.

Если раньше мы вручную создавали тесты, макросы и RPA-ботов для автоматизации рутинных операций, то теперь ИИ может сам «подсмотреть» за пользователем, понять, куда он кликает, что вводит и зачем, — и воспроизвести эти действия на новой системе.

KhanAta 3 окт в 16:16

Байесовский анализ и временные ряды в прогнозировании отказов оборудования на примере нефтегазовых компаний

Простой

7 мин

1.8K

Data Mining * Big Data * Python * Data Engineering *

Из песочницы

Предсказание отказов оборудования в нефтегазовой отрасли задача, которая напрямую связана с деньгами и безопасностью. Простои установки стоят миллионы, а аварии могут привести к еще большим потерям. В компаниях вроде X и Z тема предиктивного обслуживания обсуждается не ради модернизации ради самой модернизации, а потому что каждый дополнительный час работы без поломки снижает затраты.

В отличие от прогнозирования спроса или продаж, где данных много и повторяются стандартные паттерны, с отказами все иначе. Оборудование способно работать месяцами без проблем, а потом неожиданно ломается. Получается, что у нас есть длинная история "все было нормально" и очень мало записей про то, как и когда все же что-то сломалось.

kucev 9 окт в 11:00

Актуальные вопросы по ИИ и перспективным технологиям

7 мин

565

Big Data * Машинное обучение * Искусственный интеллектData Mining * Data Engineering *

Перевод

Эксперты Gartner дают краткие ответы на свежие вопросы клиентов о перспективных технологиях.

Фокус на принятии решений: когда инвестировать в агентный ИИ и DSLM, какие метрики измерять и как масштабировать без потери контроля.

Upgini 9 окт в 07:16

Оптимизация источников данных для ML моделей

Простой

7 мин

827

Машинное обучение * Data Engineering * Data Mining * Big Data *

Из песочницы

В этой статье хочется поделиться собственной методикой оптимизации источников данных для кредитного скоринга и представить ключевые результаты реальных замеров на российском рынке.

kruglikle 5 окт в 10:19

Учебник под микроскопом. Часть 2. Предобработка текста: регулярки, токенизация и лемматизация на практике

Простой

4 мин

1.3K

Python * Data Mining * Data Engineering *

Туториал

В статье рассмотрен процесс предобработки текстов учебников для последующего анализа и обучения моделей машинного обучения. Показано, как из "сырого" текста, извлечённого из PDF, получить очищенный, структурированный и готовый к обработке набор данных. Основное внимание уделено этапам очистки текста от лишних символов, нормализации регистра, токенизации, лемматизации и удалению стоп-слов, а также POS-теггингу. Для каждого этапа приведены примеры с использованием Python и библиотек spaCy, re, а также альтернативные инструменты (NLTK, ftfy, clean-text). В качестве практического применения рассматривается проект EduText Analyzer, направленный на автоматизированный анализ учебников по иностранным языкам. Данные после предобработки сохраняются в форматах CSV и TXT, что обеспечивает дальнейшую обработку, анализ и обучение моделей. Статья предназначена для исследователей в области NLP, педагогов и разработчиков образовательных технологий.

tac 1 окт в 15:19

Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов

Средний

5 мин

2.1K

Машинное обучение * Алгоритмы * Data Mining *

Recovery Mode

C. Яковлев mg.sc.comp e-mail: tac1402@gmail.com

Disclaimer. Это анонс, я еще работаю над научной статьей, но пока не могу найти ментора для возможности публикации в arxiv.org. Но пока хочу поделится с вами некоторыми сырыми результатами.

Аннотация. Классический перцептрон Розенблатта с архитектурой S–A–R исторически не имел устойчивого алгоритма обучения многослойных структур. В результате в современном машинном обучении доминирует метод обратного распространения ошибки (backpropagation), основанный на градиентном спуске. Несмотря на успехи, этот подход имеет фундаментальные ограничения: необходимость вычисления производных нелинейных функций и высокая вычислительная сложность. В данной работе показано, что при интерпретации работы нейросети через алгоритм ID3 (Rule Extraction) скрытый слой автоматически формирует чистые окрестности в смысле кластерного анализа — признаки группируются по классам ещё до завершения обучения. На основе этого наблюдения автором предложен новый стохастический алгоритм обучения, восходящий к идеям Розенблатта, но принципиально расширяющий их: он позволяет обучать скрытые слои перцептрона без вычисления градиентов. Таким образом, впервые решается классическая проблема обучения архитектуры S–A–R без градиентных методов. Это открывает путь к созданию принципиально новых алгоритмов обучения нейросетей с более простой и интерпретируемой динамикой.

kucev 19 сен в 11:01

Селективная генерализация: улучшение возможностей при сохранении alignment

16 мин

238

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

TL;DR: Мы провели бенчмаркинг семи методов, направленных на предотвращение эмерджентного рассогласования и других форм некорректного обобщения с использованием ограниченного объёма alignment-данных. Мы демонстрируем устойчивый трейдофф между способностями модели и согласованием, подчеркивая необходимость более эффективных методов для снижения этого конфликта. Простое включение alignment-данных в микс обучающих данных оказывается недостаточным для предотвращения рассогласования, однако простое наложение KL Divergence penalty на alignment-данные показывает лучшие результаты, чем более сложные подходы.

kucev 2 окт в 11:00

IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ

5 мин

1.2K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.

Sasa987 вчера в 12:16

Свой оффлайн-ассистент на Phi-3-mini: Разворачиваем локальную модель нейросети для анализа данных с открытым кодом

Простой

4 мин

1.5K

Python * Data Mining *

Из песочницы

Recovery Mode

Тренд на использование больших языковых моделей (LLM) не ослабевает, но облачные решения вроде ChatGPT или Gemini имеют ряд ограничений: зависимость от интернета, платные подписки и, что самое важное, конфиденциальность данных. Особенно остро последний вопрос стоит при работе с корпоративной или чувствительной информацией, которую нельзя загружать в чужие сервисы.

В этой статье я хочу поделиться опытом создания полностью локального AI-ассистента на основе Microsoft Phi-3-mini — компактной, но мощной модели, способной анализировать данные из CSV, JSON и TXT файлов. Весь проект представляет собой набор Python-скриптов с открытым исходным кодом, которые автоматизируют установку и предоставляют интуитивно понятный чат-интерфейс.

Почему Phi-3-mini?

Microsoft позиционирует семейство моделей Phi-3 как "достаточно маленькие" (Small Language Models), но при этом "достаточно умные". Phi-3-mini, обладая 3.8 миллиардами параметров, демонстрирует производительность, сопоставимую с моделями вроде Mixtral 8x7B и GPT-3.5, но в значительно меньшем размере. Это делает её идеальным кандидатом для локального запуска на потребительском железе.

Компактность: ~7-8 ГБ против десятков и сотен ГБ у более крупных моделей.

Эффективность: Оптимизирована для работы на GPU с ограниченными ресурсами.

Качество: Поддерживает контекст до 4K токенов и отлично справляется с логическими и аналитическими задачами, включая код.

kucev 14 окт в 11:00

LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше

7 мин

620

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

В гонке за следующей волной «умных» систем большие языковые модели (LLM) берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход уже экономит командам массу ручной работы, но остаются вопросы: способен ли LLM уловить каждую тонкую ошибку? Что происходит в ситуациях, где критичны человеческая интуиция или глубокая предметная экспертиза?

Реальность такова: человеческие ревьюеры по-прежнему обеспечивают уровень контекстного понимания, которому ИИ пока не соответствует. Поэтому вместо того чтобы противопоставлять методы, многие в индустрии приходят к связке «LLM-судья + человеческая оценка» как к наиболее эффективной комбинации. В этой статье разберём, что такое LLM-судья, как он соотносится с человеческой оценкой и почему гибридный подход имеет наибольший смысл.

Data Mining *

Мы решили задачу омографов и ударений в русском языке

Новости

Игра на опережение с LLM: с чем вышли на Q4 (анализ 134 195 научных работ 2025 года)

Ваш грейд, стек и немного боли: опрос для data-специалистов

Рекомендательные системы в современном мире

Перцептрон SAAR (само-рекурсивный ассоциативно адаптивный резервуар)

Быстрый поиск полезных внешних данных для улучшения точности ML модели в Python

Как ИИ учится пользоваться компьютером, просто глядя на видео

Байесовский анализ и временные ряды в прогнозировании отказов оборудования на примере нефтегазовых компаний

Актуальные вопросы по ИИ и перспективным технологиям

Оптимизация источников данных для ML моделей

Учебник под микроскопом. Часть 2. Предобработка текста: регулярки, токенизация и лемматизация на практике

Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов

Селективная генерализация: улучшение возможностей при сохранении alignment

Ближайшие события

IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ

Свой оффлайн-ассистент на Phi-3-mini: Разворачиваем локальную модель нейросети для анализа данных с открытым кодом

LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше

Вклад авторов