Все потоки

Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

Neurosonya 5 часов назад

ИИ-ученые 2025: SR-Scientist, DeepEvolve и Kosmos — чем отличаются и зачем. И почему выстрелил Kosmos

Простой

8 мин

176

Машинное обучение * Natural Language Processing * Data Mining * Алгоритмы * Исследования и прогнозы в IT *

Аналитика

Recovery Mode

За год ИИ-Ученые выросли из демо в рабочие инструменты: одни вынимают законы из данных, другие эволюционируют код под бенчмарки, третьи связывают литературу и анализ в проверяемые отчеты. Разбираем 3 характерных подхода: SR-Scientist, DeepEvolve и Kosmos, для чего они нужны и в чем различны. И почему именно вокруг Kosmos столько шума.

Читать далее

+2

malyazin_2010 11 часов назад

Определение координат дрона относительно движущегося объекта

3 мин

1.2K

3D-графика * AR и VRData Mining * Машинное обучение * Мультикоптеры

Лет пять назад мы с другом делали один необычный проект рекламного характера с продвинутой видеосъемкой с дрона. Проект в итоге завершен не был, но интересные наработки остались. Возможно кому-то пригодятся эти наработки или кто-то захочет довести этот проект до конца

Читать далее

+2

kucev вчера в 11:30

Маршрутизация LLM: оптимизация путей обработки языка

6 мин

527

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

В стремительно развивающемся мире искусственного интеллекта большие языковые модели (LLM) стали мощными инструментами, способными понимать и генерировать текст, близкий к человеческому. По мере роста их сложности и масштаба критичной становится эффективная организация путей обработки. Маршрутизация LLM — это стратегическое распределение и оптимизация вычислительных ресурсов внутри таких систем. По сути, это выбор того, каким путём проходит входной текст через различные компоненты/ветки, чтобы получить максимально точный и релевантный результат. Умно направляя промпты и балансируя нагрузку, маршрутизация повышает эффективность, отзывчивость и общую производительность языковых моделей.

Читать далее

0

sipliza вчера в 05:15

Основы аналитики и ML простым языком ч.1

Простой

8 мин

3.5K

Data Mining * Профессиональная литература *

Из песочницы

Книга «Бизнес-аналитика: от данных к знаниям» впервые увидела свет в 2009 году, но это всё ещё классика для начинающих специалистов. Ниже представлен конспект первой главы книги, посвящённый введению в анализ данных и ML.

Читать далее

+10

kucev 3 ноя в 11:00

GDPval: измерение производительности AI-моделей на реальных задачах

15 мин

440

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Наша миссия — обеспечить то, чтобы искусственный общий интеллект (AGI) приносил пользу всему человечеству. В рамках этой миссии мы стремимся максимально прозрачно освещать прогресс того, как AI-модели учатся помогать людям в реальной жизни. Именно поэтому мы представляем GDPval — новую систему оценки, разработанную для отслеживания того, насколько эффективно наши модели и модели других разработчиков справляются с задачами, имеющими экономическую ценность и практическое значение. Мы назвали эту метрику GDPval, потому что она вдохновлена концепцией валового внутреннего продукта (ВВП, англ. GDP) как ключевого экономического индикатора, а набор задач основан на типичных ролях в индустриях, которые вносят наибольший вклад в ВВП.

Люди часто рассуждают о масштабном влиянии AI на общество, но самый наглядный способ понять каков его потенциал, это посмотреть на то, что модели уже умеют делать на практике. История показывает, что крупным технологиям, от интернета до смартфонов, требовалось более десяти лет, чтобы пройти путь от изобретения до массового внедрения. Такие оценки, как GDPval, помогают пр��землить разговоры о будущем ИИ на факты, а не на догадки, и дают возможность отслеживать прогресс моделей во времени.

Читать далее

+2

bzverev 1 ноя в 02:17

Управление техническим состоянием объектов путевой инфраструктуры с применением информационных технологий

Средний

23 мин

279

Анализ и проектирование систем * Data Engineering * Data Mining * Научно-популярное

Ретроспектива

Эта статья была написана мной и опубликована в отраслевом научном журнале более четверти века назад, когда я работал в головном НИИ железнодорожной отрасли (ВНИИЖТ МПС) в должности заместителя заведующего лабораторией и занимался вопросами научно-методического обеспечения задач управления производственными процессами путевого хозяйства железных дорог России, автоматизацией функций и применением информационных технологий для нужд путевого хозяйства.

В статье рассматриваются вопросы управления техническим состоянием объектов путевого хозяйства с применением информационных технологий.

Читать статью

0

slivka_83 31 окт в 10:47

50 оттенков вайб-кодинга

8 мин

18K

Машинное обучение * Natural Language Processing * Искусственный интеллектData Mining *

Обзор

Краткий обзор двух десятков AI-инструментов, которые можно использовать для написания кода (a.k.a вайб-кодинга).

Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

Читать далее

+6

GenomeDust 30 окт в 19:06

Анализ EEG-датасетов с Kaggle: от сигнала до ML-модели

Простой

7 мин

398

Python * Data Engineering * Data Mining *

Из песочницы

Электроэнцефалография (ЭЭГ) — это неинвазивный метод регистрации электрической активности мозга через электроды на поверхности головы. За последние годы ЭЭГ-данные перестали быть исключительно медицинской прерогативой и прочно вошли в мир data science. Сегодня их используют в нейромаркетинге для оценки реакций на рекламу, в когнитивных исследованиях для измерения внимания и памяти, в разработке Brain-Computer Interface (BCI) и даже в спортивной аналитике.

Читать далее

0

slivka_83 24 окт в 17:03

Краткий обзор 10 локальных UI для LLM

4 мин

9.4K

Машинное обучение * Natural Language Processing * Искусственный интеллектData Mining *

Обзор

На просторах интернета можно найти множество интерфейсов для LLM. Все они довольно разношерстные и обладают разным функционалом: от простых чатов до почти энтерпрайз-приложений.

Я установил и опробовал 10 них (на самом деле больше, но нормальных только 10 :) В этой статье найдете их краткий обзор.

Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

Читать далее

+12

BernoulliCapital 24 окт в 11:47

Вероятно��тные методы в биржевой торговле

Средний

13 мин

4.6K

КриптовалютыData Mining * Data Engineering * Big Data * Финансы в IT

Обзор

Современная биржевая торговля эволюционировала от интуитивных решений к строгим математическим моделям. В эпоху доминирования алгоритмических систем глубокое понимание стохастических основ рыночной динамики становится критически важным конкурентным преимуществом. На протяжении пяти лет мы исследуем применение сложных вероятностных моделей для анализа, прогнозирования финансовых инструментов и готов представить наиболее значимые аспекты этой методологии.

Финансовые площадки функционируют как сложные адаптивные механизмы, где множество участников действуют в условиях фундаментальной неопределенности. Математический аппарат теории вероятностей позволяет формализовать эту неопределенность и создавать аналитические конструкции, способные выявлять скрытые паттерны в хаотичных ценовых колебаниях.

Читать далее

+23

kucev 23 окт в 11:00

Плюсы и минусы платформы автоматизации рабочих процессов n8n

17 мин

9.4K

Блог компании Data Feeling SchoolData Mining * Искусственный интеллектМашинное обучение * Big Data *

Перевод

Бизнес всегда стремится к большей эффективности — делать больше, затрачивая меньше времени и ресурсов. Один из способов достичь этого — использование программ для автоматизации рабочих процессов, которые берут на себя повторяющиеся и трудоемкие задачи, от поддержки клиентов до формирования отчетов.

Среди множества доступных решений n8n привлекает внимание своей гибкостью, открытым исходным кодом и способностью справляться со сложными процессами. Но, как и любой мощный инструмент, он имеет сильные и слабые стороны. В этой статье мы подробно рассмотрим плюсы и минусы использования n8n, чтобы помочь вам решить, подходит ли он для ваших задач по автоматизации.

Читать далее

+10

slivka_83 18 окт в 16:41

Разработка MCP-сервера на примере CRUD операций

10 мин

6.6K

Python * Data Mining * Искусственный интеллектNatural Language Processing * Машинное обучение *

Туториал

Model Context Protocol (MCP) — это единый стандарт разработки API для сервисов, с которыми могут взаимодействовать LLM.

В этой статье на простом примере разберем, как создать свой MCP-сервер и как использовать его в связке с LLM.

Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

Читать далее

+20

Sasa987 16 окт в 12:16

Свой оффлайн-ассистент на Phi-3-mini: Разворачиваем локальную модель нейросети для анализа данных с открытым кодом

Простой

4 мин

3.3K

Python * Data Mining *

Из песочницы

Recovery Mode

Тренд на использование больших языковых моделей (LLM) не ослабевает, но облачные решения вроде ChatGPT или Gemini имеют ряд ограничений: зависимость от интернета, платные подписки и, что самое важное, конфиденциальность данных. Особенно остро последний вопрос стоит при работе с корпоративной или чувствительной информацией, которую нельзя загружать в чужие сервисы.

В этой статье я хочу поделиться опытом создания полностью локального AI-ассистента на основе Microsoft Phi-3-mini — компактной, но мощной модели, способной анализировать данные из CSV, JSON и TXT файлов. Весь проект представляет собой набор Python-скриптов с открытым исходным кодом, которые автоматизируют установку и предоставляют интуитивно понятный чат-интерфейс.

Почему Phi-3-mini?

Microsoft позиционирует семейство моделей Phi-3 как "достаточно маленькие" (Small Language Models), но при этом "достаточно умные". Phi-3-mini, обладая 3.8 миллиардами параметров, демонстрирует производительность, сопоставимую с моделями вроде Mixtral 8x7B и GPT-3.5, но в значительно меньшем размере. Это делает её идеальным кандидатом для локального запуска на потребительском железе.

Компактность: ~7-8 ГБ против десятков и сотен ГБ у более крупных моделей.

Эффективность: Оптимизирована для работы на GPU с ограниченными ресурсами.

Качество: Поддерживает контекст до 4K токенов и отлично справляется с логическими и аналитическими задачами, включая код.

Читать далее

+5

kucev 14 окт в 11:00

LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше

7 мин

765

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

В гонке за следующей волной «умных» систем большие языковые модели (LLM) берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход уже экономит командам массу ручной работы, но остаются вопросы: способен ли LLM уловить каждую тонкую ошибку? Что происходит в ситуациях, где критичны человеческая интуиция или глубокая предметная экспертиза?

Реальность такова: человеческие ревьюеры по-прежнему обеспечивают уровень контекстного понимания, которому ИИ пока не соответствует. Поэтому вместо того чтобы противопоставлять методы, многие в индустрии приходят к связке «LLM-судья + человеческая оценка» как к наиболее эффективной комбинации. В этой статье разберём, что такое LLM-судья, как он соотносится с человеческой оценкой и почему гибридный подход имеет наибольший смысл.

Читать далее

+1

Upgini 13 окт в 16:00

Быстрый поиск полезных внешних данных для улучшения точности ML модели в Python

Простой

6 мин

1.8K

Data Engineering * Data Mining * Машинное обучение *

Туториал

Перевод

Эта статья - пример того как можно с помощью публичных Python библиотек обогатить тестовый датасет новыми внешними полезными данными и значимо улучшить качество ML модели.

Читать далее

+4

EvgeniyRasyuk 12 окт в 17:53

Обзор исследования Стэнфорда: «Ложь ради продаж: как стимулы влияют на обман со стороны ИИ-агентов»

Простой

5 мин

556

Обзор

TL;DR: В конкурентных задачах (продажи, выборы, соцсети) лёгкая оптимизация LLM под «победу» даёт скромный прирост метрик… и взрывной рост нарушений: обман, дезинформация, популизм, небезопасные призывы.

Статья “Moloch’s Bargain: Emergent Misalignment When LLMs Compete for Audiences” (Stanford, 07 окт 2025) показывает: если оптимизировать LLM-агентов на «победу в конкуренции» (продажи/голоса/вовлечение), то вместе с ростом метрик резко растут нарушения — обман, дезинформация, популизм и небезопасные призывы. Приросты эффективности малы (+4.9–7.5%), а рост вредного поведения велик (до +188.6%). Вывод: CRM-, маркетинг- и SMM-агентов нужно проектировать по принципу «правда и соблюдение закона > продажи», с жесткими промпт-политиками, триажем фактов, аудитом и юридическими ограничителями.

Читать далее

+2

EvgeniyRasyuk 12 окт в 17:36

Как ИИ учится пользоваться компьютером, просто глядя на видео

Простой

5 мин

1.1K

Обзор

Что, если бы искусственный интеллект мог сам научиться работать с любым приложением — без API, без скриптов и без инструкций — просто наблюдая, как это делает человек на YouTube?

Недавняя исследо��ательская работа «Watch & Learn: Learning to Use Computers from Online Videos» (Song et al., 2025) предлагает именно это. Учёные из Стэнфорда и Google разработали систему, которая способна извлекать действия пользователя из обычных обучающих видео и превращать их в исполняемые сценарии взаимодействия с интерфейсом.

Если раньше мы вручную создавали тесты, макросы и RPA-ботов для автоматизации рутинных операций, то теперь ИИ может сам «подсмотреть» за пользователем, понять, куда он кликает, что вводит и зачем, — и воспроизвести эти действия на новой системе.

Читать далее

+4

snakers4 9 окт в 18:34

Мы решили задачу омографов и ударений в русском языке

Средний

10 мин

11K

Машинное обучение * Natural Language Processing * Python * Open source * Data Mining *

Обзор

Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут.

Несмотря на кажущуюся простоту (задача по сути является бинарной классификацией, число кейсов с тремя валидными вариантами ничтожно мало), задача является просто кладезем различных "мин замедленного действия" и типичных граблей в сфере машинного обучения. Да, задачу "ёфикации" (расстановка буквы ё там, где люди её поленились поставить) мы считаем частным случаем задачи простановки ударений и омографов.

Также мы опубликовали наше продуктовое решение для простановки ударений (в омографах в том числе) в рамках репозитория silero-stress и также напрямую через pypi. В ближайшее время добавим эту модель и обновим наши публичные модели синтеза и раскатим более мощную "большую" (тоже маленькую по современным меркам) версию модели в приватные сервисы и для клиентов. Также мы опубликовали бенчмарки качества и скорости публичных академических решений … и там всё очень неоднозначно.

Наливайте себе чай, садитесь поудобнее. Мы постараемся описать наш путь длиной в вечность без лишних подробностей.

Сели, налили, читаем

+72

kucev 9 окт в 11:00

Актуальные вопросы по ИИ и перспективным технологиям

7 мин

650

Big Data * Машинное обучение * Искусственный интеллектData Mining * Data Engineering *

Перевод

Эксперты Gartner дают краткие ответы на свежие вопросы клиентов о перспективных технологиях.

Фокус на принятии решений: когда инвестировать в агентный ИИ и DSLM, какие метрики измерять и ка�� масштабировать без потери контроля.

Читать далее

+3

Upgini 9 окт в 07:16

Оптимизация источников данных для ML моделей

Простой

7 мин

929

Машинное обучение * Data Engineering * Data Mining * Big Data *

Из песочницы

В этой статье хочется поделиться собственной методикой оптимизации источников данных для кредитного скоринга и представить ключевые результаты реальных замеров на российском рынке.

Читать далее

+3

1

2 3 ...