Все потоки

Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

VadimMichaylov 16 сен в 09:17

Агрегация и парсинг XML RSS ленты на Python

9 мин

1.1K

Блог компании AmveraПрограммирование * Python * XML * Data Mining *

Туториал

В этой статье рассмотрим, как с помощью Python собирать и обрабатывать новости с сайта, имеющего RSS.

В нашей статье мы создадим скрипт на Python, который за заданный период (например, за последние 4 часа) соберёт все записи из нескольких лент сайта BBC, отфильтрует их по ключевому слову «Трамп» и опубликует итоговый подбор в наш Telegram-канал. Далее рассмотрим код, вы легко сможете адаптировать его под любую другую ленту или ключевое слово.

Читать далее

+4

mmshaa9 16 сен в 05:00

Снятие проклятия размерности: как познакомиться со своими данными

6 мин

1.7K

Python * Data Mining *

1. Проклятие размерности

Человек эволюционировал в 3 пространственных измерениях, и в них мы себя шикарно чувствуем. В них мы живем, радуемся, грустим, да и все драмы жизни проходят в этих измерениях. Правда в первой половине 20 века Теодор Калуца и Оскар Клейн нашли еще одно измерение, но оно маленькое и его людям не видно. После струнные теоретики, такие как Леонард Сасскинд, Герард т`Хофт, Яу Шинтун, Александр Виленкин и другие, опять сильно усложнили картину мира, и к 4 пространственным измерениям добавили еще 6 (это минимум), но они все где то не пойми где, и влияют на жизнь только физиков-теоретиков, а остальным n-миллиардам людей на Земле, нет никакого дела до этих измерений, им и в 3 хорошо живется.

Другое дело математика и наука о данных, тут измерений может быть сколько угодно, например вот:

Читать далее

+11

kucev 15 сен в 11:30

Скаутинг 2.0: как ИИ и xG находят таланты раньше рынка

5 мин

516

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Футбол больше не сводится лишь к интуиции и традициям. Теперь это соревнование за то, кто сможет эффективнее использовать данные. От продуманной трансферной стратегии «Брайтона» до работы Луиша Кампуша в ПСЖ — клубы всё активнее обращаются к продвинутой аналитике, чтобы опередить соперников. Это означает использование инструментов на базе искусственного интеллекта, машинного обучения и футбольных данных для более раннего поиска талантов, снижения рисков при трансферах и получения конкурентных преимуществ.

Читать далее

+3

alealandreev 14 сен в 12:03

Polars — «убийца Pandas» на максималках

Простой

35 мин

4.8K

Data Engineering * Data Mining * Big Data * Python * Rust *

Туториал

Всем привет! Меня зовут Александр Андреев, я инженер данных. Сегодня я хочу рассказать вам о библиотеке Polars - потенциальной замене Pandas, любимой у большинства дата-инженеров и дата-саентистов библиотеки для работы с данными.

В своей статье я последовательно пройдусь от истории библиотеки Polars до примеров кода, технических аспектов ее производительности и в конце дам ссылки на все бенчмарки, обучающие материалы и дополнительные статьи, которые использовались для написания данного обзора-туториала по этой замечательной библиотеке.

Читать далее

+13

Albert_Wesker 13 сен в 08:06

Миф о быстром и медленном пути выполнения программы

Средний

11 мин

4.2K

Блог компании Timeweb CloudАнализ и проектирование систем * ПроцессорыData Mining * Сетевые технологии *

Обзор

Перевод

Одна из самых «ходовых» оптимизаций в вычислительной технике — это предусматривать для программы «быстрый» и «медленный» путь выполнения. В общем случае эта оптимизация работает. Техники оптимизации применяют на программном или аппаратном уровне. Цель — добиться, чтобы выполнение по быстрому пути было нормальным сценарием и шло «по умолчанию» — работаем быстро и очень эффективно. Выполнение по медленному пути предусматривается для необычных случаев, при исключениях, выбросах. Такой вариант работы выполняется в безопасном, но сравнительно медленном программном окружении, где можно позволить себе не спешить. На первый взгляд выглядит отлично, но, как оказывается, в реальности всё совсем иначе.

Практикующий инженер постепенно убеждается на собственном опыте, что дихотомия быстрый/медленный путь — это зачастую просто привлекательный мираж. Снова и снова мы видим, что попытка внедрить быстрый/медленный путь в реальной системе не даёт результата. Именно в этой области практика вступает в острое противоречие с теорией.

Читать далее

+17

MaxRokatansky 12 сен в 13:10

Law & Practice Ensemble RAG. Как создать ИИ-ассистента, помогающего решать многоаспектные юридические задачи

42 мин

2.2K

Блог компании OTUSNatural Language Processing * Машинное обучение * Искусственный интеллектData Mining *

В первой части мы кратко рассмотрели предпосылки и последствия ИИ‑трансформации деятельности юристов, а также предложили вариант архитектуры продвинутой RAG‑системы, учитывающей особенности юридической предметной области.

Во этой части мы проведем обзор общих и юридических бенчмарков, которые целесообразно учитывать при оценке технических компонент RAG, а также системы в целом. В заключение рассмотрим, как самостоятельно подготовить тестовый датасет для оценки RAG‑системы с помощью фреймворка RAGAS и разберем итоговые результаты эксперимента.

Читать далее

+5

dweebishqys 12 сен в 07:12

Перевод датасета для оценки эмпатии на русский язык: подход, проблемы, результаты

Простой

11 мин

410

Natural Language Processing * Искусственный интеллектData Mining * Машинное обучение *

Из песочницы

Эмпатия играет важную роль в коммуникации между людьми, и в частности, в сервисах психологической помощи. В онлайн-среде, где такая помощь всё чаще оказывается в текстовом формате, появляется много различных сервисов, которые предоставляют психологическую помощь на основе чатботов. Для них способность отвечать эмпатично становится критически важным навыком. В противном случае хорошо если сеанс окажется просто бесполезным и не усугубит имеющиеся проблемы.

Успех БЯМ побуждает разработчиков использовать их в качестве основы для таких чатботов. Для оценки их способностей разрабатываются различные бенчмарки, в частности для задач с уклоном в психотерапию. Одним из таких является PsyEval.

Однако для автоматической оценки эмпатии в текстах на русском языке размеченных датасетов просто нет. Мы, русскоязычные MLщики, не можем сказать, как сейчас БЯМ справляются с задачами, которые связаны с выявлением эмпатии и генерацией эмпатичных ответов. А ведь эти задачи напрямую влияют на качество инструментов псих-поддержки.

Чтобы это хоть как-то исправить, мы приспособили большие языковые модели к переводу датасета с английского на русский язык. В этом посте я расскажу, как мы в команде Пситехлаб переводили датасет EPITOME с помощью больших языковых моделей.

Читать далее

+1

kucev 11 сен в 11:00

GEPA вместо RL: как рефлексивная эволюция промптов обгоняет обучение с подкреплением

31 мин

1.1K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Большие языковые модели (LLM) всё чаще адаптируются к downstream-задачам с помощью методов RL, таких как Group Relative Policy Optimization (GRPO), которые нередко требуют тысячи прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставлять LLM куда более богатую обучающую среду по сравнению с policy gradient’ами, основанными на разреженных скалярных наградах.

Чтобы проверить эту гипотезу, мы представляем GEPA (Genetic-Pareto) — оптимизатор промптов, который системно использует natural language reflection для извлечения высокоуровневых правил из trial-and-error процесса. Для любой AI-системы, содержащей один или несколько промптов LLM, GEPA сэмплирует траектории на уровне системы (например, рассуждения, вызовы инструментов и их выводы) и анализирует их на естественном языке, чтобы диагностировать проблемы, предлагать и тестировать обновления промптов, а также объединять комплементарные инсайты с границы Парето собственных попыток.

Благодаря такому дизайну GEPA нередко превращает даже несколько прогонов в существенный прирост качества. На четырёх задачах GEPA в среднем превосходит GRPO на 10% и до 20% максимум, при этом используя до 35× меньше прогонов. GEPA также опережает ведущий оптимизатор промптов MIPROv2 более чем на 10% на двух LLM и демонстрирует обнадёживающие результаты как стратегия поиска на этапе инференса для задач оптимизации кода.

Читать далее

0

kucev 8 сен в 11:00

Humans-in-the-loop vs synthetic data: за что идёт борьба на рынке AaaS

8 мин

330

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Scale зарабатывает более $750 млн в год на продаже данных для RLHF. Кто собирается их потеснить?

Scale AI — стартап, ранее известный своими контрактами на разметку данных для беспилотных автомобилей и военных проектов, приближается к годовому обороту в $1 млрд благодаря своим дата-сервисам, используемым в техниках вроде reinforcement learning from human feedback (RLHF). Я давно слышал слухи об их масштабах, о том, что они работают буквально со всеми крупными AI-лабораториями — от Meta до OpenAI, но увидеть подтверждение этого в публичных отчетах ощущается совсем иначе.

Читать далее

0

U3DSBVRGE 7 сен в 20:26

LLM AI на «стероидах» прошлой эры, для ИИ новой эры. Круг замкнулся

Простой

5 мин

865

Data Mining * Prolog * Искусственный интеллектМашинное обучение * Анализ и проектирование систем *

Аналитика

В своих размышлениях и прошлых попытках разработки ИИ, я добрался до сего дня llm - large language models. Однако этим моделям свойственны некоторые точности с контролем выходного результата, а именно почему получилось именно так.

Многие знают, что новое - это хорошо забытое старое. Поэтому эксперты старой закалки, опыта и знаний, находят решения, которые далеко не каждому придут в голову. Забегаю вперёд, скажу что это прототип, однако у него есть явные преимущества, плюсы и перспективы. Пока что на просторах интернета я не нашел подобных решений или они мало афишируются.

Надеюсь специалисты из крупных компаний, средними бюджетами и возможностью оплатить работу десятка специалистов, прочитают, увидят разумное зерно и преисполняется.

Техническое задание (ТЗ) на проект, основанный на извлечении триплетов из текста, логическом выводе и масштабируемой обработке графа знаний с GPU-ускорением:

---

📘 Техническое задание: Система извлечения и логического анализа триплетов с GPU-ускорением

🔹 Цель проекта

Разработка гибридной экспертной системы, способной:

- Извлекать триплеты из неструктурированного текста с помощью LLM

- Хранить и обрабатывать триплеты в логической форме (Prolog)

- Масштабировать поиск и reasoning через кластеризацию и GPU-графовые вычисления

---

🔹 Архитектура системы

1. Модуль извлечения знаний

- Вход: текстовые данные (статьи, документы, диалоги)

- Выход: триплеты вида <субъект> — <предикат> — <объект>

- Инструменты: LLM с кастомным промптом, поддержка хотя бы одного языка. Перевод это техническая обвязка.

Читать далее

-4

tac 5 сен в 22:32

Интерпретация и оптимизация перцептрона Розенблатта

Сложный

8 мин

2.1K

Машинное обучение * Алгоритмы * Data Mining *

Ретроспектива

Recovery Mode

В прошлой статье на Хабре «На дворе LLM, а книгу о перцептроне так никто и не открыл!?» я указал, что многие понятия не имеют о перцептроне Розенблатта, но пишут о нем так как будто читали оригинал. И так или иначе в комментариях прошла дискуссия, как минимум с тремя оппонентами, которые тоже находятся в разного рода не знании о перцептроне. Что только подтверждает мои слова, что это массовое явление. Поэтому даже в научной статье мне придётся этому уделить не малое внимание. Свою статью, я еще не опубликовал, да ещё полностью и не написал, хотя все эксперименты были сделаны 15 лет назад, а сейчас их нужно улучшить. Собственно, когда я сам стряхнул пыль с них, я долго не мог по программному коду понять, о чем это, что это дает, так и возникла моя мысль, что это нужно донести людям. И подумал, почему бы мне некоторые разделы будущей статьи, сразу не взять и не опубликовать тут на Хабре. Имея широкий охват, это может иметь даже большую пользу, чем публикация в модерируемом издании. Поэтому ниже я дам выдержки из своего черновика статьи «как есть», относящиеся в основном к «утерянной памяти о перцептроне», но т.к. как это часть научной статьи, настоятельно прошу при цитировании ссылаться на меня. Хотя и понимаю, что выдержки не дадут вам полного понимания проблемы, но как минимум расскажут о известных фактах и надеюсь, все же уберегут от поверхностного взгляда. Ну и мало ли — если тут найдется специалист, который публикуется на https://arxiv.org последние 5 лет, мне нужна ваша помощь с рекомендацией, свяжитесь со мной. Тогда полноценная статья выйдет быстрее.

Но прежде, чем начать, я хочу, в отличии от прошлой своей статьи на хабре, похвалить автора статьи Всё, что вы хотели знать о перцептронах Розенблатта, но боялись спросить, которая вселяет надежду, что люди все таки читают оригиналы, и не живут мифами. А за информацию о биографии Розенблатта — отдельное спасибо, таких подробностей я не знал. Очень рекомендую прежде, чем читать дальше.

Читать далее

+3

kucev 4 сен в 11:00

Скорость, стратегия и алгоритмы: будущее Формулы-1 в эпоху AI

5 мин

417

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Формула-1 всегда была местом пересечения инженерии и инноваций. В последние годы эта область инноваций расширилась за счёт внедрения искусственного интеллекта и машинного обучения.

От стратегии по выбору шин до аэродинамического дизайна — эти технологии меняют то, как команды планируют работу, реагируют на вызовы и развиваются. Они не заменяют человеческих специалистов, принимающих решения, но трансформируют набор инструментов, с которыми ведут борьбу за результат.

Читать далее

-3

artur_speaking 3 сен в 10:21

Что скрывают чаты: анализ Telegram-сообществ

12 мин

7.1K

Исследования и прогнозы в IT * Научно-популярноеВизуализация данных * Социальные сетиData Mining *

Аналитика

Человеку свойственно быть в группе, мы более социальные, чем даже можем себе это представить.

Сегодня не нужно ходить по домам и подавать объявления в газеты — достаточно найти чат и написать «Кто тусить?».

Но так ли всё однозначно? Что скрывают эти чаты, какие опасности они несут?

Я исследовал телеграм-сообщества, где можно найти единомышленников, найти друзей и подруг, а может, и любовь. Простые ли это чаты «тус» или нечто большее?

Читать далее

+3

Ibragim_bad 2 сен в 15:14

40 млн GitHub-репозиториев: открытый датасет метаданных для анализа и обучения

Простой

4 мин

2.2K

Data Mining * GitHub * Python *

Туториал

Я собрал датасет метаданных по ~40 млн публичных репозиториев GitHub. Внутри — звёзды, форки, лицензии, язык, описание, размер, дата создания и др. Схема по смыслу максимально совместима с GH Archive/GitHub API. Лицензия — MIT. Ниже — как скачать, что внутри и идеи использования.

Датасет: ibragim-bad/github-repos-metadata-40M

Читать далее

+5

kucev 1 сен в 11:00

Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные

6 мин

1.1K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

tl;dr. Мы изучаем сублиминальное обучение — неожиданное явление, при котором языковые модели перенимают свойства из данных, сгенерированных другой моделью, даже если эти данные семантически никак не связаны с передаваемыми свойствами. Например, «студент» начинает предпочитать сов, если его обучить на последовательностях чисел, сгенерированных «учителем», который предпочитает сов. Тот же феномен способен передавать misalignment через данные, которые выглядят абсолютно безобидными. Этот эффект проявляется только в том случае, если учитель и студент основаны на одной и той же базовой модели.

Исследование проведено в рамках программы Anthropic Fellows. Эта статья также опубликована в блоге Anthropic Alignment Science.

Читать далее

0

MarkovM 31 авг в 08:30

Парсинг Телеграм каналов, групп и чатов с обработкой в LLM

Средний

10 мин

18K

Блог компании AmveraPython * Искусственный интеллектПрограммирование * Data Mining *

Туториал

Всем привет! Вероятно, у каждого бывало: открываешь Телеграм-чат, а там тысячи новых сообщений за день. И где-то внутри этой «солянки» важный ответ на твой вопрос или обсуждение нужной темы. Или вам нужно отслеживать определённые сообщения для бизнес-целей.

Можно, конечно, потратить кучу времени на ручной поиск, но намного интереснее научить юзербота самостоятельно парсить историю чата и составлять из неё удобную базу для поиска по смыслу.

Читать далее

+7

master_program 28 авг в 19:06

Комбинаторная теория переобучения повысила информативность трассерных исследований в нефтегазовых месторождениях

Средний

6 мин

1.2K

Машинное обучение * Математика * Data Mining * Искусственный интеллектАлгоритмы *

Коллектив российских ученых исследовал применение методов машинного обучения для проектирования трассерных исследований. Целью было повышение достоверности результатов по выявлению гидродинамической связи в пласте между нагнетательными и добывающими скважинами в низкопроницаемых коллекторах с самопроизвольным развитием трещин гидроразрыва пласта (автоГРП) в нагнетательных скважинах. Работа была опубликована в российском журнале «Искусственный интеллект и принятие решений» и была выполнена совместно учеными и исследователями из МФТИ (г. Москва), ООО «РН-БашНИПИнефть» (г. Уфа) и ООО «РН-Юганскнефтегаз» (г. Нефтеюганск).

Читать далее

+3

kucev 28 авг в 11:00

Как строить умных AI-агентов: уроки Context Engineering от Manus

9 мин

7K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

В самом начале проекта Manus перед нашей командой встал ключевой вопрос: обучать ли end-to-end агентную модель, используя open-source foundation-модели, или же строить агента поверх возможностей in-context learning у frontier models?

В моё первое десятилетие в NLP у нас и выбора-то такого не было. В далёкие времена BERT (да, прошло уже семь лет) модели приходилось fine-tune'ить и тестировать, прежде чем они могли переноситься на новую задачу. Этот процесс часто занимал недели на одну итерацию, даже при том, что тогдашние модели были крошечными по сравнению с сегодняшними LLM. Для быстроразвивающихся приложений, особенно на этапе до PMF, такие медленные циклы обратной связи — смертный приговор. Это был горький урок из моего прошлого стартапа, где я обучал модели с нуля для open information extraction и семантического поиска. А потом появились GPT-3 и Flan-T5, и мои внутренние модели стали не актуальны буквально за ночь. Ирония в том, что именно эти модели положили начало in-context learning — и открыли совершенно новый путь развития.

Из этого болезненного опыта выбор был очевиден: Manus делает ставку на context engineering. Это позволяет выпускать улучшения за часы, а не за недели, и держит наш продукт ортогональным по отношению к базовым моделям: если прогресс моделей — это прилив, то мы хотим, чтобы Manus был лодкой, а не сваей, вбитой в морское дно.

Тем не менее context engineering оказался далеко не тривиальным делом. Это экспериментальная наука — и мы перестраивали наш агентный фреймворк четыре раза, каждый раз находя более удачный способ формировать контекст. Мы с любовью называем этот ручной процесс перебора архитектур, подбора промптов и эмпирических догадок «Stochastic Graduate Descent». Это не изящно, но работает.

В этом посте я делюсь локальными оптимумами, к которым мы пришли через собственный «SGD». Если вы создаете своего AI-агента, надеюсь, эти принципы помогут вам сойтись к решению быстрее.

Читать далее

+6

kucev 27 авг в 05:30

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

7 мин

557

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena?

Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.

TL/DR:

* Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;

* У нас есть отобранная команда аннотаторов и автоматический фильтр качества;

* Мы научились фильтровать фрод и мусорные промпты лучше, чем стандартные крауд-платформы;;

* Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска.

Читать далее

+6

nikita_volkov 25 авг в 14:48

Несогласованность эффектов или «Где деньги, Лебовски?»

Средний

13 мин

1.8K

Блог компании X5 TechBig Data * Data Mining * Машинное обучение * Статистика в IT

Туториал

В статье рассматриваются проблемы, возникающие при оценке эффектов A/B-тестов и Causal Inference в ритейле, когда необходимо анализировать изменения выручки по различным категориям товаров и общей (тотал-) категории. Мы подробно рассмотрим, почему простое суммирование оценок эффектов по категориям не всегда дает корректную оценку для тотал-категории, и предложим эффективный способ решения этой проблемы.

Читать далее

+7

3

4 5 ...