Обновить
44.12

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Доматчинг товаров с использованием LLM: от промптов до квантизации

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели4.1K

Привет, Хабр! На связи команда продуктового матчинга ecom.tech. Наша команда решает задачи поиска, группировки и сопоставления товаров с помощью алгоритмов машинного обучения. Все это необходимо для развития и улучшения бизнес-процессов в компании, а именно быстрого заведения карточек товаров, мониторинга цен на товары и развития ML. В этой статье мы расскажем про доматчинг – сравнение сложных пар товаров, которые отобрали на предыдущем этапе пайплайна, с помощью LLM. Поехали!

Читать далее

Новости

BLIMP — Пайплайн синтеза и разметки изображений в Blender

Уровень сложностиСредний
Время на прочтение25 мин
Охват и читатели5.4K

Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”. 

Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК.

Погрузиться в Blender

Устойчивые режимы поведения вместо плотности: динамический взгляд на кластеризацию

Время на прочтение9 мин
Охват и читатели3.1K

Несмотря на использование биологических аналогий, предлагаемый метод не относится к quorum sensing clustering в классическом смысле.
В работах, вдохновлённых quorum sensing, сигнал напрямую связан с локальной плотностью и используется как механизм адаптивного выбора радиуса влияния или порога плотности. Фактически такие методы остаются плотностными моделями кластеризации с биологической мотивацией (см., например, arXiv:1303.3934).

В предлагаемом подходе сигнал имеет иную природу.
Он не отражает количество соседей и не служит индикатором принадлежности к кластеру, а представляет собой внутреннее бинарное состояние агента, определяющее режим его локального взаимодействия с окружением.

Кластеризация в этой модели не является результатом разбиения пространства по геометрическим признакам. Она возникает как побочный эффект динамики, в которой устойчивые коллективные режимы поведения формируются, стабилизируются и защищаются через локальные правила взаимодействия.

Читать далее

Индекс Шивы: ловушка простых правил на рынке труда

Время на прочтение7 мин
Охват и читатели8.7K

Если вакансия длиннее 7000 символов, шанс встретить в ней манипуляцию или хаос — 61.5%. Это правило «рынка лимонов» работает почти идеально.

Но оно же — ловушка.

Индекс Шивы (текст / зарплата) — это инструмент диагностики, который помогает отличить необходимую сложность от словесного шума. Датасет из 48 000 вакансий.

Читать далее

Три вечера, три круга ада и один MVP: как я создал анализатор памяти игры с помощью бесплатных чат-моделей

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели8.9K

В эпоху ИИ-хайпа многие обещают, что теперь кодить не нужно — достаточно «поговорить» с моделью. Автор решил проверить это на практике: за три вечера, используя только бесплатные версии Claude и Qwen, он создал прототип приложения для мониторинга игровых событий в реальном времени через чтение памяти процесса Royal Quest.

Путь оказался тернистым: от неактуальных логов и зашифрованного трафика — к CheatEngine, Wine на macOS, PyInstaller и проблемам с кодировкой. Чат-модели помогли быстро сгенерировать ядро приложения, реализовать экспорт в JSON/TXT и даже простой дашборд, но каждая итерация сопровождалась багами, потерей контекста и переписыванием кода с нуля.

Делюсь честным опытом: где ИИ действительно ускорил разработку, а где превратил её в бесконечный цикл «запрос → правка → провал». В финале — практические рекомендации: как структурировать проект для ИИ, сохранять контекст и избегать типичных ловушек.

Результат — рабочий MVP, открытый на GitHub, и убедительный вывод: ИИ — мощный соавтор, но пока ещё не замена внимательному разработчику.

Читать далее

Рынок лимонов и «размалеванные барышни»: текст вакансии как честное зеркало компании (датасет 146 000 вакансий)

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели11K

Пока соискателей учат быть «размалеванными барышнями», работодатели на «рынке лимонов» никому ничего не должны. Можно ли узнать, что ждет внутри, еще до получения оффера? Что, если я скажу: текст вакансии — это честная проекция «внутренней кухни» компании? Я уверена, так как проверила это на личном кейсе, и, вооружившись этим инструментом, проанализировала 146 000 вакансий. О том, почему и как это возможно — для тех, кто не считает неудачное трудоустройство «ценным опытом» — рассказываю ниже.

Читать далее

Эволюция .NET-разработчика: взгляд рынка на грейды и компетенции (анализ 700+ вакансий)

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели12K

Все мы знаем стандартную лестницу: Junior, Middle, Senior. Но где на самом деле проходит граница? Почему в одном стартапе «сеньор» — это тот, кто вчера узнал про LINQ, а в кровавом энтерпрайзе от «мидла» требуют проектировать распределенные системы под нагрузкой в миллион RPS?

Я задалась вопросом оценки собственного грейда, когда уходила со своего первого места работы. Кто я для рынка? Почему мои знания на собесе в одной компании соответствуют чуть ли не уровню Senior, а в другой – покрывают максимум вакансию Junior’a?

На самом деле проблема не нова – каждая компания вынуждена формировать собственную систему грейдов, а вакансии чаще всего содержат требования, собранные по принципу «чем больше, тем лучше». В таких условиях оценить собственный уровень становится задачей со звездочкой.

Я решила отойти от субъективности и спросить у самого рынка. В этой статье — результаты анализа 700+ актуальных вакансий .Net разработчика, графы связности навыков и ответ на вопрос: в какой момент количество выученных библиотек наконец-то превращается в качество инженера.

Читать далее

LLM — это афера на доверии, которая длится 400 лет

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели22K

В 1623 году немец Вильгельм Шиккард создал первые известные чертежи механического калькулятора. Спустя двадцать лет Блез Паскаль разработал машину улучшенной конструкции, чтобы помочь справляться с огромным количеством утомительных арифметических расчётов, необходимых в его работе сборщика налогов.

Интерес к механическим вычислениям не ослабевал последующие века: поколения людей по всему миру продолжали дело Паскаля и Шиккарда, разделяя их убеждение, что перекладывание умственной нагрузки на машину принесёт облегчение.

Аферу на доверии можно разбить на три этапа:

Читать далее

Прививаем машине музыкальный вкус: фильтруем плейлист на основе предпочтений

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6K

Раньше это было способом скоротать время в дороге, но теперь чтобы найти музыкальную "жемчужину" нужно несколько часов сфокусированного прослушивания новинок. Встал выбор: забить или..

Однажды у меня возникла идея, что с моим музыкальным хобби мне могло бы помочь ML. БОльшая часть входящего материала не соответствует моему персональному фильтру. Если убрать ее, то я снова смогу делать подборку в фоне и получать удовольствие

Я не эксперт в ML, но задача вроде бы понятная - готовим датасет, берем модель, обучаем, приключение на 20 минут..

..сейчас, спустя год, когда мой pet-project наконец-то работает. Я смотрю на путь, который привел меня к этому результату. Даже не с точки зрения технологий(про ML лучше писать мастерам игры), а с точки зрения логики решения глазами разработчика. Вот этим я и хочу поделиться

Читать далее

Абсолютные валютные курсы: математика, код и практика

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели8K

📊 Знаете, что общего у температуры в городах и валютных курсов? И то, и другое — относительные величины. У вас есть разницы, но нет абсолютных значений.

Можно ли из одних лишь парных котировок вроде EUR/USD или USD/JPY вычислить внутреннюю, абсолютную стоимость каждого доллара, евро или йены? Оказывается, можно — и для этого не нужен волшебный экономический калькулятор.

В этой статье мы делаем то, что звучит как задача для детектива: восстанавливаем абсолютные значения из одних лишь отношений. С помощью чистого Python и метода наименьших квадратов мы превращаем сеть из 85 рыночных котировок в единую шкалу стоимости для 45 валют.

Что вас ждёт:

Матрицы, логарифмы и МНК — как линейная алгебра очищает финансовые данные от шума.

Рабочий код — от построения матрицы инцидентности до ежедневного расчёта.

Фокус с разоблачением — на примере USD/JPY покажем, как понять, что на самом деле движет парой: укрепление доллара или ослабление йены?

Масштабирование до 153 валют — как та же математика работает для всей мировой системы.

Если вы когда-либо задумывались, как устроена «кухня» валютного рынка за пределами парных графиков — эта статья для вас. Переходите, чтобы узнать, как превратить относительность в абсолют.

Читать далее

AB-Labz — менеджмент и анализ продуктовых экспериментов

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели5K

Привет, меня зовут Пётр, я занимаюсь продуктовой аналитикой уже около 12 лет, специализируюсь преимущественно на продуктовых рисерчах и экспериментальной аналитике.

Я работал в разных командах, и везде был разный подход к экспериментам. Разные сервисы, которые используются на ключевых этапах жизни гипотезы, разный формат документации, несогласованность в рассчётах, костыли в сложных или нестандартных дизайнах.

Эта боль и легла в основу проекта.

Недавно мы с командой выпустили в открытую бету b2b SaaS платформу для менеджмента и анализа продуктовых экспериментов.

Читать далее

Визуализация на Python за 15 минут: пошаговый гайд по Seaborn для начинающих

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели20K

Matplotlib — это мощно, но часто «многословно». Чтобы превратить стандартный график в нечто презентабельное, приходится писать десятки строк настройки осей и легенд.
В этой статье я собрал практическую шпаргалку (Cookbook) по библиотеке Seaborn. Разберем, как одной строкой строить красивые Heatmap, Boxplot и Pairplot. Минимум теории, максимум готовых рецептов (copy-paste), которые покроют 90% задач аналитика.

Читать далее

Типология мышления в аналитической культуре больших языковых моделей (Часть_1)

Уровень сложностиСложный
Время на прочтение13 мин
Охват и читатели9.7K

Миронов В.О., Кальченко С.Н.

Добрый день, уважаемые хаброгорожане;‑) Крайние тренды по части тестирования современных больших языковых моделей выходят на невиданные высоты и ставится цель: пересматривать не только всю систему анализа моделей, но и саму структуру эволюции нашего подхода к пониманию больших языковых моделей в самом широком контексте. Здесь мы всё больше «скатываемся» к математическому описанию объекта промпта и его понятия. По большому счету, наибольшее понимание, а именно, формирование идей в машинном представлении, основано на геометрическом понимании «форм» слов, а не алгебраическом, в виде векторов, эмбеддингов и матриц, хотя это тоже очень важно на базовом уровне. Отличный пример такого подхода изложен в этой статье, где как раз и показано, что важно, топологическое представление пространства слов и их смыслов, так как оно максимально гибко и позволяет работать с двумя главными понятиями для словоформ: значение и время, в течение которого это значение сохраняется для текущего контекста.

Исходя из этого, не так давно мы проводили анализ понимания речи для чат‑ботов и, в частности, для больших языковых моделей. При этом мы задались очень ёмким понятием: каково отношение между пользователем и нейросетью и насколько они хорошо друг друга «понимают». Чем полнее и общо мы сможем очертить границы этого «понимания», тем более полно мы сможем формировать промпты для наших запросов, расширить новый уровень абстракции и сформировать новый уровень понимания кода моделью. 

Читать далее

Ближайшие события

Взгляд разметчика данных

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели8.1K

Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты.

 Всем добрый день!

Одно время я работал разметчиком данных на разные компании и довольно долго, примерно 5 лет. Так как компании были разные, то и размечать приходилось разное: сайты, картинки, звуки. Только с видео не довелось поработать. С одной стороны, эта работа довольно рутинная и однообразная. С другой стороны - нет. Потому что на разметку попадались разные документы с разной целью. Однако целью данной статьи не документы, а общие закономерности и подводные камни на этом нудном пути с точки зрения непосредственного исполнителя.

Разметка данных используется для обучения различных алгоритмов, чаще всего на основе нейросетей. Она применяется разных отраслях, включая такие сложные, как медицина. Без разметки невозможно обучение моделей, так как нет явной целевой переменной и от качества разметки напрямую зависит качество модели. Я имею опыт работы Data Scientist-ом и даже диплом получил, поэтому понимаю, насколько важна разметка. Более того, сейчас, работая с медицинскими датасетами, я всё чаще задумываюсь: а насколько вообще можно доверять той или иной разметке, даже если её ставит врач?

Итак, приступим к теме нашего разговора.

Читать далее

Достижение целей с технической точки зрения

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели11K

Достижение целей требует четкого понимания текущего состояния системы и желаемого результата. Одним из способов оценки близости достижения цели является использование расстояния Хемминга. Расстояние Хемминга применяется для измерения различия между двумя строками равной длины путем подсчета количества позиций, в которых символы различаются. В контексте постановки и достижения целей оно позволяет количественно оценить разницу между текущим состоянием и целевым состоянием, помогая определить шаги, необходимые для минимизации этой разницы.

Таким образом, если задать текущее состояние строкой Sтек и желаемое состояние строкой Sцель, то достижение цели можно назвать: работу по переводу ситуации в строке Sтек в строку Sцель.

Читать далее

TSP трансформеры

Уровень сложностиСложный
Время на прочтение12 мин
Охват и читатели8.2K

Возможно кто-то догадался, что заголовок выше — это перевод первых строк темы из ламповых сюжетов мульсериала 80-х: "The Transformers More than meets the eye"

Любопытное совпадение: эти строки весьма точно характеризуют мои мысли об архитектуре трансформеров в контексте современных технологий ИИ. Сейчас уже широко известно, что эта архитектура стала настоящим прорывом и подарила человечеству нечто особенное — очень сильно напоминающее искусственный интеллект из фантастических фильмов детства и юности. Сегодня мы наблюдаем экспансию чат-ботов во все сферы жизни, чуть позднее увидим, как эти боты начнут за нас совершать действия в цифровом мире и ещё позже — в мире реальном.

Читать далее

Онлайн-таблицы: как ИИ делает аналитику доступной каждому

Время на прочтение13 мин
Охват и читатели11K

ИИ-ассистенты внедряются в привычные таблицы вроде Google Sheets и Excel. Многие скажут, что такие «игрушки» никому не нужны. Но это приближает электронные таблицы к инструментам бизнес-аналитики, BI-платформам.

Читать далее

Метрики для задач NLP. Часть 1. Классификация, NER, Кластеризация

Уровень сложностиСредний
Время на прочтение25 мин
Охват и читатели9.1K

В этой статье будет рассказано о популярных метриках для NLP-задач: классификации текста, NER и кластеризации. Рассказ будет сопровождаться визуализацией, примерами и кодом на Python.

🔥 Начинаем 🔥

Чем же типичный заметковед занимается, когда работает со своими записями? Типизация деятельности заметковеда

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели5.2K

Где-то с месяц я вынашиваю план исследования, с помощью которого хочу оценить эффект практики заметковедения на профессиональную и личную деятельность человека. И каждый раз, как я подходил к этому «снаряду», люди, чье мнение имеет значение, задавали мне вопрос: а что такое заметковедение?

Всякая попытка объяснить разбивалась о стену непонимания. Мои собеседники своими вопросами и комментариями демонстрировали растерянность. В конечном итоге говорили, что им непонятно, и мне приходилось думать дальше. В попытке разобраться, что же такое заметковедение, я изучал свои записи, которых очень много в моей базе, спрашивал участников нашего сообщества, разговаривал с профессионалами из разных областей.

Каждый человек, когда я интересовался у него относительно того, как он ведет свои личные и профессиональные записи, отвечая, описывал технические особенности приложений и сервисов, или начинал душнить[^1], или говорил, что он записывает в приложении и «потом» разбирает, без уточнения, что значит «разбирает» и когда это «потом» наступает.

В общем, мне показалось, что имеется очевидная проблема с операционализацией понятия «заметковедение», как, собственно, и задачеделания, и творчества, и любого иного «сложного слова», требующего интерпретации. Тем не менее я не прекращал поиска определения заметковедению, однако найти формулировку, которая вбирала бы весь спектр заметковедческой деятельности, не получалось.

В какой-то момент мне подсказали, что можно сделать, а именно объяснили, как операционализировать понятие «заметковедение», спросив, что люди делают, когда им приходит идея, попросив описать то, как они «потом» разбирают свои записи, и что происходит при процессе «вдумчивого» обучения.

Читать далее

Виды Structured Output и способы их реализации

Время на прочтение7 мин
Охват и читатели10K

Structured Output это способ “заставить” LLM отвечать в строго заданном формате. Есть несколько вариантов добиться этого и есть много библиотек реализующие эти варианты. В данный статье рассмотрим основные из них...

Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

Читать далее
1
23 ...