Обновить
128K+

Data Mining *

Глубинный анализ данных

20,16
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Вспомнить всё. Спектр весов нейросети

Время на прочтение13 мин
Охват и читатели7K

В данной публикации попробуем сформировать простейшую нейросеть. Будем использовать Colab. Данный выбор также хорош тем, что то, что позволено Юpyтеру не позволено быку. Иметь локальные вычислительные мощности. В принципе довольно неплохая инфраструктура для проверки базовых алгоритмов налету. Если есть что то подобное на других платформах или можно сделать с использованием иных агентов, пожалуйста, прокомментируйте.

Целью является демонстрация сохранения информации об обучении в спектре весов, при его фильтрации и постеризации происходит не полное стирание этих данных, что можно использовать для дообучения в качестве начальных условий. При этом, после постеризации, коэффициенты весов выраженные в спектральных составляющих занимают существенно меньшее место. Также этот эффект интересен с точки зрения проектирования ИНС.

Вместо кода будут md-саммари по разделам, их можно использовать для генерации в качестве промптов для ИИ-агента.

>>ЧТЕНИЕ>>

Новости

Почему ваша HR-аналитика бесполезна и как научиться задавать вопросы, спасающие бюджет

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5.9K

Всем привет!

Меня зовут Прокопович Наталья, я руковожу направлением зарплатной аналитики в Сбере и работаю на стыке HR, данных и бизнеса. Также являюсь амбассадором исследовательских подходов в people analytics. Еще преподаю в МГИМО и пишу о том, как превращать данные в практические решения для бизнеса. Сегодня поговорим о базе вопросах, с которыми к нам приходят.

Многие современные компании напоминают адептов карго-культа: они возводят алтари из BI-систем, приносят в жертву миллионы на сбор метрик и рисуют дашборды, надеясь, что боги эффективности ниспошлют им правильные решения. В целом, компании продолжают принимать катастрофические решения не потому, что у них «мало данных», а потому, что они используют аналитику как «одеяло безопасности», пытаясь легитимизировать интуицию руководства вместо того, чтобы заниматься реальным исследованием.

Как раз HR-аналитика - это не отчеты. Это процесс принятия качественных управленческих решений.

В основе практически любой аналитической неудачи лежит «плохой вопрос». Если вы неправильно определили проблему на старте, никакие нейросети и продвинутая статистика не спасут ваш бюджет, который вы потратили.

Ошибка №0: Почему математика не спасет плохой вопрос

В методологии доказательного менеджмента (Evidence-Based Management) аналитика - это строгая цепочка. Но, вопреки линейным представлениям новичков, это итеративный процесс с внутренними циклами:

Читать далее

ТОП-7 графиков для вашей презентации

Уровень сложностиПростой
Время на прочтение22 мин
Охват и читатели5.1K

Лучше один раз увидеть, чем сто раз услышать — в аналитике эта пословица работает на все сто. В новой статье разбираем, почему одна удачная визуализация объясняет процессы, зависимости и помогает найти инсайты быстрее, чем десятки слайдов с текстом и формулами. Также рассмотрим несколько оригинальных интерактивных визуализаций на Plotly — за пределами привычных распределений, боксплотов и прочих «школьных» графиков. 

Об авторе: Мария Жарова — преподаватель Центра «Пуск» МФТИ, ML‑инженер в Wildberries, автор канала EasyData.

Читать далее

Мал, да удал: почему пять строк рефакторинга могут сказать о разработчике больше, чем весь его GitHub

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели11K

Привет, Хабр! Жизнь не стоит на месте, как и мое исследование, так что пришла пора пересмотреть то, как я оцениваю код.

Изначально я опиралась на анализ целых репозиториев — мы вычисляли семантическую плотность и классические метрики кода. Результаты были многообещающими, но на практике я столкнулась с «шумом», который невозможно игнорировать:

Читать далее

Империя наносит ответный удар: kad.arbitr.ru снова поддается парсингу (часть 1)

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели9.1K

В статьях2021 года можно встретить довольно пессимистичный вывод: «ресурс окончательно уничтожил возможность сбора информации с помощью Selenium». Но, как оказалось, это не совсем так.

Сайт kad.arbitr.ru — предоставляет информацию о гражданских делах, в первую очередь данная информация интересна юристам. Также там можно найти информацию о начале\конце банкротства и много другой информации связанной с юридической составляющей нашей жизни как граждан данной страны. На практике часто возникает задача мониторинга состояния дел по заданному списку — допустим по ИНН или же по ФИО. Именно такая задача была поставлена предо мной, найти дело по ИНН (если оно существует) и открыть его карточку чтобы собрать информацию.

При первом знакомстве сайт выглядит довольно устаревшим — как и многие государственные сайты, тем не менее, первое впечатление бывает обманчиво, ведь тут достаточно неплохая защита от тех кто хочет собрать много информации автоматически. Далее разбор будет строиться по следующей схеме: простой способ сбора информации → анализ, почему он работает или нет и так далее.

Первое, что приходит в голову при решении задачи парсинга по конкретному полю — это использование API.

Возможны три варианта.

Читать далее

«И что?»: 5 неудобных истин об HR-аналитике, которые меняют правила игры

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели5.1K

В крупных корпорациях сотрудники всех уровней часто попадают в ловушку «зеленых дашбордов», когда на экранах всё светится успокаивающим изумрудным светом, а в реальности бизнес «горит»: люди уходят, вакансии висят месяцами, а вовлеченность падает. Аналитика в таких случаях превращается в дорогую декорацию. Чтобы перестать «махать цифрами» и начать реально влиять на бизнес, нужно признать несколько неудобных истин.

Ваш мозг - самый ненадежный инструмент

Любое управленческое решение принимается в условиях ограниченного времени, пространства и мышления. Мы часто полагаемся на «экспертную оценку», но на деле это часто лишь попытка «натянуть сову на глобус», основываясь на личных травмах и профдеформациях. В психологии выделено около 200 своеобразных проекций, через которые мы смотрим на мир.

Аналитика признана, и призвана для того, чтобы это мышление чуть-чуть расшатать и расширить. Если вы хотите глубоко разобраться в том, как мы обманываем сами себя, крайне советую книгу Никиты Непряхина «Анатомия заблуждений».

Читать далее

$110 млрд в тени: анатомия санкционного кластера после Garantex

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели8.3K

$56 млрд за 48 часов

15–17 апреля биржа Grinex — предполагаемый преемник Garantex — была взломана.

В это же время через связанный санкционный кластер на Tron прошло 56 млрд USDT крупными переводами ($100K).

Хак не остановил инфраструктуру. Трафик в отдельные часы — ускорился.

Либо выводили ликвидность. Либо хеджировались. Либо кластер просто продолжал работать параллельно — как работал всегда.

Читать далее

Критерии выживания и случайность — 4

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели11K

Продолжаем data mining путешествие в погоне за удачей. Сегодня разберем как устроена оценка интеллекта. Тут мы вступаем на очень скользкую почву. Объективности у большинства людей тут гораздо меньше и на это есть причины. Давайте попробуем разобрать это подробнее.

Читать далее

RAG: Как собрать свой ретривер для особых случаев

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели8.7K

С опытом у RAG-инженера накапливается солидный багаж эвристик и инструментов, которые в определенных задачах превосходят по качеству или скорости стандартные. Фраза «а для этого у меня есть собственный ретривер» звучит с некоторым снобизмом, но добавляет к профессионализму несколько пойнтов.

Хотите в свою коллекцию ретривер, который умеет работать с терминами, плохо различимыми в векторном пространстве эмбеддинга, в частности с именами и названиями? Тогда давайте перейдём от снобизма к практике. Начнём с обработки текста и сегментируем его на фрагменты - «чанки». Далее сделаем TFIDF модель, добавим поиск и обернём всё это в ретривер LangChain. Наконец сравним наш ретривер с двумя-тремя стандартными решениями. А Ollama поможет с вопросами для бенчмарка.

Читать далее

TAPe‑детекция против COCO и SOTA: как мы обошли RF‑DETR и YOLO, с легкостью уложившись в 100k параметров (вместо 100M)

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.1K

Мы довели TAPe‑детекцию на COCO до уровня лучших SOTA‑моделей по точности, но с двумя порядками выигрыша по параметрам и радикально меньшими требованиями к данным и ресурсам. При этом модель держит 7–8 мс на изображение при mAP50 на уровне RF‑DETR‑2XL и работает почти одинаково быстро на GPU и CPU. В этом финальном посте нашего "дневника" мы подведем итоги эксперимента, покажем ключевые бенчмарки и объясним, почему TAPe‑подход позволяет реально экономить данные, железо и время разработки.

В итоговой детекционной модели у нас меньше 100 000 параметров — примерно в 10 раз меньше, чем у ближайших «облегчённых» моделей уровня YOLO, и примерно в 1000 раз меньше, чем у сильных DETR‑подходов вроде RF‑DETR с 127 млн параметров.

Прикоснуться к магии

Критерии выживания и случайность — 3

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели10K

Продолжаем data mining путешествие в погоне за удачей. Сегодня разберем как устроены жизненные факторы. Эти категория достаточно скучна, но статистически хорошо подтверждена. И интуитивно понятна большинству людей. Но влияние ее очень сильное. Поэтому рассмотрим ее подробнее.

Читать далее

TAPe‑дневник, день 8: сегментация по границам, 77% классификации и первые бенчмарки против YOLO

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели8.3K

В этом посте продолжаем дневник TAPe‑детекции на COCO: добавляем сегментацию по контрастным патчам на границе объектов, дорабатываем классификацию, избавляемся от learning rate и смотрим, как ведёт себя YOLO на нашем маленьком датасете.

А уже завтра покажем базовые и COCO‑бенчмарки, сравнения с YOLO и RF‑DETR по точности (mAP50/mAP50‑95), скорости, числу параметров и требованиям к данным, а заодно чуть подробнее поговорим про аннотацию и то, почему нам хватает десятков изображений на класс там, где другим нужны сотни тысяч.

Вникнуть

Критерии выживания и случайность — 2

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели10K

Продолжаем data mining путешествие в погоне за удачей. Сегодня разберем как устроены богатство, социальные связи и образование. Эти категории достаточно сложны, но статистически хорошо подтверждены. Откалибровать их было довольно просто.

Читать далее

Ближайшие события

Как мы построили речевую аналитику для кол-центров и начали анализировать тысячи звонков

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели15K

Привет! Я Артём Юрченко — DS-инженер в команде Недвижимости Авито. Наши кол-центры совершают до 30 000 звонков в день, и вручную можно проверить лишь небольшую часть из них. Расскажу, как мы начали строить систему речевой аналитики и разработали первую модель, которая автоматически находит в звонках возражения клиентов и анализирует, как операторы их отрабатывают. 

Статья будет полезна DS-инженерам, аналитикам и продакт-менеджерам, которые работают над продуктами построения речевой аналитики.

Читать далее

Критерии выживания и случайность

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.9K

Анализ проблемы и формирование гипотезы — удача является важным фактором в жизни человека. Но главный вопрос — насколько? Какие категории параметров можно выделить для декомпозиции с целью анализа? Начинаем погружение в “кроличью нору”.

Читать далее

Повезло или сам добился? Как оценить

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели9.9K

Продолжаем описание создания симуляции с учетом фактора удачи. Составляем список факторов, влияющих на жизненный успех. Изначально идея была простой. Но что получилось в итоге?

Читать далее

Насколько блокировка Telegram эффективна?

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели8.8K

Я задался вопросом: насколько блокировка Telegram оказалась эффективной со стороны цензоров? Косвенно можно оценить и уровень использования VPN среди населения. Логика простая: Telegram — один из крупнейших каналов распространения информации, и если доступ к нему ограничивается, поведение аудитории должно это отразить.

Отдельный плюс исследования — его воспроизводимость: при желании любой может повторить подход и проверить результаты.

Читать далее

PageIndex: замена векторному поиску в RAG?

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели5.6K

Попытки заменить чем‑то векторный поиск в RAG продолжаются. Про GraphRAG я уже высказывался, новый претендент на замену — Pageindex.

Идея простая. Сегментируем документ на страницы, при помощи LLM и хитрого кода строим для него таблицу содержания, TOC с деревом узлов и саммари для каждого узла. Далее отправляем эту структуру в промпт поискового запроса и просим LLM найти релевантные узлы. За каждым найденным узлом закреплены страницы документа. Эти страницы достаём и используем в качестве контекста в финальном запросе.

Нет чанков, не нужны эмбеддинги и векторные хранилища. Выглядит заманчиво. Попытаюсь добавить к этой идее немного критики и заодно расскажу как эту штуку запустить локально.

Читать далее

Случайность — другое имя Бога

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели7.3K

Когда-то я был молодым и активным. И под воздействием средств массовой информации, окружения и прочитанных довольно глупых книг я искренне считал, что человек с активной жизненной позицией, прилагающий значительные усилия, может в жизни добиться всего. В целом, я и сейчас наблюдаю такую же позицию у активной части молодёжи. Более того — в технологической среде эта вера ещё сильнее. Hustle culture, гаражные мифы Кремниевой долины, «если ты не добился — значит, мало хотел».

Потом были подряд 5 бизнесов-стартапов. 4 неудачных и один приносил не более чем хорошую зарплату в офисе. И при этом я регулярно пахал по 16 часов без выходных и личной жизни. И когда всё заканчивалось плохо — я говорил себе, что я, видимо, мало приложил усилий.

Знакомо?

Читать далее

Гонка вооружений. Почему античиты всегда проигрывают?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели7.6K

ДИСКЛЕЙМЕР:

Автор не призывает к игре с сторонним ПО. Вся информация, приведенная в статье - приведена лишь в образовательных и ознакомительных целях. Информация была взята из открытых источников и ни к чему не призывает.

СОДЕРЖАНИЕ:

Читать далее
1
23 ...