Pull to refresh
0
Азат@Liugger

Аналитик данных

2
Subscribers
Send message

Интересная статья, занимаюсь примерно тем же, есть пара комментов:

1) Силуэт не подходит для оценки HDBSCAN, так как кластеры могут быть произвольной формы. Если есть какое-то поле, которое хоть как-то семантически разделяет ваши тексты (тема обращения, ваши бизнес направления или другое), то адекватным будет замерять взаимную информацию между этим полем и кластерами. Можно ещк нормировать ВИ на жнтропию такого поля, чтобы получить интерпретируемое значение. Чем больше ВИ, тем лучше кластеры, но если она равна энтропии поля, то повод задуматься.

2) вместо частотного анализа лучше использовать TF-IDF - очень сильный инструмент и порой дает карлинально другие результаты, в отличие от частотного. Ну и проблему очистки датасета от стоп-слов решает автоматически

3) ну и еще интересно глянуть на n-грамы. Иногда даже прикручивать описание с помощью LLM или ключевых слов не нужно.

И Вопрос:

До скольки снижали размерность UMAPом и какой метрикой?

Не часто прльзую SciPy в работе, но когда использую, то это либо работа связанная с распределниями (типа сравнить что лучше подойдёт под мои данные с помощью MLE), либо вычисление расстояний (cdist, pdist).

И если второе - узкая задачка, то забыть рассказать про первое в статье - это, на мой взгляд, серьезное упущение

Комментарии по форме: Очень хороший перевод, я пропустил теги и задумался над тем что, возможно не оригинальный текст только к середине статьи На строке "... Станет двоичным изменением..."

Комментарии по наполнению: который автор подтверждает, что т. н. ИИ - это исполнительный стажер, который самостоятельно не сможет решить задачу так, чтобы этому решению можно было доверять.

Deep Research не пробовал, но активно заигрываю с DeepSeek R1 и замечаю, что либо нужно давать детальный алгоритм решения задачи либо предстоит несколько итерааций, а это долго.

Пример: надо было написать скрипт для монитонинга процессов на ПК. Я сам аналитик данных, то есть с питоном знаком, но не в этой области. Задача для хобби, т. е. знания для написания такого кода в работе мне никогда не пригодятся. Решил отдать задачу на откуп DeepSeek R1. По итогу нескольких итераций и тестирований я понял, что быстрее было бы самому изучить и написать

Как я понял, среди тех, кто захожит менее чем на 5 минут

1) есть категория людей, которые просто тестируют возможности сервиса - они заходят в одиночные игры и выходят через пару минут.

2) есть люди, которые заходят в условно-бесплатнын тайтлы типа CS, Dota и просто смотрят можно ли что из инвентаря забрать.

3) люди заходят, хотят продолжить игру, которую ранее начали, а у вас в игре не правильно настроен путь к сохранениям, либо версия игры не подходит под их сохранения

4) некоторые игры просто не запускаются: я так намучился с растом и warhammer 40k space marine 2. Официально купленные в Стиме, но на учетке без прав админа не устанавливался античит, что приводило к бесконечному запуску скрипта установки, от чего открывалось много окон терминалов, что пугает людей

Я все это понял потому что монитор подключен и в течение дня я вижу, что происходит на экране.

По моему мнению, ориентироваться на среднюю цену не стоит, лучше ставить цену значительно меньше. Обоснование такое: распределение цен, по моему мнению, похоже на экспоненциальное, а там среднее больше медианы, причем заметно. По мои прикидкам 15 руб в час попадает в пределы 20 перцентиля, то есть, при прочих равных, достаточно спроса который заберет 20% самых дешевых компов, чтобы он добрался до моего компа

Надеюсь, вам будет полезно

Тоже недавно увлекся попытками сдать комп в сервисе МТС. Есть ПК на ryzen 3900x и RTX 2070 super, ноут на ryzen 6900hx и rtx 3070 laptop - то есть, если сдать один в аренду, то есть второй для личных задач.

Запланировал обновить железки в ПК в феврале, задумался, что делать со старым железом, вспомнил про то, что когда-то видел рекламу MTS Fog play.

В общем, решил сдать десктоп для чего завел вторую винду на отдельном HDD, но в последующем все перевел на новый SSD, завел новый аккаунт стим, который добавил в семейную группу, так как сам играю сейчас не часто, то на этом аккаунте доступны мои игры купленные ранее. Сдаю третий день с тарифом 15 руб/час для меня. Во второй день суммарный простой был 7.5 часов, то есть достаточно хорошая утилизация станка выходит (у лучших за неделю, по моим расчетам выходит 8-10 часов простоя).

Много тех кто заходит на пару минут, потом отключается, что приводит к перезагрузке - если бы не ssd, то время простоя было бы больше. По замерам перезагрузки: если система на HDD то требовалось 8,5 минут на полную перезагрузку и прогрузку всего ПО, на SSD уходит 2.5 минуты.

Для меня это больше развлечение, так как дополнительные траты окупятся не скоро (для своего удобства я еще сделал несколько приобретений). Как наберутся исторические данные, думаю статью тут написать.

На изображении диаграмма Ганта по игровым сессиям.

Есть в беклоге аналогичная идея для задач в рамках своей команды, но чуть более сложная:

добавьте еще параллельно построение леса для оценки важности признаков по которым строите свое дерево и уже по оценке важности через лес ранжируйте результат сегментации деревом.

Дерево - слабый классификатор, а лес уже посерьёзнее будет, поэтому его feature_importance предпочтительнее.

Можно еще построить деревья на разных подмножествах предикатов, выбрать те, где хорошее качество, а среди них выбрать то, где очередность признаков в иерархии ветвления больше соответствует важности признаков по feature_importance ранее рассчитанного леса.

Авторы, просьба не забывать про то, что специалисты сферы Data Science (аналитики, инженеры, моделисты и т.п.) - тоже ИТшники и нам тоже интресно что с наймом в нашей сфере. Уже не первый пост про найм или ЗП в котором нет информации. Смотря на калькулятор зарплат видно что не для всех специализаций есть статистика, но для аналитиков данных выборка, как мне кажется, приемлемая. Неужели по вакансиям ситуация хуже?

Ну так а чего вы хотите?

Ни в одном ПО нет кнопки "сделать по красоте", как ни одна фирма не предложит что-то без конкретной задачи, кроме стартапов или добровольных энтузиастов, которым важен не результат а процесс.

А как оценить результат если нет задачи?

Если не секрет, то какого рода у вас данные?

Любой объект можно анализировать, каким бы волатильным не была его природа.

Однако чем более волатилен объект, тем более часто необходимо проводить анализ, если хотим поддерживать релевантность анализа. Либо переходить на более высокий уровень абстракции, рассматривая то, что раньше считалось константами, как переменные.

Как я понял из статьи, основным посылом утверждается что BI как направление бессмысленно в виду того, что весь функционал есть в ERP системах.


Возможно у меня мало опыта в этой сфере, но есть один неучтенный плюс у BI систем: они изначально созданы, чтобы пользователь мог сам легко создавать свои вычисления и
красивые картинки.


А в наиболее известных и популярных ERP для создания какого-то вычисления или генерации какого-то нового конкретного отчета пользователю необходимо обратиться к "консультанту" или "разработчику" и оплатить ему услугу по добавлению чего-то нового в существующую систему отчетности, причем стоимость за одно "обращение" будет сопоставима с месячной зарплатой BI-аналитика.


С появлением BI инструментария можно генерировать аналитические панели и отчетность по запросу и довольно быстро.


Именно в этих причинах я вижу истоки распространения BI-систем.

2

Information

Rating
Does not participate
Location
Красногорск, Москва и Московская обл., Россия
Date of birth
Registered
Activity