Comments / Profile of Liugger / Habr

Азат @Liugger

Аналитик данных

ProfileArticles1PostsNewsComments23

Amazon анонсировала новые Kindle Scribe, в том числе с цветным E Ink экраном Kindle Scribe Colorsoft

Liugger Oct 1 at 09:53

Для этого достаточно книжки с андроидом, на который установлен obsidian. Прописывается директория со всеми документами в obsidian и все, поиск работает

0

Remarkable выпустила блокнот Paper Pro Move с цветным экраном E Ink

Liugger Sep 4 at 11:10

Как владелец такого же аппарата, на который перешел с samsung galaxy tab s7 plus, подтверждаю, что лучше бы оставил планшет.

Tab ultra C во владении порядка полутора лет. Думаю взять galaxy tab s9 ultra в ближайшее время.

Заметок от руки сделано много и на Самсунге, и на tab ultra C.

+2

Обзор математики для начинающего ML-инженера

Liugger Aug 30 at 07:22

Я мехматов не заканчивал, по первому пункту сказать ничего не могу, но по оставшимся интересно было бы уточнить:

Ложные/локальные минимумы существующая проблема, с которой пытаются бороться разными методами (запуск гралиентного спуска с разными точками инициализации, например). То есть ML работает со сложными поверхностями целевой функции, а не только с выпуклыми. Не факт что делает это хорошо, но работает.

Связь может быть слабой/сильной: влияет ли факт наличия пьяного бомжа по средам вечером у входа в Пятёрочку на продажи хлеба? - влияет, кто-то передумает заходить в магазин за хлебом. Но каков вес влияния этого фактора на выручку хлебопроизводителя за месяц? Скорее всего очень низкий, настолько, что может затеряться в шуме. Вот в этом случае я бы и сказал, что связь слабая и на данных я бы вообще посчитал ее шумом. А если мы задумается что такое "шум" в данных, то поймем, что это как раз такие очень слабо влиющие факторы, которых просто много и выявить точную связь с ними мы не можем.

Мои мысли описал, если укажите, где я не прав, то буду рад просветиться: больше знаний - лучше

0

Аналитика данных для RAG: как (не)наполнить базу решений для нулевой линии поддержки

Liugger Aug 16 at 09:21

Спасибо за такую оценку!

Уточните, что имеется в виду под "требуется анализировать информацию в БД"?

Есть некая БД, SQL запросом вытягивается информация и ваш сервис должен проанализировать (выдать саммари, исходя из контекста) получаемую таблицу?

В этом сценарии подсказть о подходах не могу, так как мы сфокусированы на обработке текстов из баз знаний. Таблицы там тоже есть и мы пока еще выбираем подход к их обработке.

А так, чтобы целенаправленно обрабатывать таблицу из БД - такой варинт есть в планах, но сейчас поделится нечем.

Если я не правильно понял вопрос, то уточните.

0

Matrix Reloaded: зачем дата-сайентисту линейная алгебра

Liugger Jul 17 at 18:16

Хорошая обзорная статья, полностью согласен с выводами. Я бы еще добавил, что специалисту по DS полезно было бы еще освоить операции линала в numpy - порой помогает писать значительно более быстрый код

+2

Matrix Reloaded: зачем дата-сайентисту линейная алгебра

Liugger Jul 17 at 18:08

Сложно понять, что вам не понравилось в "такой алгебре". Я не против складывать 1.5 + 0.5 землекопа. В общем-то и теплое с мягким, когда это два вектора, превращенные линейной комбинацией в главную компоненту с интерпретацией 'комфорт".

Приведите пример другой алгебры полезной в прикладном смысле, относительно data science (это ведь тема статьи)

Автор не врет, когда говорит что специалисту в Data science без знания таких концепций не стать настоящими профессионалом.

Сам как аналитик данных подтверждаю, что даже базовое понимание линейной алгебры очень хорошо прокачивает спеца.

А если говорить про инетпретируемый анализ данных, то более сложная математика зачастую противопоказана

+5

Кривая спроса в недвижимости: «Как использовать то, чего нет» или Искусство стрельбы по движущимся мишеням

Liugger Jun 20 at 12:27

Статья интересная, как человеку с экономическим образованием, почитать про реальные проблемы нахождения кривой спроса - очень интересно.

Но как аналитик данных, хочу сказать, что на протяжении всей статитьи в голове мысль: "если строили модель и она не дала хороших результатов, то как-то не так ее строили".

Если вы утверждаете, что "черные лебеди" прилетают и ломают модели, то очень хочется увидеть что были за события и насколько поломались модели.

Более того, уверен, что предсказать заранее влияние ковида или СВО на продажи за адекватное время невозможно. Однако, как вы и делаете сейчас, можно же поделить время на срезы до и после событий такого рода и также рассчитывать прогнозы отдельнотдля каждого периода.

На фоне того как ствтья погружает в проблему поиска решения, результат в виде линейной регрессии на коротких промежутках времени выглядит как Ока на фоне Lamborghini.

Очевидно, что любая функция аппроксимируется линейной и чем меньше промежуток, тем лучше будет работать линейное приближение.

Как заинтересованный читатель я бы очень хотел увидеть в следующих статьях показатели мер связи между предикатами, которые вы использовали и таргетом и ответ на вопрос почему линейная регрессия на коротких промежутках лучше, чем все остальное. И хотелось бы увидеть как подбирали регрессию для сушествующего решения

0

Международная группа учёных определила границы сжатия информации для языковых моделей

Liugger Jun 18 at 16:43

Нейронки все же учитывают словоформы и синонимы. Так как не все синонимы на 100% схожи по смыслу. Более того они учитывают контекст, то есть несколько смыслов для одного слова.

0

Международная группа учёных определила границы сжатия информации для языковых моделей

Liugger Jun 10 at 08:29

Смысл в том, что с вектор отражает смысл текста и можно из вектора получить обратно текст. Текст будет похож на исходный.

Очевидно, что с sha256 такое не сделать.

Можно текст вообще в одно число закодировать, только коллизий много будет. Смысл не только в сжатии, а в возможности работать с этой сжатой информацией.

Я бы сказал, что исследователи изучали наименьшую возможную размерность пространства смыслов в которое можно вложить текст

0

Российским вузам ограничат возможность обучать студентов на платной основе

Liugger May 26 at 07:26

Про экономику у вас очень сильное заявление про страну, которая за 3 года побила рекорд по количеству санкций и не стала напоминать Аргентину.

В праве я не особо понимаю.

А как обладатель дипломов всех 3 уровней образования (на 2021 год) и работающий в смежной с полученным образованием сфере скажу, что имеет смысл ограничить места, в том числе и платные, чтобы простимулировать рост числа именно тех специалистов, на которых есть востребованность.

Если бы я в 17 лет понимал, что не везде, куда думаю, могу поступить, может умнее бы выбирал специальность в ВУЗе.

Сам менеджер и экономист по образованию, работаю аналитиком данных. Надо бы идти на экономическое моделирование или бизнес-информатику

0

Какая математика нужна аналитику данных

Liugger May 3 at 20:23

Я понял вашу мысль, и, наверное, соглашусь, что термин "расстояние" чрезмерно расширили, что сбивает с толку. Мне кажется неплохо бы смотрелись понятия "косинусное различие" (которое 1 - косинусная схожесть) или "различие махаланобиса". В общем, есть тут проблема, соглашусь.

Аналогию с графами понять - за рамками моих познаний, надеюсь что пока. Не профильная сфера для меня.

+1

Какая математика нужна аналитику данных

Liugger May 2 at 22:04

По вашим примерам, видно что понятие расстояния вы рассматриваете только как Евклидово расстояние, то есть расстояние в физическом смысле. В аналитике, по моему мнению, расстояние - это мера непохожести, чем больше расстояние, тем менее похожи объекты. И такое определение нужно чтобы отвечать на вопросв типа "дальше ли по смыслу слон от плитки, чем автомобиль от самолета" или "какой кандидат ближе всех к нашей вакансии". В таких ситуациях фмзического расстояния в метрах не существует, а евклидово не учитывает всех особенностей данных.

Косинусное сходство и косинусное расстояние это похожие штуки и похожи тем, что одно получается если из единицы вычесть второе.

Расстояние в математическом смысле это вполне определенная сущность, первая же ссылка на Википедию в поисковике выдает 4 критерия по которому некий показатель можно считать расстоянием.

+1

Какая математика нужна аналитику данных

Liugger Apr 30 at 06:28

6 год работаю аналитиком, только вчера описывал метрику оценки кластеризации, которую надо занести в прод. Метрика включает в себя нормированную энтропию: без математики было бы сложно, так как не существует какой-то одной нормированной энтропии и надо понимать на что ее можно нормировать и как.

Первые 4 года моего стажа математика была особо не нужна (только для оьучения новым алгоритмам и техникам), а потом устроился туда где очень много работы с текстами, тут всю работу можно свести к анализу положения векторов в пространстве или некоему анализу множеств слов. Какие-то базовые штуки типа корреляций в этом мире вообще отсутствуют, приходится что-то поинтереснее узнавать, типа взаимной информации.

Жутко интересно, но крайне мало информации именно по аналитике текстов и приходится постоянно придумывать эвристики. Для эвристик супер сложная математика не нужна, но, например, представлять чем евклидово расстояние от косинусного отличается и почему где-то лучше использовать одно, а где-то другое - надо.

Из чего-то сложного пригодилось понимание факторизации матриц, так как через него понимаешь как вообще представить слова в виде векторов, а отсюда вырастает 80% аналитики текстов.

Ну и уточню, что я не создаю модели машинного обучения, я анализирую тексты, чтобы помочь дата сатанистам и ml-инженерам лучше делать их работу: подобрать размер чанка для РАГа, понять можно ли создать простые эвристики релевантности текста, чтобы не создавать модели ранжирования или не нагружать гпу, используя LLM для классификации и т.п.

+2

Методы анализа текстовых данных пользовательских обращений

Liugger Apr 9 at 22:10

Интересная статья, занимаюсь примерно тем же, есть пара комментов:

1) Силуэт не подходит для оценки HDBSCAN, так как кластеры могут быть произвольной формы. Если есть какое-то поле, которое хоть как-то семантически разделяет ваши тексты (тема обращения, ваши бизнес направления или другое), то адекватным будет замерять взаимную информацию между этим полем и кластерами. Можно ещк нормировать ВИ на жнтропию такого поля, чтобы получить интерпретируемое значение. Чем больше ВИ, тем лучше кластеры, но если она равна энтропии поля, то повод задуматься.

2) вместо частотного анализа лучше использовать TF-IDF - очень сильный инструмент и порой дает карлинально другие результаты, в отличие от частотного. Ну и проблему очистки датасета от стоп-слов решает автоматически

3) ну и еще интересно глянуть на n-грамы. Иногда даже прикручивать описание с помощью LLM или ключевых слов не нужно.

И Вопрос:

До скольки снижали размерность UMAPом и какой метрикой?

+3

Знакомимся с SciPy

Liugger Apr 6 at 09:52

Не часто прльзую SciPy в работе, но когда использую, то это либо работа связанная с распределниями (типа сравнить что лучше подойдёт под мои данные с помощью MLE), либо вычисление расстояний (cdist, pdist).

И если второе - узкая задачка, то забыть рассказать про первое в статье - это, на мой взгляд, серьезное упущение

0

Проблема Deep Research

Liugger Mar 4 at 10:59

Комментарии по форме: Очень хороший перевод, я пропустил теги и задумался над тем что, возможно не оригинальный текст только к середине статьи На строке "... Станет двоичным изменением..."

Комментарии по наполнению: который автор подтверждает, что т. н. ИИ - это исполнительный стажер, который самостоятельно не сможет решить задачу так, чтобы этому решению можно было доверять.

Deep Research не пробовал, но активно заигрываю с DeepSeek R1 и замечаю, что либо нужно давать детальный алгоритм решения задачи либо предстоит несколько итерааций, а это долго.

Пример: надо было написать скрипт для монитонинга процессов на ПК. Я сам аналитик данных, то есть с питоном знаком, но не в этой области. Задача для хобби, т. е. знания для написания такого кода в работе мне никогда не пригодятся. Решил отдать задачу на откуп DeepSeek R1. По итогу нескольких итераций и тестирований я понял, что быстрее было бы самому изучить и написать

+3

Сервер туманного гейминга или проблемы на ровном месте за 30 руб./ч

Liugger Jan 24 at 19:26

Как я понял, среди тех, кто захожит менее чем на 5 минут

1) есть категория людей, которые просто тестируют возможности сервиса - они заходят в одиночные игры и выходят через пару минут.

2) есть люди, которые заходят в условно-бесплатнын тайтлы типа CS, Dota и просто смотрят можно ли что из инвентаря забрать.

3) люди заходят, хотят продолжить игру, которую ранее начали, а у вас в игре не правильно настроен путь к сохранениям, либо версия игры не подходит под их сохранения

4) некоторые игры просто не запускаются: я так намучился с растом и warhammer 40k space marine 2. Официально купленные в Стиме, но на учетке без прав админа не устанавливался античит, что приводило к бесконечному запуску скрипта установки, от чего открывалось много окон терминалов, что пугает людей

Я все это понял потому что монитор подключен и в течение дня я вижу, что происходит на экране.

По моему мнению, ориентироваться на среднюю цену не стоит, лучше ставить цену значительно меньше. Обоснование такое: распределение цен, по моему мнению, похоже на экспоненциальное, а там среднее больше медианы, причем заметно. По мои прикидкам 15 руб в час попадает в пределы 20 перцентиля, то есть, при прочих равных, достаточно спроса который заберет 20% самых дешевых компов, чтобы он добрался до моего компа

Надеюсь, вам будет полезно

0

Сервер туманного гейминга или проблемы на ровном месте за 30 руб./ч

Liugger Jan 22 at 06:24

Тоже недавно увлекся попытками сдать комп в сервисе МТС. Есть ПК на ryzen 3900x и RTX 2070 super, ноут на ryzen 6900hx и rtx 3070 laptop - то есть, если сдать один в аренду, то есть второй для личных задач.

Запланировал обновить железки в ПК в феврале, задумался, что делать со старым железом, вспомнил про то, что когда-то видел рекламу MTS Fog play.

В общем, решил сдать десктоп для чего завел вторую винду на отдельном HDD, но в последующем все перевел на новый SSD, завел новый аккаунт стим, который добавил в семейную группу, так как сам играю сейчас не часто, то на этом аккаунте доступны мои игры купленные ранее. Сдаю третий день с тарифом 15 руб/час для меня. Во второй день суммарный простой был 7.5 часов, то есть достаточно хорошая утилизация станка выходит (у лучших за неделю, по моим расчетам выходит 8-10 часов простоя).

Много тех кто заходит на пару минут, потом отключается, что приводит к перезагрузке - если бы не ssd, то время простоя было бы больше. По замерам перезагрузки: если система на HDD то требовалось 8,5 минут на полную перезагрузку и прогрузку всего ПО, на SSD уходит 2.5 минуты.

Для меня это больше развлечение, так как дополнительные траты окупятся не скоро (для своего удобства я еще сделал несколько приобретений). Как наберутся исторические данные, думаю статью тут написать.

На изображении диаграмма Ганта по игровым сессиям.

-1

Сегментация данных — это не больно. Применяем ML-модели в аналитике

Liugger Jan 21 at 15:55

Есть в беклоге аналогичная идея для задач в рамках своей команды, но чуть более сложная:

добавьте еще параллельно построение леса для оценки важности признаков по которым строите свое дерево и уже по оценке важности через лес ранжируйте результат сегментации деревом.

Дерево - слабый классификатор, а лес уже посерьёзнее будет, поэтому его feature_importance предпочтительнее.

Можно еще построить деревья на разных подмножествах предикатов, выбрать те, где хорошее качество, а среди них выбрать то, где очередность признаков в иерархии ветвления больше соответствует важности признаков по feature_importance ранее рассчитанного леса.

+2

Активность найма на IT-рынке в 3 квартале 2024

Liugger Oct 9 2024 at 13:53

Авторы, просьба не забывать про то, что специалисты сферы Data Science (аналитики, инженеры, моделисты и т.п.) - тоже ИТшники и нам тоже интресно что с наймом в нашей сфере. Уже не первый пост про найм или ЗП в котором нет информации. Смотря на калькулятор зарплат видно что не для всех специализаций есть статистика, но для аналитиков данных выборка, как мне кажется, приемлемая. Неужели по вакансиям ситуация хуже?

0

1