Pull to refresh
0
0
Send message

Смысл в том, что с вектор отражает смысл текста и можно из вектора получить обратно текст. Текст будет похож на исходный.

Очевидно, что с sha256 такое не сделать.

Можно текст вообще в одно число закодировать, только коллизий много будет. Смысл не только в сжатии, а в возможности работать с этой сжатой информацией.

Я бы сказал, что исследователи изучали наименьшую возможную размерность пространства смыслов в которое можно вложить текст

Про экономику у вас очень сильное заявление про страну, которая за 3 года побила рекорд по количеству санкций и не стала напоминать Аргентину.

В праве я не особо понимаю.

А как обладатель дипломов всех 3 уровней образования (на 2021 год) и работающий в смежной с полученным образованием сфере скажу, что имеет смысл ограничить места, в том числе и платные, чтобы простимулировать рост числа именно тех специалистов, на которых есть востребованность.

Если бы я в 17 лет понимал, что не везде, куда думаю, могу поступить, может умнее бы выбирал специальность в ВУЗе.

Сам менеджер и экономист по образованию, работаю аналитиком данных. Надо бы идти на экономическое моделирование или бизнес-информатику

Я понял вашу мысль, и, наверное, соглашусь, что термин "расстояние" чрезмерно расширили, что сбивает с толку. Мне кажется неплохо бы смотрелись понятия "косинусное различие" (которое 1 - косинусная схожесть) или "различие махаланобиса". В общем, есть тут проблема, соглашусь.

Аналогию с графами понять - за рамками моих познаний, надеюсь что пока. Не профильная сфера для меня.

По вашим примерам, видно что понятие расстояния вы рассматриваете только как Евклидово расстояние, то есть расстояние в физическом смысле. В аналитике, по моему мнению, расстояние - это мера непохожести, чем больше расстояние, тем менее похожи объекты. И такое определение нужно чтобы отвечать на вопросв типа "дальше ли по смыслу слон от плитки, чем автомобиль от самолета" или "какой кандидат ближе всех к нашей вакансии". В таких ситуациях фмзического расстояния в метрах не существует, а евклидово не учитывает всех особенностей данных.

Косинусное сходство и косинусное расстояние это похожие штуки и похожи тем, что одно получается если из единицы вычесть второе.

Расстояние в математическом смысле это вполне определенная сущность, первая же ссылка на Википедию в поисковике выдает 4 критерия по которому некий показатель можно считать расстоянием.

6 год работаю аналитиком, только вчера описывал метрику оценки кластеризации, которую надо занести в прод. Метрика включает в себя нормированную энтропию: без математики было бы сложно, так как не существует какой-то одной нормированной энтропии и надо понимать на что ее можно нормировать и как.

Первые 4 года моего стажа математика была особо не нужна (только для оьучения новым алгоритмам и техникам), а потом устроился туда где очень много работы с текстами, тут всю работу можно свести к анализу положения векторов в пространстве или некоему анализу множеств слов. Какие-то базовые штуки типа корреляций в этом мире вообще отсутствуют, приходится что-то поинтереснее узнавать, типа взаимной информации.

Жутко интересно, но крайне мало информации именно по аналитике текстов и приходится постоянно придумывать эвристики. Для эвристик супер сложная математика не нужна, но, например, представлять чем евклидово расстояние от косинусного отличается и почему где-то лучше использовать одно, а где-то другое - надо.

Из чего-то сложного пригодилось понимание факторизации матриц, так как через него понимаешь как вообще представить слова в виде векторов, а отсюда вырастает 80% аналитики текстов.

Ну и уточню, что я не создаю модели машинного обучения, я анализирую тексты, чтобы помочь дата сатанистам и ml-инженерам лучше делать их работу: подобрать размер чанка для РАГа, понять можно ли создать простые эвристики релевантности текста, чтобы не создавать модели ранжирования или не нагружать гпу, используя LLM для классификации и т.п.

Интересная статья, занимаюсь примерно тем же, есть пара комментов:

1) Силуэт не подходит для оценки HDBSCAN, так как кластеры могут быть произвольной формы. Если есть какое-то поле, которое хоть как-то семантически разделяет ваши тексты (тема обращения, ваши бизнес направления или другое), то адекватным будет замерять взаимную информацию между этим полем и кластерами. Можно ещк нормировать ВИ на жнтропию такого поля, чтобы получить интерпретируемое значение. Чем больше ВИ, тем лучше кластеры, но если она равна энтропии поля, то повод задуматься.

2) вместо частотного анализа лучше использовать TF-IDF - очень сильный инструмент и порой дает карлинально другие результаты, в отличие от частотного. Ну и проблему очистки датасета от стоп-слов решает автоматически

3) ну и еще интересно глянуть на n-грамы. Иногда даже прикручивать описание с помощью LLM или ключевых слов не нужно.

И Вопрос:

До скольки снижали размерность UMAPом и какой метрикой?

Не часто прльзую SciPy в работе, но когда использую, то это либо работа связанная с распределниями (типа сравнить что лучше подойдёт под мои данные с помощью MLE), либо вычисление расстояний (cdist, pdist).

И если второе - узкая задачка, то забыть рассказать про первое в статье - это, на мой взгляд, серьезное упущение

Комментарии по форме: Очень хороший перевод, я пропустил теги и задумался над тем что, возможно не оригинальный текст только к середине статьи На строке "... Станет двоичным изменением..."

Комментарии по наполнению: который автор подтверждает, что т. н. ИИ - это исполнительный стажер, который самостоятельно не сможет решить задачу так, чтобы этому решению можно было доверять.

Deep Research не пробовал, но активно заигрываю с DeepSeek R1 и замечаю, что либо нужно давать детальный алгоритм решения задачи либо предстоит несколько итерааций, а это долго.

Пример: надо было написать скрипт для монитонинга процессов на ПК. Я сам аналитик данных, то есть с питоном знаком, но не в этой области. Задача для хобби, т. е. знания для написания такого кода в работе мне никогда не пригодятся. Решил отдать задачу на откуп DeepSeek R1. По итогу нескольких итераций и тестирований я понял, что быстрее было бы самому изучить и написать

Как я понял, среди тех, кто захожит менее чем на 5 минут

1) есть категория людей, которые просто тестируют возможности сервиса - они заходят в одиночные игры и выходят через пару минут.

2) есть люди, которые заходят в условно-бесплатнын тайтлы типа CS, Dota и просто смотрят можно ли что из инвентаря забрать.

3) люди заходят, хотят продолжить игру, которую ранее начали, а у вас в игре не правильно настроен путь к сохранениям, либо версия игры не подходит под их сохранения

4) некоторые игры просто не запускаются: я так намучился с растом и warhammer 40k space marine 2. Официально купленные в Стиме, но на учетке без прав админа не устанавливался античит, что приводило к бесконечному запуску скрипта установки, от чего открывалось много окон терминалов, что пугает людей

Я все это понял потому что монитор подключен и в течение дня я вижу, что происходит на экране.

По моему мнению, ориентироваться на среднюю цену не стоит, лучше ставить цену значительно меньше. Обоснование такое: распределение цен, по моему мнению, похоже на экспоненциальное, а там среднее больше медианы, причем заметно. По мои прикидкам 15 руб в час попадает в пределы 20 перцентиля, то есть, при прочих равных, достаточно спроса который заберет 20% самых дешевых компов, чтобы он добрался до моего компа

Надеюсь, вам будет полезно

Тоже недавно увлекся попытками сдать комп в сервисе МТС. Есть ПК на ryzen 3900x и RTX 2070 super, ноут на ryzen 6900hx и rtx 3070 laptop - то есть, если сдать один в аренду, то есть второй для личных задач.

Запланировал обновить железки в ПК в феврале, задумался, что делать со старым железом, вспомнил про то, что когда-то видел рекламу MTS Fog play.

В общем, решил сдать десктоп для чего завел вторую винду на отдельном HDD, но в последующем все перевел на новый SSD, завел новый аккаунт стим, который добавил в семейную группу, так как сам играю сейчас не часто, то на этом аккаунте доступны мои игры купленные ранее. Сдаю третий день с тарифом 15 руб/час для меня. Во второй день суммарный простой был 7.5 часов, то есть достаточно хорошая утилизация станка выходит (у лучших за неделю, по моим расчетам выходит 8-10 часов простоя).

Много тех кто заходит на пару минут, потом отключается, что приводит к перезагрузке - если бы не ssd, то время простоя было бы больше. По замерам перезагрузки: если система на HDD то требовалось 8,5 минут на полную перезагрузку и прогрузку всего ПО, на SSD уходит 2.5 минуты.

Для меня это больше развлечение, так как дополнительные траты окупятся не скоро (для своего удобства я еще сделал несколько приобретений). Как наберутся исторические данные, думаю статью тут написать.

На изображении диаграмма Ганта по игровым сессиям.

Есть в беклоге аналогичная идея для задач в рамках своей команды, но чуть более сложная:

добавьте еще параллельно построение леса для оценки важности признаков по которым строите свое дерево и уже по оценке важности через лес ранжируйте результат сегментации деревом.

Дерево - слабый классификатор, а лес уже посерьёзнее будет, поэтому его feature_importance предпочтительнее.

Можно еще построить деревья на разных подмножествах предикатов, выбрать те, где хорошее качество, а среди них выбрать то, где очередность признаков в иерархии ветвления больше соответствует важности признаков по feature_importance ранее рассчитанного леса.

Авторы, просьба не забывать про то, что специалисты сферы Data Science (аналитики, инженеры, моделисты и т.п.) - тоже ИТшники и нам тоже интресно что с наймом в нашей сфере. Уже не первый пост про найм или ЗП в котором нет информации. Смотря на калькулятор зарплат видно что не для всех специализаций есть статистика, но для аналитиков данных выборка, как мне кажется, приемлемая. Неужели по вакансиям ситуация хуже?

Ну так а чего вы хотите?

Ни в одном ПО нет кнопки "сделать по красоте", как ни одна фирма не предложит что-то без конкретной задачи, кроме стартапов или добровольных энтузиастов, которым важен не результат а процесс.

А как оценить результат если нет задачи?

Если не секрет, то какого рода у вас данные?

Любой объект можно анализировать, каким бы волатильным не была его природа.

Однако чем более волатилен объект, тем более часто необходимо проводить анализ, если хотим поддерживать релевантность анализа. Либо переходить на более высокий уровень абстракции, рассматривая то, что раньше считалось константами, как переменные.

Как я понял из статьи, основным посылом утверждается что BI как направление бессмысленно в виду того, что весь функционал есть в ERP системах.


Возможно у меня мало опыта в этой сфере, но есть один неучтенный плюс у BI систем: они изначально созданы, чтобы пользователь мог сам легко создавать свои вычисления и
красивые картинки.


А в наиболее известных и популярных ERP для создания какого-то вычисления или генерации какого-то нового конкретного отчета пользователю необходимо обратиться к "консультанту" или "разработчику" и оплатить ему услугу по добавлению чего-то нового в существующую систему отчетности, причем стоимость за одно "обращение" будет сопоставима с месячной зарплатой BI-аналитика.


С появлением BI инструментария можно генерировать аналитические панели и отчетность по запросу и довольно быстро.


Именно в этих причинах я вижу истоки распространения BI-систем.

Information

Rating
Does not participate
Registered
Activity