Data Mining *

Глубинный анализ данных

20,91

Рейтинг

21 мая 2024 в 10:4918

Блог компании Островок!Data Mining * Машинное обучение * Карьера в IT-индустрииData Engineering *

Привет! Меня зовут Ильдар Ломов. Расскажу, чем занимаются ML-инженеры в Островке. Знаю об этом всё, я сам руководитель команды Data Science.

Сейчас портфель ML-проектов Островка —12 штук в нескольких направлениях: от продуктового ML (ранжирование, рекомендации), до больших языковых моделей.

Состав команды стандартный: ML-инженер, бизнес-аналитик, проджект, продакт. Опционально тимлиды и разработчики.

Работа ML-инженера в Островке — посередине между стартапом с его моделью в jupyter-ноутбуке и корпорацией, где работа с сотнями моделей упорядочена, стандартизирована, вшита в интерфейсы. Можно поработать над серьезным проектом гибко с разнообразием инструментов.

Идеал — проактивный человек, который протащит проект от исследования до прода и покрытия метриками. Важно понимать все этапы проекта, иметь усиленный скилл хотя бы на одном из них, с остальным поможет команда.

Нужно уметь покрывать метриками, следить за проектом на проде, чтобы тот не потерял смысл из-за нестыковок в ТЗ. И работал так, как задумано.

Частые итерации, проверки гипотез и новых технологий дают нашему ML-инженеру больший кругозор в сравнении с крупными компаниями. Специалист растет с технической и бизнесовой сторон.

Работа оценивается с точки зрения влияния на бизнес, инженер видит, как проекты прямо и понятно воздействуют на бизнес-метрики.

Это то, что мы всегда хотим видеть в кандидатах, но на рынке такого не много. Чем виднее на собеседованиях, что человек понимает бизнес-сторону, тем больше он нам подходит.

Rubcov

3 мая 2024 в 13:055.2K

Блог компании Magnus TechData Mining * Машинное обучение * Искусственный интеллектData Engineering *

Дайджест материалов Магнус

Самой короткой рабочей неделе в году — самый короткий материал! Делимся подборкой статей за последние три месяца.

Что может быть важнее данных? То, как они хранятся, используются и воспроизводятся. Эти и другие возможности есть в инструменте ClearML: рассказываем о работе с ним.

Высококачественные данные — это «топливо» для моделей глубокого обучения. Рассказали в этом материале, с помощью чего можно улучшить качество данных.

Предсказывать цены могут не только крупные ритейлеры, но и розничные офлайн-магазины. Как? Рассказали здесь.

Как тимлиду ML-команды выстроить качественные продуктивные отношения с коллегами? Узнали у senior-разработчика, советы собрали тут.

Как учиться, чтобы время и усилия были слиты не зря? Подготовили 10 советов для тех, кто хочет получить от курсов всё.

Получили интересное мнение из первых рук: Роман Резников, senior-разработчик и DL-engineer, рассказал про промт-инжиниринг в работе и личной жизни.

slavius

12 апр 2024 в 09:093.3K

Data Mining *

С понедельника на сайте лондонской биржи металлов висела плашка «Due to a technical issue the latest market data values have not been updated». Данные о торгах за прошлый день или не отображались, или отображались с ошибкой. В частности, были заменены местами значения в столбцах Bid и Offer в Trading summary по Non‑ferrous metal. В настоящее время сообщения об ошибке нет, данные отображаются верно. Если кто‑то использует данные с сайта LME.com — проверьте правильность данных за эту неделю.

ArtemBoiko

9 апр 2024 в 14:2354

3D-графика * Data Mining * CAD/CAM * Unity * Unreal Engine *

CAD (BIM) Revit и IFC в Unreal Engine, Unity, Oculus — визуализация, рендеринг, метаверсии и игровой дизайн

? Стандартный рендеринг в CAD (BIM) программах часто не дотягивает до качества визуализации, но игровые движки, такие как Unreal Engine и Unity, произвели революцию в архитектурной и дизайнерской визуализации. Эти движки предлагают быстрый рендеринг и интуитивно понятные настройки света, материалов и геометрии, которые значительно улучшают процесс визуализации. Теперь клиенты могут изучать виртуальные модели зданий, взаимодействуя с такими элементами, как освещение и мебель, в режиме реального времени, что улучшает их понимание и вовлеченность. Unreal Engine позволяет проводить метаверсии, превращая 3D-виртуальные миры в крупные социальные центры.

? Unreal Engine позволяет создавать интерактивные приложения 3D, дополненной (AR) и виртуальной (VR) реальности из 3D CAD (BIM) моделей.
? Визуализацию или симуляцию движения автомобилей и людей можно настроить буквально в несколько кликов. Погода и время также легко настраиваются
? Бесплатные движки позволяют подключать алгоритмы искусственного интеллекта, которые наглядно позволяют воспроизводить симуляции в реальных сценах, а не на бумаге
? Используя Unity и инструментарий ML-Agents, ты можешь создавать ИИ-среды, которые будут физически, визуально и когнитивно насыщенными
? С помощью Unity Machine Learning Agents больше не нужно"кодировать" эмерджентное поведение, а можно научить интеллектуальных агентов "учиться",

CrXf_17

24 ноя 2023 в 08:582.6K

SQL * Data Mining * NoSQL * Data Engineering * Tarantool *

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_10

?Вопрос_10: Что такок Tarantool и как он устроен ? (Часть_2)

Replication: Tarantool предлагает механизм репликации, который позволяет создавать реплики базы данных для обеспечения отказоустойчивости и масштабируемости. Репликация Tarantool основана на механизме репликации мастер-слейв (master-slave) и поддерживает асинхронное и синхронное реплицирование.
Sharding: Tarantool поддерживает горизонтальное масштабирование с помощью шардинга данных. Шардинг позволяет распределить данные по нескольким узлам-серверам, что позволяет обрабатывать большие объемы данных и повышает производительность.
Индексы: Tarantool предоставляет различные типы индексов для оптимизации запросов и обеспечения быстрого доступа к данным. Включая хеш-индексы, деревья и индексы, основанные на отсортированных списках.
t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);

CrXf_17

5 ноя 2023 в 22:0740

Data Mining * Математика * Машинное обучение * Статистика в ITData Engineering *

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_3

?Вопрос_3: Что такое преобразование Бокса-Кокса?

Преобразование Бокса-Кокса (Box-Cox transformation) - это преобразование, которое преобразует "ненормальные" зависимые переменные в нормальные переменные, так как нормальность является наиболее распространенным предположением при использовании многих статистических методов. Оно было предложено Георгом Боксом и Дэвидом Коксом в 1964 году.

Оно имеет параметр лямбда, который при значении "0" означает, что это преобразование эквивалентно лог-трансформации. Оно используется для стабилизации дисперсии, а также для нормализации распределения. Выбор оптимального значения параметра (лямбда) при использовании преобразования Бокса-Кокса может быть выполнен с использованием различных методов:

Метод максимального правдоподобия: В этом подходе подбирается значение (лямбда), которое максимизирует правдоподобие модели. Это можно сделать с помощью численных методов оптимизации, таких как метод Ньютона-Рафсона или метод Брента;
Критерии информационного критерия: можно использовать информационные критерии, такие как критерий Акаике (AIC) или критерий Шварца (BIC);
Кросс-валидация: При этом данные разбиваются на обучающую и проверочную выборки, и производится оценка преобразования Бокса-Кокса для различных значений (лямбда) на обучающей выборке. Затем оцениваются результаты на проверочной выборке и выбирается лучшее значение.

https://t.me/DenoiseLAB

CrXf_17

5 ноя 2023 в 14:5727

Data Mining * Big Data * Математика * Машинное обучение * Data Engineering *

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_2

?Вопрос_2: Объясните, что такое One-hot encoding и Label Encoding. Как они влияют на размерность заданного набора данных ?

✔️Ответ:

One-hot encoding - это представление категориальных переменных в виде двоичных векторов, при котором каждая уникальная категория переменной преобразуется в новый бинарный столбец, называемый "фиктивной переменной". В этом новом столбце значение 1 указывает на принадлежность к соответствующей категории, а значение 0 - на принадлежность к другим категориям. Таким образом, каждая уникальная категория представлена отдельным столбцом. Это позволяет алгоритмам машинного обучения интерпретировать категориальные значения и использовать их в расчетах. Не создает ложного упорядочения или отношения между значениями категориальных переменных и помогает избежать проблемы ложной корреляции между категориями переменных. Однако, использование one-hot encoding увеличивает размерность набора данных ("проклятие размерности").

Label Encoding - это процесс преобразования каждого значения категориальной переменной в целочисленный код. Каждой уникальной категории присваивается уникальное число. Label Encoding не добавляет новые столбцы к набору данных и не увеличивает размерность. Однако, важно понимать, что числовые значения, присвоенные категориям, могут создать ложное упорядочение или отношение между ними.

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

CrXf_17

5 ноя 2023 в 14:38194

Data Mining * Big Data * Машинное обучение * Искусственный интеллектData Engineering *

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_1

?Вопрос_1: Чем ковариация и корреляция отличаются друг от друга?

✔️Ответ:

Ковариация и корреляция - это два статистических показателя, которые используются для определения связи между двумя случайными величинами.

Ковариация измеряет степень, в которой две переменные меняются вместе, тогда как корреляция измеряет не только степень, но и направление отношения между двумя переменными.

Ковариация подразумевает, что две величины меняются в одном направлении: если одна увеличивается, то вторая тоже увеличивается, или если одна уменьшается, то другая тоже уменьшается. Однако, ковариация не учитывает, насколько сильно или слабо эти переменные меняются.

Корреляция, с другой стороны, учитывает не только направление, но и силу отношения между двумя переменными. Коэффициент корреляции может принимать значения от -1 до 1. Значение +1 для корреляции означает, что две переменные имеют прямую связь и полностью коррелируют. Значение -1 для корреляции означает, что две переменные находятся в обратной пропорциональной связи. Значение 0 для корреляции означает, что между двумя переменными нет связи.

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

Oksenija

10 авг 2023 в 09:2430

Data Mining * Big Data * Математика * Визуализация данных * Машинное обучение *

Сколько раз звонить, чтобы дозвониться. Наша странная реальность и теория вероятности. Является ли попытка дозвониться аналогом подбрасывания монеты

Бывают ситуации когда надо дозвониться до какой-то организации или человека, но телефон адресата то занят, то не отвечает, то вне зоны доступа и т.д. Мне попались любопытные данные внутренней статистики от одного из провинциальных операторов связи. Получается оптимальное количество попыток 4..7, а больше 15 раз делать попыток дозвониться теряет смысл, вероятность дозвона сильно уменьшается. И всё-таки это не подбрасывание монетки.

CloudMTS

12 мая 2023 в 10:009

Data Mining *

25 мая 2023 года в офлайн + онлайн формате состоится Дата Саммит «Вселенная Ваших данных». Это мероприятие, посвященное вопросам цифровой трансформации и управления данными. На Дата Саммите вы сможете узнать, как предсказывать появление «черных лебедей», как с помощью данных оперативно принимать эффективные решения. #CloudMTS — официальный партнер мероприятия.

Участие бесплатное.

На саммите вы сможете:

из первых рук узнать о лучших практиках российских компаний на базе отечественных технологий;
услышать мнение экспертов о перспективах российской цифровой трансформации на основе данных;
посетить демо-зону решений по управлению данными и выставку технологических партнеров.

Регистрация по ссылке.