Комментарии / Профиль YuraDorn / Хабр

Юра Дорн @YuraDorn

Пользователь

Профиль Публикации 5Комментарии 5Закладки 16

YuraDorn 30 мар 2023 в 01:25

В Яндексе, в VK, в Ozon, в Алиэкспресс, в Тинькофф и Сбере и во многих других компаниях с более-менее зрелым DS. Конечно, многие в стартапах или уехали.

Это если говорить о том, куда эти ребята идут работать после учёбы.

Сам вариант постановки вопроса "Мы собрали много совсем данных, но не знаем что с ними делать" не верный.

Во-первых, как я уже сказал, люди уходят в компании с развитым DS, как правило это крупные корпораты. Людей этих нанимают для решения конкретных внутренних задач компании, а не чтобы решать задачи гос.сектора. Поэтому никто вам внешний не поможет. Можно, конечно, нанять консультантов, чтобы подсказали какую пользу можно из собранных данных извлечь, но это максимум, чем они смогут помочь.

Если вы знаете (или вам подсказали), что вы хотите от данных, то есть несколько путей:

1) Если задачка маленькая и для внутреннего пользования (например, пришёл запрос из министерства, по данным демографии понять эффект от программы маткапитал и ответить на вопрос имеет ли смысл её продолжать), можно отдать задачку на аутсорс: как правило это либо отдельные научные или проектные команды или тот же консалтинг.

2) Если есть большой поток однотипных задач или же вы хотите на основе данных сделать какой-то сервис, то нужно нанимать команду к себе. Тут главная проблема в том, что в гос. никто не хочет идти. Есть как минимум несколько объективных факторов для этого: уровень компенсации (мало денег, мало плюшек), комфорт (бюрократия, ограничения и тд, офис тот же), рабочая среда (совсем другой культурный срез, ценности и тп).

Если задачи внутренней нет, а есть просто желание придать ценности данным, то не нужно искать DSов. Нужно открывать датасет или на каких-то иных условиях предоставлять к ним доступ и повышать осведомленность об их доступности участникам рынка. Примеры такой схемы от тривиального MNIST, продолжая бесплатные датасеты на том же Kaggle (или, кстати, Росстат, биржи и тд) и заканчивая платными подписка и на Блумберг и тп.

Посмотреть

Как стать более востребованным специалистом в сфере Data Science в 2019

YuraDorn 1 авг 2019 в 22:21

По моему мнению, работа и карьера в Data Science — не одно и то же. Для работы вам понадобится вышеприведенный набор навыков, но для построения успешной карьеры в Data Science самый важный навык — это умение учиться.

Работа и карьера эксперта — не одно и то же. Чтобы быть экспертом, вам понадобиться разбираться в сфере, ее глубокое понимание, но для построения успешной карьеры эксперта самый важный навык — красиво и обтекаемо говорить банальные вещи.

Посмотреть

Немного про коническую двойственность

YuraDorn 3 дек 2018 в 15:34

Именно в качестве источника примеров книга Бойд и Вандерберге действительно очень хороша. Но опять же это примеры и смысл двойственной задачи будет определен контекстом.
Про какие-то более универсальные вещи лучше смотреть книгу Бен Таля, Гуоуи и Немировского.

В целом самое общее, что приходит в голову:
Обычно задача оптимизации выгляди так: мы пытаемся максимизировать некоторый функционал при наличии ограничений. Ограничены обычно ресурсы. То есть какой уровень некоторого функционала качества мы можем достичь, если у нас есть некоторое заданное количество ресурсов. Двойственная задача ставит вопрос по другому: сколько минимально нам нужно ресурсов, чтобы уровень функционала качества из прямой задачи был не меньше, чем некоторая заданная величина.

Посмотреть

Немного про коническую двойственность

YuraDorn 2 дек 2018 в 12:49

Изначально я начал писать пост про робастную оптимизацию, но там получилась большая простыня текста.
Поэтому я решил вынести технику построения двойственной задачи через конусы в отдельный небольшой пост, на который можно будет сослаться.
После публикации поста про робастную оптимизацию добавлю соответствующую ссылку в этот текст. Там будут более содержательные примеры.

С другой стороны содержательная интерпретация двойственной задачи естественным образом зависит от содержательной интерпретации прямой задачи (для которой мы строили двойственную). То есть интерпретация двойственной задачи зависит от контекста.

Конечно, есть несколько важных свойств двойственной задачи, которые остаются верными всегда:
— Слабая двойственность (при выполнении некоторых условий, сильная двойственность), связывающая значения целевых функций в прямой и двойственной задачах.
— Выпуклость двойственной задачи и, следовательно, возможность ее эффективно численно решить.

В детали тут входить тяжело (объемная тема). Самое лучшее изложение, пожалуй, можно найти в первой главе вот этой замечательной книги.

Посмотреть

Немного про коническую двойственность

YuraDorn 2 дек 2018 в 11:10

Это индексы нормы. Эта запись используется для сокращения размеров формул.
Первая норма вектора = сумма модулей компонент вектора
Вторая норма вектора = обычная евклидова норма = корень из суммы квадратов компонент вектора
Бесконечная норма вектора = максимум из модулей компонент вектора
Чуть более подробно можно посмотреть вот тут в разделе «примеры»

Посмотреть