Pull to refresh
9
Karma
0
Rating
  • Followers 16
  • Following

Заметки Датасатаниста: реляционные vs связанные данные

Согласен, слишком упрощенно вышло.

Про классические БД — все так, там CWA везде и всегда.

C LinkedData — тут по прежнему бинарная логика да/нет, так что нельзя сказать, что closed world assumption совсем не применим — если я попрошу ВикиДата посчитать все материки, то он их насчитает 6, а не «не знаю сколько» — ведь у меня нет доказательства, что все остальные объекты не материки (в случае с open world у нас по сути есть вывод как плюса, так и минуса — все, что посередине unknown)

Заметки Датасатаниста: что делать, если перед вами оказалась NP-полная задача

Если глядя на проблему, вы в состоянии провести анализ задачи на степень аппрокисимируемости, сложность вероятностных алгоритмов для распределения средних входных данных или идентифицировать параметрическую сложность задачи и оценить распределение в среднем на своих данных для параметров, то пожалуй вам не нужны вводные гайды «что делать, если ваша задача может быть NP-полной» :)

Заметки Датасатаниста: что делать, если перед вами оказалась NP-полная задача

Про это есть подробнее в приведенных ссылках.

Работа фрилансером в Бельгии

Подтверждаю, что такие такие ЗП вполне есть на рынке и в целом, наверное, в Бельгии ЗП выше чем в Германии, за исключением Берлина, Мюнхена и ко — но это исключительно мои наблюдения.

Заметки Дата Сатаниста: честность модели

По-моему это честная схема, когда тебе предлагают писать на темы интересные тебе самому. Сообщество получает интересный контент, а заказчик — рекламу.

Иначе бы этот цикл заметок у меня еще месяцами пылился бы на полке.

Заметки Дата Сайентиста: как измерить время забега марафона лежа на диване

Код на скорую руку, поэтому немного тяп-ляп
df = df[~df.result.isin(["DQ", "DNF"])]
df.reset_index(drop=True, inplace=True)
df['result'] = pd.to_timedelta(df['result'], unit="h")
df['time'] = df['result'].apply(lambda x: x.seconds/60)
df['sex'] = df.category.apply(lambda x: x.strip()[0])
df['age'] = df.category.apply(lambda x: int(x.strip()[1:]))

Заметки Дата Сайентиста: с чего начать и нужно ли оно?

Про community рекомендую вступить в Open Data Science — там прям много людей.

А если по материалу — мне кажется наиболее разумным начать с простых вводных материалов на Udacity и потихоньку начинать работать над каким-то своими проектами, которые кажутся интересными — а там потихоньку и к более сложным вещам переходить.

Заметки Дата Сайентиста: с чего начать и нужно ли оно?

А можно никуда и не ходить, я прямо из дома работаю :)

Заметки Дата Сайентиста: с чего начать и нужно ли оно?

Смотря что считать «ближайшие» — следующие два-три года проекты никуда деться не должны, а прям дальше бы я не загадывал

Заметки Дата Сайентиста: на что обратить внимание при выборе модели машинного обучения — персональный топ-10

1. Вы хотите сказать, что они не связаны? Сложность модели напрямую влияет на bias/variance trade-off, а как следствие на VC-размерность и способность модели обобщать сложные закономерности (вообще в целом)
2. Нет, это же персональный список того, с чем приходилось столкнуться и с какого угла эти задачи рассматривались
3. Да, тут это в другом смысле, мы говорим white box — когда у нас есть хорошее понимание почему модель себя ведет именно так и мы можем анализировать ее действие, и понять, что на что именно там повлияло. В естественно-научном цикле терминология отличается и это абсолютно нормально

Заметки Дата Сайентиста: на что обратить внимание при выборе модели машинного обучения — персональный топ-10

Согласен, но тут я привожу свой список того, с чем приходилось сталкиваться — вполне возможно, что здесь пропущено куда больше — просто это менее популярно, поэтому не приходилось с этим работать напрямую.

Совсем не обязательно, что у вас он будет таким же — здесь все субъективно, но делюсь опытом из жизни.

Заметки Дата Сайентиста: персональный обзор языков запросов к данным

Опыт же персональный, я прям так и написал, что делюсь тем, что мне помогло:
но тут у меня исключительно субъективный личный опыт, у вас, может быть, все совсем по-другому.

мне часто помогает разложить процесс обработки и data extraction в виде простых операторов в голове и на бумаге, а потом переложить его в код и запросы — если вам не помогает, то у вас просто другой подход, я же не обещал, что это решит все проблемы и поможет всем

Заметки Дата Сайентиста: персональный обзор языков запросов к данным

Это же персональный список того, что реально приходилось использовать — ни на что большее не претендую, я прям так и написал в первых предложениях.

Information

Rating
Does not participate
Works in
Registered
Activity