Давным-давно, один специалист по базам данных (из тех, бородатых и уже седых) сказал мне, что метки времени (timestamp) — это самая сложная тема в базах данных. Я ему, правда, не поверил, но приколы со временем реально встречаются.
Есть стандартная проблема, которую часто вижу в чужих данных. Положим собрались вы отслеживать события/действия пользователя. Обычно у вас будет это делать некий код (JS в вебе или SDK для аппов), который будет слать данные серверу.
Каждому событию нужна метка времени. И есть выбор из двух: локальное время на клиенте или время получения события сервером. Один хороший совет что делать и загадка без ответа под катом
Чем первое проведение конференции отличается от второго? При подготовке первой нет ни возможности «сделать как раньше», ни зрительского фидбэка, и организаторам приходится делать смелые предположения. Это не значит, что получится плохо. Но это значит, что после первого раза непременно появятся новые соображения, которые помогут во второй.
В прошлом году мы впервые провели конференцию SmartData, а теперь пришло время «второго раза»: анонсируем SmartData 2018, которая состоится 15 октября в Санкт-Петербурге.
Чего ждать от конференции? Кому стоит на неё идти? Что изменилось по сравнению с прошлым годом? Рассказываем обо всём под катом.
Я много лет работал Data Engineer'ом и Data Scientist'ом, решал сложные бизнес-кейсы, строил большие системы, выводил это все в продакшен. В начале 2017го я бросил пить, курить и работать в офисе и ушел фрилансить, экспериментировать с альтернативными формами занятости. Довольно много времени я провел на Upwork. Судя по многочисленным комментариям, уважаемая аудитория не до конца представляет себе, что это такое. Вещаю.
Upwork это крупнейшая в мире биржа фриланса. Дата сатанисты и дата инженеры мало кому в этом мире нужны (по сравнению с переводчиками, веб-мастерами и переписывателями текстов), так что задач для нас относительно мало, так что они тяготеют к крупнейшей бирже в мире. Других фриланс-бирж с постоянным потоком задач для дата саентистов в мире нет — ни Guru, ни Toptal, ни отечественный fl.ru спросом похвастаться не могут. Что важно — для специалистов более массовых специальностей опыт фриланса может сильно отличаться.
Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.
В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.
Онлайн-университет GeekUniversity запускает факультет Data Engineering. За 12 месяцев вы познакомитесь с лучшими практиками и инструментами дата-инжиниринга, научитесь решать реальные бизнес-задачи самостоятельно и в команде. На курсе будет четыре проектные задачи, вы сможете добавить их в портфолио и начать карьеру инженера данных, ETL- или BI-разработчика.
Московский кредитный банк (МКБ) проводит онлайн хакатон для молодых специалистов по Data Science. Если вы студент последних курсов или начинающий специалист МКБ предлагает проявить свои таланты в области DS и выиграть отличные призы.
15 ноября Нетология запускает бесплатный курс «Искусственный интеллект: создайте нейросеть». В рамках курса вы самостоятельно обучите нейросети, которые смогут распознавать собак на фото, классифицировать изображения и определять эмоциональную окраску сообщения.
Получите интересную работу без многоэтапных собеседований и тестовых заданий! 16 июля мы проведём One Day Offer для Java-разработчиков, а 17 июля – для Data-инженеров. Вы познакомитесь с командами, пройдёте техническое интервью, получите обратную связь и оффер при взаимном мэтче в тот же день. И всё это онлайн.
Российская объединенная команда Россельхозбанка, МФТИ и РГАУ-МСХА заняла второе место в финале международного сельскохозяйственного конкурса Autonomous Greenhouse Challenge, организованного Нидерландским Университетом WUR (Wageningen University & Research), опередив участников из Китая, Южной Кореи и стран Европы.
Уже в ближайший вторник, 16 марта, в 15:00 МСК состоится крупнейшее в EMEA онлайн-событие Cloudera Now 21: Data That Moves You… Fast. Secure. Hybrid. Now.
В рамках этого вебинара технические эксперты Клаудеры покажут, как построить современную гибридную платформу больших данных, реализуя потенциал Cloudera Data Platform (CDP).
Линейка IT-решений СИБУРа, доступных на рынке, расширилась за счёт продуктов «Каталог данных» и «SIBUR ML Framework». То есть, таких решений у нас уже 5!
Помимо упомянутых новинок мы продаём программно-аппаратные комплексы дополненной реальности и промышленного интернета вещей, а ещё систему интеллектуального видеонаблюдения «Чёрный экран». В 2022 году экономический эффект от их внедрения превысил 300 млн рублей.
Привет! Совсем скоро пройдет соревнование IT’s Tinkoff Solution Cup для опытных разработчиков и аналитиков. Шесть треков, нестандартные задачи и призы — рассказываем, что ждет участников и как подать заявку
На прошедшем DevOps meetup мы вместе со спикерами из Lenvendo и Учи.ру познавали Zabbix и разбирались, какую практическую пользу может принести DataOps. Даже если вы не были на эфире, узнать много полезного можно с помощью видео докладов.
Машинное обучение так или иначе уже применяется в компаниях самых разных масштабов и направлений деятельности. Однако для выстраивания зрелой ML-инфраструктуры и перехода к эффективным MLOps-практикам требуется понимание: с чего начать, на какие платформы обратить внимание, к каким инструментам присмотреться внимательнее, а какие подойдут лишь для разовых экспериментов.
К инструментам MLOps для больших исследовательских и бизнес-задач предъявляются три базовых требования: интерпретируемость, воспроизводимость, надёжность. Как среди десятков Open-Source-инструментов выбрать правильные, что могут или не могут использовать компании, к которым предъявляются высокие требования стандартизации, на чем должен основываться выбор между облаками и InHouse для ML, — в третьем выпуске серии MLOps подкаста «Деньги любят техно» обсудили Юрий Карев, руководитель управления процессов и стандартов моделирования и машинного обучения ВТБ, и Алексей Незнанов, к.т.н, старший научный сотрудник международной лаборатории интеллектуальных систем и структурного анализа НИУ ВШЭ.
Работа с данными — это не только аналитика. В этой сфере есть инженерные роли. Инженеры разрабатывают и эксплуатируют системы, благодаря которым данные доступны, лежат в правильном формате в нужном хранилище, с заданными владельцами и описанной структурой.
Современный Data Governance — это командная работа. Из каких супергероев она состоит — поговорим на открытом вебинаре 25 июля в 19:00 МСК.
10 февраля, в субботу, мы проведем онлайн One Day Offer в Sportmaster Lab, в рамках которого будем искать Data Engineer и DWH developer в нашу команду.
Как всё будет проходить
- Сбор заявок до 6 февраля. - Предварительный этап — с вами свяжется hr для уточнений. - Подготовка к собеседованию — попробуйте свои силы в тестирование по DE или DWH. Тестирование не является обязательным, но темы, которые вы встретите в процессе прохождения, будут также затронуты на собеседовании. - Техническое интервью. Заранее назначим время технического интервью и отправим ссылку на комнату MS Teams, в которую подключится интервьюер. Длительность собеседования — полтора часа. - Оффер. Презентация оффера 10 февраля.
Хорошие новости для всех, кто интересуется машинным обучением и генеративными нейросетями! Банк ВТБ и Финтех Хаб Банка России объявляют набор на вторую совместную образовательную программу «Машинное обучение PRO: обработка документов и генеративные нейросети».
Программа предназначена для тех, кто уже знаком с основами ML, хочет углубить свои знания и получить практические навыки по обработке естественного языка, деплою, тестированию моделей и созданию ML-сервисов.