Как стать автором
Обновить
65
0
Vadim Frolov @fralik

Data Scientist

Отправить сообщение

Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Начало

Время на прочтение20 мин
Количество просмотров890

В первой главе исследования был описан набор данных с временными рядами о погоде, который мы будем использовать для выполнения задачи прогнозирования температуры, а также были приведены шаги по его предварительной подготовке.

В данной главе мы рассмотрим процессы авторегрессии-проинтегрированного скользящего среднего по методологии АРПСС (в англоязычной терминологии - ARIMA). Разберёмся, почему процесс АРПСС позволяет получить широкий класс стационарных и нестационарных моделей, которые адекватно описывают многие встречающиеся на практике временные ряды. А затем применим эту методологию с целью нахождения подходящего подкласса моделей из общего семейства моделей АРПСС для адекватного прогнозирования будущих значений температуры.

Читать далее
Всего голосов 3: ↑3 и ↓0+7
Комментарии2

Рецепт идеальной разметки в Computer Vision

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.2K

За два года команда RnD CV из SberDevices выложила в открытый доступ три датасета для задач компьютерного зрения: HaGRID, EasyPortrait и Slovo. Чтобы достичь максимальной точности обработки данных, полученных с краудсорсинговых платформ, мы применили методы агрегации, которые позже объединили в фреймворк.

Привет, Хабр! На связи Карина Кванчиани и Александр Капитанов из SberDevices. В этой статье мы расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись. Скоро фреймворк появится в открытом доступе, а здесь расскажем, как он работает.

Читать далее
Всего голосов 10: ↑10 и ↓0+17
Комментарии1

Открытый онлайн-курс по цифровой схемотехнике: от истоков до первого устройства

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров16K

Привет, Хабр! У нас новости. Мы запустили онлайн-курс по цифровой схемотехнике для начинающих. Он подойдет всем, кому интересно собрать из простых компонентов готовое устройство на макетной плате и узнать больше о «внутренностях» электроники. Присоединяйтесь сами или рассмотрите курс для совместного досуга с ребенком, младшим братом или сестрой. Возможно, кому-то он поможет не только найти новое занимательное хобби, но и определиться с будущей профессией.

Всего в курсе 11 практических роликов с подробными теоретическими материалами к каждому. Будем не просто смотреть на картинки с электрическими схемами, а проводить эксперименты своими руками. Начнем с истоков: познакомимся с оборудованием и линейными электронными компонентами, а закончим сборкой секундомера с применением микросхем цифровой логики. Все подробности — на странице курса и под катом.

Читать далее
Всего голосов 58: ↑57 и ↓1+72
Комментарии23

В 48 собесах от оффера в Гугл

Уровень сложностиСредний
Время на прочтение21 мин
Количество просмотров16K

Здравствуй, хабр! Что-то я давно не писал, отбился от рук, а ведь когда-то мы целый курс машинного обучения на Хабре вели. Расскажу про свой недавний заход по собесам, что спрашивали, какие выводы сделал. Контекст: Applied Machine Learning science (в том числе этот ваш Generative AI), Нидерланды, уровень синьор+. Я долго получал отказы, старался не унывать и в конце таки нашил лычку Staff GenAI Field Solutions Architect в Google Cloud. Тут поделюсь статистикой собесов, полезными ресурсами и, конечно, всякими советами.

Читать далее
Всего голосов 54: ↑53 и ↓1+66
Комментарии32

Вы что, хотите как в 90-ые?! Страшно?

Уровень сложностиПростой
Время на прочтение56 мин
Количество просмотров6.9K

Грядёт Хэллуин, ночь ужаса и кошмаров! То время, когда призраки прошлого прорываются в наш мир, и живые завидуют мёртвым! Поэтому для вас я решил успеть поднять мертвечину и написать эту статью.

В этом посте я расскажу о 31 страшной игре для PC из 90-х, которые оставили ужасные шрамы восторга и кошмара на моей душе. Это игры, которые заставили меня вздрогнуть от страха и приковали к экрану на долгие часы. Конечно, не во все я играл (да и не мог из-за языкового барьера и отсутствия их на дискетах и дисках у меня), с половиной я познакомился много позже, но всё-таки ужасы тех времён - не просто тайтлы - это то знакомое ощущение, которые было в тёплое "тогда" детства. Я хочу, чтобы вы почувствовали то же волнение и трепет, которое я испытывал, играя в эти игры. Так что закройте все двери и окна, выключите свет, наденьте наушники и погрузитесь в мир ужаса и кошмаров в эту ночь.

=!= ВНИМАНИЕ =!=
Всё, что описано в статье далее строго 18+ и не рекомендуется для беременных детей, пожилых комсомольцев и высокоморальных борцов с несправедливыми пикселями.
=!= Я вас предупредил. Назад пути нет =!=

Сладость или гадость?!
Всего голосов 18: ↑14 и ↓4+14
Комментарии17

Как вырастить солёную пирамидку

Время на прочтение11 мин
Количество просмотров46K

Да кому нужна эта обычная скучная соль? Превращаем мелкие белые крупинки в потрясающие пирамидальные кристаллы в домашних условиях.

Читать далее
Всего голосов 185: ↑182 и ↓3+226
Комментарии72

Стартуем на ПЛИС, но сначала припаяем его с конструктором беспилотного автомобиля Zoox

Время на прочтение13 мин
Количество просмотров15K

Однажды мне не спалось ночью и я залип на сайтах про паяльники. Возникло желание купить и сразу появились вопросы: на сколько ватт? Не больше 30? А почему большинство на 60-80 ватт? 60/40 олово свинец? А почему куча паяльных станций идут в комплекте с lead-free проводами припоя? Канифоль сейчас внутри проводов? А почему есть и провода припоя без канифоли? Бронзовую мочалку для очистки? А почему столько комплектов с и белой и бронзовой?

Вспомнил и повод, чтобы научиться паять. Когда-то Руслан Тихонов, руководитель кружка из Москвы, говорил мне что хочет сделать простые упражнения на платах ПЛИС для школьников. Как часть триады "микросхемы малой степени интеграции - ПЛИС - Ардуино". По этому поводу я купил самую дешевую плату с CPLD Altera MAX II (ныне это Intel FPGA), но обнаружил что у нее не припаян переходник.

Я выставил вопросы по паяльники на фейсбук и после оживленной дискуссии мой приятель Денис Никитин вызвался научить меня паять как полагается. Денис работает проектировщиком печатных плат в компании Zoox, ныне часть компании Amazon. Zoox делает беспилотные автомобили, то есть Денис на передовом рубеже паятельного прогресса. Я заснял мастер-класс от Дениса на видео:

Читать далее
Всего голосов 30: ↑27 и ↓3+32
Комментарии50

Как выбрать уровень статистической значимости для AB-теста и как интерпретировать результат

Время на прочтение10 мин
Количество просмотров15K

AB-тесты сейчас применяет, возможно, каждый второй менеджер продукта, однако далеко не всегда ясно, как же интерпретировать результат теста и какой уровень статистической значимости использовать. Используем слишком высокий - тесты возможных улучшений будут проваливаться, хотя улучшения на самом деле есть. Используем слишком низкий - часто будем получать "подтверждения" ложных улучшений.

Независимо от выбранного уровня значимости, принимая решения по результатам AB-тестов, время от времени мы будем ошибаться и наносить ущерб бизнесу. Выбирая уровень статистической значимости тестов (или что то же самое - граничные p-value), мы можем ограничить количество ошибок и балансировать между пользой от оправданно успешных экспериментов и ущербом от ошибочно успешных.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Мир статистических гипотез

Время на прочтение5 мин
Количество просмотров26K

В современном мире мы обладаем все большим и большим объемом данных о событиях, происходящих вокруг. Зачастую у нас появляются вопросы, на которые хотелось бы быстро ответить на основе имеющейся информации, для этого как нельзя лучше подходит процесс, связанный с проверкой статистических гипотез. Однако, многие считают, что это занятие подразумевает под собой большое число вычислений и в принципе довольно сложно для понимания. На самом деле, алгоритм проверки гипотез достаточно прост, а для осуществления расчетов с каждым годом появляется все больше и больше готовых инструментальных средств, не требующих от человека глубоких познаний в области. Далее я попытаюсь показать, что мало того, что процесс проверки гипотез может быть полезным, так и осуществляется достаточно быстро и без серьезных усилий.

Читать далее
Всего голосов 9: ↑7 и ↓2+8
Комментарии1

Компьютерное зрение в промышленной дефектоскопии: Часть 2 “Генерируем стремные трубы чтобы порадовать нейронку”

Время на прочтение13 мин
Количество просмотров4.7K


В предыдущей заметке мы рассказали о том, как мы решали задачу из области промышленной дефектоскопии методами современного машинного зрения. В частности, мы упомянули, что одним из подходов к обогащению данных обучающей выборки является генератор синтетических данных. В этой заметке мы расскажем:


  • как сделали такой генератор на основе Blender и Python,
  • какие типы масок для задач компьютерного зрения вообще можно получить в Blender.
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии1

Не используйте фикстуры в Cypress и юнит-тесты — используйте фабричные функции

Время на прочтение7 мин
Количество просмотров4K

Юнит-тесты — это здорово… когда они надежно работают! На самом деле, есть старая поговорка, что «плохой тест — это хуже, чем вообще никакой тест». Я могу подтвердить, что недели, проведенные в погоне за случайно «ложным отрицательным» тестом, не эффективны. Вместо этого можно было использовать это время для написания рабочего кода, который поможет пользователю.

Так что поговорим об одной из этих простейших методик написания менее нестабильных тестов: тестирование фабричных данных.

Тестирование фабричных данных
Всего голосов 10: ↑7 и ↓3+5
Комментарии2

Что такое опционы и кому это нужно. Ликбез для гика, ч. 6

Время на прочтение17 мин
Количество просмотров53K
Меня зовут Михаил Андреев, я разработчик в нашем подразделении FX Derivatives Desk (на сленге отрасли позиция называется Quant Developer). В этом посте расскажу про опционы и все что с ними связано.

Эти инструменты не так близки простому обывателю, как, например, банковский вклад, но для современных финансовых рынков они важны. И их периодически обсуждают в неспециализированных СМИ, и я думаю, что составить общее представление об опционах и том, как с ними работают финансовые компании, полезно.


Кроме этого, эта тема связана с интересной математикой, вычислительными методами и разработкой программных систем — всё как мы любим.
Читать дальше →
Всего голосов 19: ↑18 и ↓1+21
Комментарии9

7 бесплатных книг, которые следует прочитать каждому дата-сайентисту

Время на прочтение4 мин
Количество просмотров14K


Самообразование — пожалуй, один из самых сложных путей и процессов для взрослого человека. Когда вокруг столько отвлекающих факторов, уже трудно заставить себя довести дело до конца (особенно если мотивация неочевидна). Но самообразование как эволюция — это неотъемлемый элемент жизни любого профессионала или того, кто хочет им стать. Книги в этом случае могут стать тем самым выстрелом, которым убиваются два зайца, вы и растете как специалист, и не «выпадаете из жизни». Автор материала подобрал 7 бесплатных электронных книг, которые помогут вам изучать Data Science и ML.
Читать дальше →
Всего голосов 15: ↑14 и ↓1+18
Комментарии4

Лучшие инструменты с открытым исходным кодом и библиотеки для Deep Learning — ICLR 2020 Experience

Время на прочтение13 мин
Количество просмотров9.6K
Сложно найти на Хабре человека, который не слышал бы про нейронные сети. Регулярные новости о свежих достижениях нейронных сетей заставляют удивляться широкую публику, а также привлекают новых энтузиастов и исследователей. Привлеченный поток специалистов способствует не только еще большим успехам нейронных моделей, но и приводит к развитию инструментов для более удобного использования Deep Learning подходов. Помимо всем известных фреймворков Tensorflow и PyTorch активно развиваются и другие библиотеки, нередко более гибкие, но менее известные. 

Эта статья является переводом одного из постов neptune.ai и освещает самые интересные инструменты для глубокого обучения, представленные на конференции по машинному обучения ICLR 2020. 

Читать дальше →
Всего голосов 33: ↑33 и ↓0+33
Комментарии2

Прокачиваем разметку мультимодальных данных: меньше асессоров, больше слоёв

Время на прочтение17 мин
Количество просмотров4.8K

Всем привет! Мы — учёные лаборатории «Машинное обучение» ИТМО и команда Core ML ВКонтакте — проводим совместные исследования. Одна из важных задач VK заключается в автоматической классификации постов: она необходима не только чтобы формировать тематические ленты, но и определять нежелательный контент. Для такой обработки записей привлекаются асессоры. При этом стоимость их работы можно значительно снизить с помощью такой парадигмы machine learning, как активное обучение.


Именно о его применении для классификации мультимодальных данных и пойдёт речь в этой статье. Мы расскажем про общие принципы и методы активного обучения, особенности их применения к задаче, а также инсайты, полученные в ходе исследования.


image

Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Комментарии0

Анализ данных из последнего слива Intel

Время на прочтение48 мин
Количество просмотров36K
Я порылся в 20 гигабайтах слитых данных с незащищённого CDN интела в поисках интересного и оценки серьёзности этой утечки.


КДПВ. Прототип ноутбука на Tiger Lake.

Краткое резюме


Большая часть слитой информации предназначена для OEM/ODM разработчиков и производителей, но заинтересует энтузиастов, исследующих BIOS и недокументированные режимы работы процессоров Intel. В них нет внутренней интеловской документации, критичной к обнародованию, или способной раскрыть секретные разработки. Также здесь не найти информации о неизвестных ранее уязвимостях.
Читать дальше →
Всего голосов 61: ↑61 и ↓0+61
Комментарии33

Как работает Object Tracking на YOLO и DeepSort

Время на прочтение12 мин
Количество просмотров82K
Object Tracking — очень интересное направление, которое изучается и эволюционирует не первый десяток лет. Сейчас многие разработки в этой области построены на глубоком обучении, которое имеет преимущество над стандартными алгоритмами, так как нейронные сети могут аппроксимировать функции зачастую лучше.

Но как именно работает Object Tracking? Есть множество Deep Learning решений для этой задачи, и сегодня я хочу рассказать о распространенном решении и о математике, которая стоит за ним.

Итак, в этой статье я попробую простыми словами и формулами рассказать про:

  • YOLO — отличный object detector
  • Фильтры Калмана
  • Расстояние Махаланобиса
  • Deep SORT
Читать дальше →
Всего голосов 14: ↑14 и ↓0+14
Комментарии3

Пишем веб сервис на Python с помощью FastAPI

Время на прочтение17 мин
Количество просмотров120K
image

Знаю, знаю, наверное вы сейчас думаете «что, опять?!».

Да, на Хабре уже неоднократно писали о фреймворке FastAPI. Но я предлагаю рассмотреть этот инструмент немного подробнее и написать API своего собственного мини Хабра без кармы и рейтингов, зато с блэкджеком и с тестами, аутентификацией, миграциями и асинхронной работой с БД.
Читать дальше →
Всего голосов 21: ↑20 и ↓1+22
Комментарии27

Сим-сим откройся или реверс инжиниринг умного домофона

Время на прочтение3 мин
Количество просмотров9.3K
После прочтения поста Krupnikas возникла мысль разобраться с mitmproxy и посмотреть как устроен бэкенд ежедневно используемых мобильных приложений. Выбор пал на приложение домофон. После авторизации оно позволяет открывать двери и отвечать на видеозвонки. Что из этого вышло и какие дырки мне удалось найти расскажу под катом.


Читать дальше →
Всего голосов 12: ↑11 и ↓1+21
Комментарии2

«Просто похудеть» — непросто

Время на прочтение15 мин
Количество просмотров126K

Интернет наводнен статьями о том, как похудеть "просто съедая меньше чем потратил" и отчетами об успешном опыте некоторых везунчиков. Чего нету (ну или очень мало) в интернете — это отчетов о том, как миллионы людей безрезультатно пытаются просто "съесть меньше", садясь на все новомодные диеты и неизменно возвращаясь к тому, с чего начинали, а иногда и скатываясь по шкале индекса массы тела в еще более красную зону.


В этой статье я постараюсь описать наиболее частые причины неудач и дать некоторые лайфхаки, который позволят обмануть свой мозг и наконец достигнуть своего так желаемого целевого веса.

Хакнуть свой мозг
Всего голосов 157: ↑135 и ↓22+166
Комментарии638
1
23 ...

Информация

В рейтинге
5 983-й
Зарегистрирован
Активность