Статьи / Закладки / Профиль pskryuchkov / Хабр

@pskryuchkov

Пользователь

Профиль Публикации 2Комментарии 3Закладки 56

DeadSailor 3 июл в 12:28

Как справиться с нехваткой открытых данных для обучения и тестирования ML-моделей

7 мин

4.5K

Блог компании SelectelOpen source*Машинное обучение*Научно-популярноеПрограммирование*

Кейс

Привет! Меня зовут Илларион, я аспирант ИТМО и член команды, которая занимается предсказанием временных рядов, порожденных графовыми структурами, и другими исследованиями. Однако в разработке новых методов для прогнозирования есть существенное препятствие — нехватка открытых данных для обучения и тестирования моделей.

Для решения проблемы мы создали открытый инструмент Time Series Generator. Я рассказал о нем на митапе, посвященном open source-разработке для научных задач. Под катом делюсь особенностями разработанного решения и рассматриваю реализуемые им задачи.

Читать дальше →

+38

Monotirg 30 ноя 2022 в 21:02

Почему умножение матриц такое

Простой

3 мин

64K

Математика*

Наверное, каждый задавался вопросом, почему умножение матриц такое. В этой статье мы разберём из каких соображений оно вводится именно так.

+75

149

Monotirg 26 сен 2022 в 18:50

Задача про пьяницу

Средний

9 мин

33K

Математика*Занимательные задачки

Из песочницы

В книге «Пятьдесят занимательных вероятностных задач с решениями - Ф. Мостеллер» есть интересная задача про пьяницу, который с вероятностью делает один шаг к обрыву и с вероятностью один шаг от обрыва. Пьяница стоит на расстоянии одного шага от обрыва. Что можно сказать про вероятность того, что он упадет?

+101

obus 16 июн 2016 в 18:25

Метрики качества ранжирования

7 мин

116K

Блог компании E-ContentaАлгоритмы*Математика*Машинное обучение*Поисковые технологии*

Туториал

В процессе подготовки задачи для вступительного испытания на летнюю школу GoTo, мы обнаружили, что на русском языке практически отсутствует качественное описание основных метрик ранжирования (задача касалась частного случая задачи ранжирования — построения рекомендательного алгоритма). Мы в E-Contenta активно используем различные метрики ранжирования, поэтому решили исправить это недоразуменее, написав эту статью.

Читать дальше →

+14

Savochkin 28 июн 2022 в 10:01

40 релизов в неделю при разработке государственного Amazon или почему Agile is dead

22 мин

28K

Блог компании ГК ЛАНИТПрограммирование*Управление проектами*DevOps*

Что бы вы сказали, если бы вам потребовалось срезать косты вашей команды разработки в два раза? А если бы пришел босс и потребовал делать в два раза больше той же командой? Обычно интуиция нас подводит и мы в ответ на эти вопросы делаем не то, что нужно - в итоге только ухудшаем ситуацию. Самое интересное, что значительно улучшить результаты можно потратив относительно небольшие усилия - что же это за бесплатный сыр такой? Как это связано с релизами? От какого важного элемента Agile мы заодно отказываемся? Ответы на эти вопросы я попробую дать в своей статье.

+125

shhelen 25 июл 2021 в 18:21

Мой уход из Яндекса, как не потерять мотивацию за полгода подготовки в FAANG и реджект в Google

12 мин

105K

Карьера в IT-индустрии

Из песочницы

Мой уход из Яндекса, как не потерять мотивацию за полгода подготовки в FAANG и реджект в Google.

+148

297

databorodata 24 июн 2022 в 13:25

Как предсказать настроение женщины или зачем нам статистика. Часть 1

12 мин

14K

Машинное обучение*Визуализация данных*Data Mining*Data Engineering*DIY или Сделай сам

Из песочницы

Как предсказать настроение своей девушки.

Предсказать настроение человека, а тем более женщины, не простая задача. Существует множество методик, к примеру, принимающих во внимание физиологические аспекты, гормональный уровень или фазу луны.

Я же решил пойти своим путём опираясь на логику и статистику.

Почти за год мною был собран сет данных, основанный на ежедневных опросах моей спутницы по двадцати трём пунктам, как я предположил, способным наиболее выражено повлиять на её настроение.

+33

codezombie 4 мар 2022 в 12:54

Россия 2022: как не потерять все (или хотя бы попытаться)

6 мин

195K

Финансы в ITЧитальный зал

Peace, Хабр!

Честно говоря, я долго думал, как бы потактичнее начать. Но ничего не придумал. Поэтому напишу прямо: я хочу, чтоб моя жена и ребенок ни в чем не нуждались. И у меня была уверенность, что могу им дать все, что потребуется: от любви до игрушечной железной дороги.

Сегодня пошел 8-ой день, как от этой уверенности почти ничего не осталось.

Этот пост не про деньги (хоть он и почти весь про финансы). Этот пост про то, как увеличить свои шансы и шансы своих близких жить в достатке в условиях экономической изоляции и деградации гражданских институтов.

Читать дальше →

+163

712

greenEkatherine 28 апр 2020 в 09:26

Подготовка к собеседованиям в IT-гиганты: как я преодолела проклятье алгоритмического собеседования

12 мин

206K

Учебный процесс в ITПрограммирование*Карьера в IT-индустрииIT-компании

Технотекст 2020

Дисклеймер:

Я не программирую с трёх лет, не знаю наизусть Кнута, не являюсь призёром олимпиад по информатике и чемпионатов по спортивному программированию, не училась в MIT. У меня за плечами образование по информатике и 6 лет опыта в коммерческой разработке. И до недавнего времени я не могла пройти дальше первого технического скрининга в IT-гиганты из FAANG (Facebook, Amazon, Apple, Netflix, Google и подобные), хотя предпринимала несколько попыток.

Но теперь всё изменилось, я получила несколько офферов и хочу поделиться опытом, как можно к этому прийти. Речь пойдёт о позиции Software Engineer в европейских офисах перечисленных компаний.

Читать дальше →

+191

342

Marger1 16 фев 2020 в 13:17

Эксперимент: как научиться создавать популярные тексты на английском (и почему англоязычный Хабр так мало читают)

5 мин

19K

Изучение языковИнтернет-маркетинг*Контент и копирайтинг*

Я много лет занимаюсь маркетингом, написанием текстов, при этом увлекаюсь английским и использую его в работе. В русскоязычном интернете в целом не так и много статей о контент-маркетинге и продвижении бизнеса в США. А те что есть часто просто рассказывают как надо делать на разборе каких-то конкретных ошибок.

Я подумала, что стоит сравнить подход к созданию контента, который используют авторы-носители языка и мы, не-нейтивы, когда пишем на английском. И вот вам результаты моего эксперимента.

Примечание: методология мини-исследования не особенно научная, но, на мой взгляд практическая. Мне полученные результаты кажутся интересными и полезными, но не стоит считать их истиной в последней инстанции.

Читать дальше →

+66

118

Vasyutka 15 мая 2019 в 13:05

Инновации по-русски

9 мин

172K

Законодательство в ITКарьера в IT-индустрииРазвитие стартапа

Я — профессиональный участник инновационной индустрии. Вместе с коллегами последние 10 лет мы участвуем в создании новых технологий.

И я должен сказать о причине, по которой не стоит заниматься инновациями в России. Здесь можно порассуждать о плохом инвестиционном климате, неэффективности государственных программ, размере внутреннего рынка, смещенных мотивациях участников. Но кроме этого есть и плохо контролируемый риск, который заключается в возможности оказаться за решеткой. И об этом не принято говорить вслух, а нужно. Под катом топ-5 инновационных компаний по версии следственного комитета, известных мне, а их злоключения не были ранее упомянуты на хабре.

Читать дальше →

+447

249

pgladkov 29 янв 2020 в 18:26

Простое руководство по дистилляции BERT

8 мин

21K

Блог компании AvitoTechNatural Language Processing*Python*Машинное обучение*

Если вы интересуетесь машинным обучением, то наверняка слышали про BERT и трансформеры.

BERT — это языковая модель от Google, показавшая state-of-the-art результаты с большим отрывом на целом ряде задач. BERT, и вообще трансформеры, стали совершенно новым шагом развития алгоритмов обработки естественного языка (NLP). Статью о них и «турнирную таблицу» по разным бенчмаркам можно найти на сайте Papers With Code.

С BERT есть одна проблема: её проблематично использовать в промышленных системах. BERT-base содержит 110М параметров, BERT-large — 340М. Из-за такого большого числа параметров эту модель сложно загружать на устройства с ограниченными ресурсами, например мобильные телефоны. К тому же, большое время инференса делает эту модель непригодной там, где скорость ответа критична. Поэтому поиск путей ускорения BERT является очень горячей темой.

Нам в Авито часто приходится решать задачи текстовой классификации. Это типичная задача прикладного машинного обучения, которая хорошо изучена. Но всегда есть соблазн попробовать что-то новое. Эта статья родилась из попытки применить BERT в повседневных задачах машинного обучения. В ней я покажу, как можно значительно улучшить качество существующей модели с помощью BERT, не добавляя новых данных и не усложняя модель.

Читать дальше →

+28

ru_vds 27 янв 2020 в 13:00

Полезные советы по Python, которых вы ещё не встречали. Часть 2

7 мин

37K

Блог компании RUVDS.comPython*Лайфхаки для гиковВеб-разработка*

Перевод

Недавно мы опубликовали перевод материала, в котором были приведены полезные советы для Python-программистов. У того материала есть продолжение, которое мы представляем вашему вниманию сегодня.

Читать дальше →

+62

JetHabr 17 сен 2019 в 14:06

Кластеризуем лучше, чем «метод локтя»

4 мин

46K

Блог компании Инфосистемы ДжетАлгоритмы*Машинное обучение*

Перевод

Кластеризация — важная часть конвейера машинного обучения для решения научных и бизнес-задач. Она помогает идентифицировать совокупности тесно связанных (некой мерой расстояния) точек в облаке данных, определить которые другими средствами было бы трудно.

Однако процесс кластеризации по большей части относится к сфере машинного обучения без учителя, для которой характерен ряд сложностей. Здесь не существует ответов или подсказок, как оптимизировать процесс или оценить успешность обучения. Это неизведанная территория.

+24

robofreak 25 ноя 2019 в 14:47

График Гартнера 2019: о чём все эти модные слова?

20 мин

38K

Блог компании SamsungIT-компанииИсследования и прогнозы в IT*

График Гартнера для тех, кто работает в сфере технологий, – всё равно что выставка высокой моды. Взглянув на него, вы можете заранее узнать, какие слова самые хайповые в этом сезоне и что вы услышите на всех ближайших конференциях.

Мы расшифровали, что скрывается за красивыми словами на этом графике, чтобы вы могли тоже говорить на этом языке.

+31

Leono 4 дек 2016 в 18:53

Порождение и выбор моделей машинного обучения. Лекция в Яндексе

11 мин

22K

Блог компании ЯндексАлгоритмы*Занимательные задачкиМатематика*Машинное обучение*

Применение машинного обучения может включать работу с данными, тонкую настройку уже обученного алгоритма и т. д. Но масштабная математическая подготовка нужна и на более раннем этапе: когда вы только выбираете модель для дальнейшего использования. Можно выбирать «вручную», применяя разные модели, а можно и этот процесс попробовать автоматизировать.

Под катом — лекция ведущего научного сотрудника РАН, доктора наук и главного редактора журнала «Машинное обучение и анализ данных» Вадима Стрижова, а также большинство слайдов.

+48

nurumaik 7 ноя 2015 в 09:11

Как я победил в конкурсе BigData от Beeline

7 мин

88K

Машинное обучение*

Из песочницы

Все уже много раз слышали про конкурс по машинному обучению от Билайн и даже читали статьи (раз, два). Теперь конкурс закончился, и так вышло, что первое место досталось мне. И хотя от предыдущих участников меня и отделяли всего сотые доли процента, я все же хотел бы рассказать, что же такого особенного сделал. На самом деле — ничего невероятного.

Читать дальше →

+84

ru_vds 19 апр 2019 в 12:00

Записки фрилансера: разработка первого React Native-приложения

37 мин

42K

Блог компании RUVDS.comJavaScript*ReactJS*Веб-разработка*

Перевод

Автор материала, перевод которого мы публикуем, недавно выпустил своё первое мобильное приложение, написанное на React Native. Так случилось, что это приложение стало и его первым проектом, который он создал как программист-фрилансер. Здесь он расскажет о том, с чем ему пришлось столкнуться в ходе работы — от инициализации проекта до его публикации в App Store и Google Play.

Читать дальше →

+41

DSharabin 9 июл 2019 в 11:14

Хочешь <s>похудеть</s> учиться ИТ самостоятельно? Спроси меня как

11 мин

34K

Блог компании ГК ЛАНИТУчебный процесс в ITКарьера в IT-индустрии

Есть мнение, с которым я часто сталкиваюсь, — учиться самостоятельно невозможно, нужны профессионалы, которые будут вас вести по этому тернистому пути — объяснять, проверять, контролировать. Попробую опровергнуть это утверждение, а для этого, как известно, достаточно привести хотя бы один контрпример. В истории есть такие примеры великих автодидактов (или по-простому, самоучек): археолог Генрих Шлиман (1822–1890) или гордость Грузии — художник Нико Пиросмани (1862–1918). Да, эти люди жили, учились и творили по большей части в XIX веке и были крайне далеки от мира информационных технологий. Однако по-прежнему «самая важная цель обучения — научиться учиться», как говорил Аристотель. В этой статье я поделюсь с вами практическими примерами, позволяющими эффективно организовать самостоятельный учебный процесс.

+65

crazyhatter 21 авг 2018 в 11:13

Анатомия рекомендательных систем. Часть первая

14 мин

80K

Блог компании ГК ЛАНИТМашинное обучение*Алгоритмы*Data Mining*Big Data*

Я работаю дата-саентистом в компании CleverDATA. Мы занимаемся проектами в области машинного обучения, и один из наиболее частых запросов на разработку основанных на машинном обучении маркетинговых решений — это разработка рекомендательных моделей.

В данной статье я расскажу о рекомендательных системах, постараюсь дать максимально полный обзор существующих подходов и на пальцах объясню принципы работы алгоритмов. Часть материала базируется на неплохом курсе по рекомендательным системам лаборатории MovieLens (которая большинству знакома по одноименному датасету для тестирования рекомендаций), остальное – из личного опыта. Статья состоит из двух частей. В первой описана постановка задачи и дан обзор простых (но популярных) алгоритмов рекомендаций. Во второй статье я расскажу о более продвинутых методах и некоторых практических аспектах реализации.

Источник

Читать дальше →

+45

2 3