Articles / Bookmarks / Profile of bitcompil / Habr

mind2cloud @bitcompil^{read⁠-⁠only}

Data Scientist

ProfileBookmarks148

MaxRokatansky Nov 11 2020 at 14:59

Быстрый градиентный бустинг с CatBoost

5 min

90K

OTUS corporate blogPython*Machine learning*Programming*

Translation

Привет, хабровчане! Подготовили перевод статьи для будущих учеников базового курса Machine Learning.

В градиентном бустинге прогнозы делаются на основе ансамбля слабых обучающих алгоритмов. В отличие от случайного леса, который создает дерево решений для каждой выборки, в градиентном бустинге деревья создаются последовательно. Предыдущие деревья в модели не изменяются. Результаты предыдущего дерева используются для улучшения последующего. В этой статье мы подробнее познакомимся с библиотекой градиентного бустинга под названием CatBoost.

Источник

Читать дальше →

skillfactory_school Nov 30 2020 at 12:58

Как разработать ансамбль Light Gradient Boosted Machine (LightGBM)

16 min

51K

Skillfactory corporate blogMachine learning*Algorithms*Python*Data Engineering*

Tutorial

Translation

В преддверии старта нового потока курса «Машинное обучение» представляем вашему вниманию материал о Light Gradient Boosted Machine (далее — LightGBM), библиотеке с открытым исходным кодом, которая предоставляет эффективную и действенную реализацию алгоритма градиентного бустинга.

LightGBM расширяет алгоритм градиентного бустинга, добавляя тип автоматического выбора объектов, а также фокусируясь на примерах бустинга с большими градиентами. Это может привести к резкому ускорению обучения и улучшению прогнозных показателей. Таким образом, LightGBM стала де-факто алгоритмом для соревнований по машинному обучению при работе с табличными данными для задач регрессионного и классификационного прогностического моделирования. В этом туториале вы узнаете, как разрабатывать ансамбли машин Light Gradient Boosted для классификации и регрессии. После завершения этого урока вы будете знать:

Light Gradient Boosted Machine (LightGBM) — эффективную реализацию ансамбля стохастического градиентного бустинга с открытым исходным кодом.
Как разрабатывать ансамбли LightGBM для классификации и регрессии с помощью API scikit-learn.
Как исследовать влияние гиперпараметров модели LightGBM на её производительность.

Давайте начнём

+15

egorborisov Aug 26 2021 at 11:06

Анализ вакансий и зарплат в Data Science

8 min

54K

Open Data Science corporate blogIT careerMachine learning*Big Data*Artificial Intelligence

Привет, Хабр!

Делимся нашим исследованием вакансий и зарплат в сфере data science и data engineering. Спрос на специалистов растет, или рынок уже насытился, какие технологии теряют, а какие набирают популярность, размер зарплатных вилок и от чего они зависят?

Для анализа мы использовали вакансии, публикуемые в сообществе ODS. По правилам сообщества все вакансии должны иметь зарплатную вилку от и до и подробное описание вакансии - есть что анализировать. К статье прилагается репозиторий с ноутбуком и исходными данными.

+33

averkij Jul 30 2021 at 12:15

Откуда есть пошел дотракийский язык

Начнем с языков мира "Песни льда и пламени" Джорджа Мартина. Сам Мартин свои языки не прорабатывал и они так и остались бы воображаемыми, но на помощь пришла телевизионная сеть HBO с идеей высокобюджетного сериала "Игра престолов". И так как в любой области есть свои специалисты, то решено было обратиться за помощью к Обществу создания языков. Конкурс выиграл Дэвид Питерсон, американский лингвист, который уже имел богатый опыт в создании искуственных языков.

Хо-хо, парниша!

+23

nkh Jul 29 2021 at 09:49

Продуктовый подход — польза и для бизнеса, и для разработчика

7 min

9.3K

QIWI corporate blogAgile*Product Management*Development Management*

Привет!

Я продуктовый разработчик, но так было не всегда. Лет 5 назад я впервые услышал фразу «продуктовая разработка», но я тогда не совсем понимал, что это значит. Мне говорят — вот у нас продукт, ну а я пишу код и пишу, чего такого-то. Есть ТЗ — и славно, нет ТЗ — как говорится, и результат будет ХЗ

Но это на самом деле своего рода проектный подход. Вот есть у вас ТЗ, а за ним — много тяжелой, усердной работы. Люди упорно гребут, в голове у них только код. Потом проект закончился, все молодцы.

Потом что-то поменялось в моей работе — ТЗ не стало. Это такой следующий шажок. Вот мы в продукте работаем, а теперь у нас еще и ТЗ нет. И что делать? Началось осознание того, что происходит.

Во-первых, продукт не имеет четкого начала и конца. Нет каких-то границ. Вот в проекте у нас были границы. Например, количество функций, которые нужно сделать, количество разработчиков, которые работают над проектом, дедлайны всякие, когда проект должен закончиться. У продукта же таких границ нет, он живёт, и его надо развивать.

Читать дальше →

+12

darhonbek Jul 28 2021 at 08:55

Как переехать в США через EPAM и получить грин карту

5 min

67K

IT-emigrationIT careerIT-companies

Статья о том как получить гринку через EPAM и похожий аутсорс. Сколько времени это займёт? Какие расходы оплачивает EPAM при переезде? Что такое L1 виза и как её получить? Что такое Green Card through employment.

+43

169

Catherine_Romanova Jul 27 2021 at 07:45

12 ключевых направлений для развития IoT-технологий. Часть 2

5 min

2.2K

АйПиМатика corporate blogThe future is hereBusiness Models*Algorithms*Big Data*

Продолжение. С первой частью статьи можно ознакомиться по ссылке.

6. Здравоохранение и телемедицина

В ближайшие годы будет расти потребность в удаленном медицинском контроле за течением болезней и мониторинге показателей самочувствия. Forrester ожидает, что это вызовет быстрый рост использования носимых устройств и датчиков, которые помогут отслеживать состояние пациентов с хроническими заболеваниями. В немалой степени этому способствует удобство и сравнительно низкая стоимость подобных устройств.

Кроме того, носимые устройства могут использоваться для сведения к минимуму ненужных контактов в ситуациях, когда риск вирусного заражения особенно высок (например, в домах престарелых и в инфекционных отделениях больниц).

Еще один из сценариев применения IoT в медицине — это внедрение роботов, которые используются в некоторых больницах, например, для дезинфекции поверхностей.

Читать дальше →

pavelkochkin1 Jul 24 2021 at 08:47

Docker для Data Scientist'a

5 min

13K

Machine learning*Artificial IntelligenceBig Data*

Tutorial

Часто у начинающих Data Scientists возникает вопрос, как демонстрировать работу своих моделей другим людям. Банальный пример - прикрепить ссылку на гитхаб репозиторий в отклике на вакансию или показать свое “детище” знакомым со словами “смотрите, что умею”.

shhelen Jul 25 2021 at 15:21

Мой уход из Яндекса, как не потерять мотивацию за полгода подготовки в FAANG и реджект в Google

12 min

106K

IT career

From sandbox

Мой уход из Яндекса, как не потерять мотивацию за полгода подготовки в FAANG и реджект в Google.

+147

297

GetMeIT Jul 23 2021 at 14:44

Рынок IT-вакансий: куда бежать и, главное, зачем

5 min

28K

Get me IT corporate blogRemote workStatistics in ITIT career

Современные реалии таковы: спрос на IT-специалистов значительно выше их количества, зарплаты растут, а миграция кадров перестала быть сезонным явлением. Многочисленные курсы обещают низкий порог входа, а работодатели готовы вкладывать деньги и силы в обучение даже потенциальных сотрудников. Как тут не решиться на переход в IT?

С помощью нашего сервиса @Getmeit_bot мы смогли собрать любопытную статистику, отражающую основные тренды рынка найма IT-специалистов за последнее полугодие. Они помогут начинающим специалистам определиться со своим карьерным путем, а уже состоявшимся — сформировать представление, с чем выходить на рынок найма и куда двигаться дальше с целью карьерного роста.

ZKonstantin Jul 22 2021 at 12:18

О курсах, дипломах, паттернах и других вопросах при найме разработчиков

5 min

5.7K

Цифра corporate blogPersonnel Management*IT career

Привет всем заинтересовавшимся! Меня зовут Константин, я заместитель директора по разработке в компании «ВИСТ» (входит в ГК «Цифра»). Недавно я столкнулся с несколькими противоречивыми мнениями о проведении собеседований и подборе персонала в ИТ. В этом посте я хотел бы поделиться своим подходом к этому процессу, основанным на личном опыте участия в собеседованиях по обе стороны стола и собственных шишках, оставшихся на память от граблей, на которые я успел наступить. Не берусь никого учить и утверждать, что мой взгляд единственно верный. Всегда готов выслушать противоположное мнение — пишите в комментариях.

MagisterLudi Jul 22 2021 at 12:47

Как хакнуть когнитивные искажения через левое ухо

9 min

18K

Timeweb Cloud corporate blogPopular scienceBrainHealth

Хочу сегодня познакомить вас с парочкой интересных не просто когнитивных искажений, а программно-аппаратных сбоев мозга, как с ними живется людям и как их хакнуть.

Есть такой синдром Капгра, когда в результате травмы или болезни человек вдруг начинает считать своих близких притворщиками. Такой больной видит свою мать и отца, или ребенка, и они выглядят точь-в-точь как его родные, но это не они, а какие-то люди, которые притворяются ими. Причем, на уточняющий вопрос, в чем отличия, больной приводит визуальные признаки: притворщик завязывает шнурки как-то иначе, другой цвет глаз, или длиннее нос. На сегодняшний день проверенное объяснение таково: нейронные связи, соединяющие локации мозга для определения лица и категоризации его как близкого человека – в целости, а вот связи между этим же регионом и эмоциональной системой разрушены.

Поэтому человек видит родителя или ребенка, но не чувствует никаких эмоций, и мозг выдвигает гипотезу, что это не мать, а притворщица. А стоит родителю выйти из комнаты и тут же позвонить больному, как диалог вполне нормальный. Потому что связи между голосовой идентификаций и эмоциональной системой в сохранности. Иногда при синдроме Капгра происходит селективное нарушение — вместе с притворщиками и родной дом оказывается подмененным, или притворщиком оказывается только один член семьи. Это может казаться безобидной причудой, но есть данные, что пациенты с синдромом Капрга убивали своих притворщиков, то есть, своих родных.

Читать дальше →

+39

SergioShpadi Jul 19 2021 at 16:12

Как профессор MIT доказал существование Бога с помощью математики

13 min

61K

Reading roomPopular science

Внезапно прогремевший около 13.8 миллиардов лет назад Большой Взрыв положил начало истории. Через несколько миллиардов лет после этого из облаков слегка остывшего газа сформировались галактики, спустя какое-то время внутри галактик из туманностей образовались звезды, а вокруг звезд появились планеты. На одной из таких планет в воде вблизи горячих сопок подводных вулканов зародилась химическая жизнь. Постепенно эта жизнь усложнялась и эволюционировала - вначале в простейших вирусов и бактерий, а после в птиц и млекопитающих. И в конце концов, мозг одного из видов млекопитающих развился достаточно, чтобы по косвенным уликам воспроизвести весь пройденный им путь к собственному существованию. Но несмотря на все свои достижения это млекопитающее все еще терзается вопросом: что было до Большого Взрыва?

На этот счет мнения расходятся. Многие считают этот вопрос некорректным, так как до Большого Взрыва не существовало самого времени. Некоторые считают нашу Вселенную внутренностями черной дыры, образовавшейся в некой "внешней" Вселенной. А кто-то считает, что все сущее - это симуляция, запущенная на мощном компьютере в "настоящем" мире. Кто знает, может быть действительно весь наш мир - это всего-лишь навсего школьный проект по программированию шестиклассника из развитой цивилизации. Но даже если наш мир находится внутри "сверхвселенной" или "настоящей вселенной" , то почему существует сама это внешняя Вселенная? Что ее породило? Почему вообще существует все сущее?

-35

257

nmivan Jul 20 2021 at 05:54

С чем на пенсию пойдём?

6 min

36K

ERP-systems*Personnel Management*IT careerReading room1C*

Потихоньку начинаю задумываться, на какой технологии буду «въезжать» в пенсионный возраст. Почитываю статьи о том, как люди после 30 лет учатся или переучиваются, какие испытывают трудности в трудоустройстве. Оно и понятно – «старых коней» обычно берут только на технологии, которыми они уже владеют. Самому мне под 40, если что.

Я и сам принимал на стажировку людей в возрасте 35-45 лет, остался только один – чрезвычайно упёртый. Остальные сами убегали, кто через неделю, кто через квартал. Хотя рядом сидят 22-летние студенты, которые и не думают никуда сбегать.

Что интересно – они именно сбегают, причём – назад. Туда, откуда пришли. Если человек с завода, где работа была – не бей лежачего, туда он и спешит вернуться. Если был так-себе-менеджером по продажам, но с инженерным образованием, то быстро сбегает обратно – принимать звонки и оформлять заказы.

Судя по отзывам тех, кто ушёл и тех, кто остался, сбегать заставляет страх. Понятный, даже выраженный в упускаемых деньгах страх не состояться в новой профессии или технологии. Вот и бегут от неё, технологии.

Однако случается, что технология сама приходит к человеку, не спрашивая его мнения. И бежать ему особо некуда, ибо собственные знания продать особо некому – они безнадёжно устарели. Но на заводе, где сидит «возрастной» программист, за эти знания пока платят. Ровно до тех пор, пока старая, уютная, тёплая ламповая информационная система не будет заменена новой, дорогой, блестящей и высокотехнологичной (возьмите в кавычки любое слово, если хотите).

Ну и придётся программисту что-то придумывать, как-то выкручиваться. С учётом ускоряющегося с возрастом течения времени, мне это тоже скоро предстоит. Поэтому решил вспомнить реальные кейсы из внедрений молодости – как тогдашние заводские программисты предпенсионного возраста находили своё место в жизни.

+28

193

ITSoftWeb Jul 20 2021 at 06:41

IT-гиганты нацелились на медицину. Что это значит для нас?

7 min

11K

ITSOFT corporate blogHealthThe future is hereBusiness Models*IT-companies

Вы заметили? Все крупные компании, занимающиеся сбором и анализом данных, двигаются в сферу здравоохранения. Amazon за $750 млн купила PillPack для продажи лекарств онлайн. Alphabet инвестирует миллиарды в Google Health, с ее десятками проектов, в том числе AI-роботами для операций и повышением эффективности скрининга глаз при диабете. Apple — создала Health App (запуск этой осенью), продвигает Apple Watch в первую очередь как трекер для здоровья, и даже недавно открыла сеть собственных клиник.

Microsoft недавно купила фирму Nuance за $19,7 млрд. Её вторая по масштабности сделка за всю историю (после покупки LinkedIn за $26 млрд). И тоже, как говорят, чтобы расширить линейку своих продуктов для здравоохранения за счет AI. Microsoft планирует подключить технологию распознавания речи Nuance к своему облаку Microsoft Cloud for Healthcare, что, по расчетам Microsoft, удвоит доступный ей рынок до $500 млрд.

Ради доступа к мир медицины компании даже готовы сильно рисковать. Так, Google последние несколько лет собирала персональные медицинские данные 50 млн американцев без их ведома. В рамках проекта «Project Nightingale» («Проект Соловей») она создавала глобальную базу с медицинскими картами пациентов, в которой есть информация об их исследованиях и анализах, диагнозах врачей, записях о госпитализации, историях болезней. С именами пациентов и датами рождения.

За это компании пригрозили судами: несколько сенаторов, в том числе бывший кандидат в президенты Элизабет Уоррен, просили открыть дело, и ставили ультиматумы партнерам Google, чтобы те вышли из проекта. Но, видимо, оно того стоит.

Читать дальше →

+16

alexander_kovalevich Jul 18 2021 at 17:11

Почему стоит научиться «парсить» сайты, или как написать свой первый парсер на Python

3 min

202K

Python*

From sandbox

В этой статье я постараюсь понятно рассказать о парсинге данных и его нюансах.

Для начала давайте разберемся, что же действительно означает на первый взгляд непонятное слово — парсинг. Прежде всего это процесс сбора данных с последующей их обработкой и анализом. К этому способу прибегают, когда предстоит обработать большой массив информации, с которым сложно справиться вручную. Понятно, что программу, которая занимается парсингом, называют — парсер. С этим вроде бы разобрались.

Перейдем к этапам парсинга.

Поиск данных
Извлечение информации
Сохранение данных

И так, рассмотрим первый этап парсинга — Поиск данных.

Так как нужно парсить что-то полезное и интересное давайте попробуем спарсить информацию с сайта work.ua.
Для начала работы, установим 3 библиотеки Python.

pip install beautifulsoup4

Без цифры 4 вы ставите старый BS3, который работает только под Python(2.х).

pip install requests

pip install pandas

Теперь с помощью этих трех библиотек Python, можно проанализировать нашу веб-страницу.

Второй этап парсинга — Извлечение информации.

Попробуем получить структуру html-кода нашего сайта.
Давайте подключим наши новые библиотеки.

import requests
from bs4 import BeautifulSoup as bs
import pandas as pd

И сделаем наш первый get-запрос.

URL_TEMPLATE = "https://www.work.ua/ru/jobs-odesa/?page=2"
r = requests.get(URL_TEMPLATE)
print(r.status_code)

Статус 200 состояния HTTP — означает, что мы получили положительный ответ от сервера. Прекрасно, теперь получим код странички.

print(r.text)

Получилось очень много, правда? Давайте попробуем получить названия вакансий на этой страничке. Для этого посмотрим в каком элементе html-кода хранится эта информация.

<h2 class="add-bottom-sm"><a href="/ru/jobs/3682040/" title="Комірник, вакансия от 5 ноября 2019">Комірник</a></h2>

У нас есть тег h2 с классом «add-bottom-sm», внутри которого содержится тег a. Отлично, теперь получим title элемента a.

Читать дальше →

-11

ritchie_kyoto Jul 19 2021 at 13:35

Алгоритмы сортировки NumPy (и танцы, и мемы)

5 min

7.1K

Python*Algorithms*

Вместо предисловия:

Да, наверное, нет более избитой темы, чем алгоритмы сортировки. Однако, меня в свое время так увлек процесс разбора того, какие алгоритмы задействованы в NumPy, что захотелось всем об этом рассказать. Возможно, слишком мелкая вещь, возможно, занудство какое-то, но тешу себя надеждой, что материал может быть полезным для тех, кто тему только начал! Особенно для таких же людей, как я, перешедших из смежных сфер (из телекома, например), где алгоритмы и структуры данных могут попросту не изучаться (бывает и такое). Если где-то что-то напутал (или наоборот материал оказался для вас полезным), буду рад обратной связи!

zloy_stas Jul 13 2021 at 08:46

Чем разработчик от кодера отличается

6 min

32K

Домклик corporate blogIT careerPersonnel Management*Project management*

Самый плохой разработчик — тот, который всё делает по ТЗ. А самый лучший код — не написанный.

«Моя задача — писать код, я разработчик!» — да, это очень удобная позиция. Но людям, которые не только программируют, но ещё и общаются с коллегами, организуют собственную работу и понимают предметную область, платят больше. Потому что они приносят бизнесу больше пользы. Разработчики, которых надо микроменеджерить, чтобы они делали свою работу, никому не нужны.

Основная обязанность разработчика — это решить проблему. Не написать код, не отдать задачу на тестирование, а решить проблему. Писать код по спецификациям может любой дурак (на самом деле тоже нет). А вот решать проблемы — нет. Для этого надо думать и брать на себя ответственность.

Это история не про любовь, мир, жвачку и миссию компании, а про простую способность сделать свою работу так, чтобы она была сделана хорошо. И да, для этого разработчик должен не только уметь программировать, но и уметь общаться с другими людьми, уметь доносить свои мысли, уточнять и понимать, что вообще происходит. То есть уметь договариваться. Да, разработчик должен уметь организовывать свою работу: раскладывать проблему на задачи. Ещё он должен интересоваться продуктом (проектом). Не потому что разработчик так его любит, и не потому, что этого требует Agile, а потому, что живой интерес к продукту и понимание его ценности увеличивает качество решений и стоимость разработчика на рынке. Знание предметной области и её ограничений — первейшее требование для того, чтобы принять правильное техническое и архитектурное решение. И очевидно, что чем меньше руководитель тратит сил на управление сотрудником и чем больше получает результат, — то есть чем выше автономность сотрудника, его самостоятельность и беспроблемность, — тем он ценнее при прочих равных.

+47

184

maxa707 Jul 13 2021 at 10:20

Как я оседлала лошадку тревожной прокрастинации, и что из этого вышло

11 min

27K

Popular scienceBrainHealth

Бывают такие задачи, которые становятся камнем преткновения, и затыкают запланированное течение дел до такой степени, что формируется что-то похожее на водопад. Другие задачи потоком хлещут поверх затора, но сам камень не сдвигается.

Таким камнем стала для меня эта статья. Я задумала написать её ещё в апреле. Натолкнул меня на эту мысль ролик про прокрастинацию. К концу видео автор прорисовывают связь между прокрастинацией и тревожностью. По ходу просмотра и ревизии собственного опыта и наблюдений, всплыло несколько мыслей про то, откуда что берётся, как связаны между собой тревога, усталость и прокрастинация, и как с этим всем обращаться. И, самое главное, как развернуть это всё себе на пользу.

Накидала тезисы, структурировала в план, и даже написала пару первых абзацев. Дальше пошло как-то туго, структура перестала нравиться, начала её переделывать. Затем кончился день, на следующий что-то отвлекло, подъехали новые срочные задачи, и...

+26

it_manager Jul 11 2021 at 12:30

Про лояльность и ЗП

4 min

103K

IT career

Пишу эту статью для ~~гениальных~~ генеральных директоров, ~~хитрых~~ умных собственников и руководителей ~~отделов кадров~~ служб персонала компаний, в которых трудятся ИТ специалисты и разработчики. Я поработал много где - начиная от домашне-уютных, с "семейной атмосферой", компаний и до "кровавого энтерпрайза", типа гигантов нефте-золото-брильянто-страховой металлургии. Начинал с админства, макросов и программирования приложений БД и ~~постепенно ушёл на тёмную сторону~~ дорос до ИТ директора в одной хорошей ИТ компании. Сегодня хочу поговорить про лояльность компании и про "денежную мотивацию", которая "в ИТ - не работает".

Почитать сказки про лояльность

+188

709

1 2 3

5 6 7 8

Быстрый градиентный бустинг с CatBoost

Как разработать ансамбль Light Gradient Boosted Machine (LightGBM)

Анализ вакансий и зарплат в Data Science

Популярная лингвистика. Часть 2. Шедевры языкостроения

Откуда есть пошел дотракийский язык

Продуктовый подход — польза и для бизнеса, и для разработчика

Как переехать в США через EPAM и получить грин карту

12 ключевых направлений для развития IoT-технологий. Часть 2

6. Здравоохранение и телемедицина

Docker для Data Scientist'a

Мой уход из Яндекса, как не потерять мотивацию за полгода подготовки в FAANG и реджект в Google

Рынок IT-вакансий: куда бежать и, главное, зачем

О курсах, дипломах, паттернах и других вопросах при найме разработчиков

Как хакнуть когнитивные искажения через левое ухо

Как профессор MIT доказал существование Бога с помощью математики

С чем на пенсию пойдём?

IT-гиганты нацелились на медицину. Что это значит для нас?

Почему стоит научиться «парсить» сайты, или как написать свой первый парсер на Python

В этой статье я постараюсь понятно рассказать о парсинге данных и его нюансах.

И так, рассмотрим первый этап парсинга — Поиск данных.

Второй этап парсинга — Извлечение информации.

Алгоритмы сортировки NumPy (и танцы, и мемы)

Чем разработчик от кодера отличается

Как я оседлала лошадку тревожной прокрастинации, и что из этого вышло

Про лояльность и ЗП

Information