Search
Write a publication
Pull to refresh
0
mind2cloud @bitcompilread⁠-⁠only

Data Scientist

Send message

Быстрый градиентный бустинг с CatBoost

Reading time5 min
Views90K
Привет, хабровчане! Подготовили перевод статьи для будущих учеников базового курса Machine Learning.





В градиентном бустинге прогнозы делаются на основе ансамбля слабых обучающих алгоритмов. В отличие от случайного леса, который создает дерево решений для каждой выборки, в градиентном бустинге деревья создаются последовательно. Предыдущие деревья в модели не изменяются. Результаты предыдущего дерева используются для улучшения последующего. В этой статье мы подробнее познакомимся с библиотекой градиентного бустинга под названием CatBoost.


Источник
Читать дальше →

Как разработать ансамбль Light Gradient Boosted Machine (LightGBM)

Reading time16 min
Views51K
В преддверии старта нового потока курса «Машинное обучение» представляем вашему вниманию материал о Light Gradient Boosted Machine (далее — LightGBM), библиотеке с открытым исходным кодом, которая предоставляет эффективную и действенную реализацию алгоритма градиентного бустинга.

LightGBM расширяет алгоритм градиентного бустинга, добавляя тип автоматического выбора объектов, а также фокусируясь на примерах бустинга с большими градиентами. Это может привести к резкому ускорению обучения и улучшению прогнозных показателей. Таким образом, LightGBM стала де-факто алгоритмом для соревнований по машинному обучению при работе с табличными данными для задач регрессионного и классификационного прогностического моделирования. В этом туториале вы узнаете, как разрабатывать ансамбли машин Light Gradient Boosted для классификации и регрессии. После завершения этого урока вы будете знать:

  • Light Gradient Boosted Machine (LightGBM) — эффективную реализацию ансамбля стохастического градиентного бустинга с открытым исходным кодом.
  • Как разрабатывать ансамбли LightGBM для классификации и регрессии с помощью API scikit-learn.
  • Как исследовать влияние гиперпараметров модели LightGBM на её производительность.


Давайте начнём

Анализ вакансий и зарплат в Data Science

Reading time8 min
Views54K

Привет, Хабр!

Делимся нашим исследованием вакансий и зарплат в сфере data science и data engineering. Спрос на специалистов растет, или рынок уже насытился, какие технологии теряют, а какие набирают популярность, размер зарплатных вилок и от чего они зависят?

Для анализа мы использовали вакансии, публикуемые в сообществе ODS. По правилам сообщества все вакансии должны иметь зарплатную вилку от и до и подробное описание вакансии - есть что анализировать. К статье прилагается репозиторий с ноутбуком и исходными данными.

Читать далее

Популярная лингвистика. Часть 2. Шедевры языкостроения

Reading time6 min
Views8.5K

Habr Arrival


Приглашаю окунуться в мир "языков Фаберже", — языков, придуманных для эстетики, пущего реализма или шутки ради. Степень их завершенности зачастую зависит лишь от одного-двух человек (если такое намерение вообще имело место), и о практическом применении таких языков почти никогда речи не идёт. Но познакомившись с ними поглубже, можно узнать много интересного и подивиться изобретательности их авторов. Среди этих артлангов можно встретить наречия Средиземья и говоры Вестероса, таинственные инопланетные диалекты и компактный словарь Эллочки-людоедки.


Откуда есть пошел дотракийский язык


Начнем с языков мира "Песни льда и пламени" Джорджа Мартина. Сам Мартин свои языки не прорабатывал и они так и остались бы воображаемыми, но на помощь пришла телевизионная сеть HBO с идеей высокобюджетного сериала "Игра престолов". И так как в любой области есть свои специалисты, то решено было обратиться за помощью к Обществу создания языков. Конкурс выиграл Дэвид Питерсон, американский лингвист, который уже имел богатый опыт в создании искуственных языков.

Хо-хо, парниша!

Продуктовый подход — польза и для бизнеса, и для разработчика

Reading time7 min
Views9.3K
Привет!

Я продуктовый разработчик, но так было не всегда. Лет 5 назад я впервые услышал фразу «продуктовая разработка», но я тогда не совсем понимал, что это значит. Мне говорят — вот у нас продукт, ну а я пишу код и пишу, чего такого-то. Есть ТЗ — и славно, нет ТЗ — как говорится, и результат будет ХЗ

Но это на самом деле своего рода проектный подход. Вот есть у вас ТЗ, а за ним — много тяжелой, усердной работы. Люди упорно гребут, в голове у них только код. Потом проект закончился, все молодцы.

Потом что-то поменялось в моей работе — ТЗ не стало. Это такой следующий шажок. Вот мы в продукте работаем, а теперь у нас еще и ТЗ нет. И что делать? Началось осознание того, что происходит.

Во-первых, продукт не имеет четкого начала и конца. Нет каких-то границ. Вот в проекте у нас были границы. Например, количество функций, которые нужно сделать, количество разработчиков, которые работают над проектом, дедлайны всякие, когда проект должен закончиться. У продукта же таких границ нет, он живёт, и его надо развивать.
Читать дальше →

Как переехать в США через EPAM и получить грин карту

Reading time5 min
Views67K

Статья о том как получить гринку через EPAM и похожий аутсорс. Сколько времени это займёт? Какие расходы оплачивает EPAM при переезде? Что такое L1 виза и как её получить? Что такое Green Card through employment.

Читать далее

12 ключевых направлений для развития IoT-технологий. Часть 2

Reading time5 min
Views2.2K

Продолжение. С первой частью статьи можно ознакомиться по ссылке.


6. Здравоохранение и телемедицина


В ближайшие годы будет расти потребность в удаленном медицинском контроле за течением болезней и мониторинге показателей самочувствия. Forrester ожидает, что это вызовет быстрый рост использования носимых устройств и датчиков, которые помогут отслеживать состояние пациентов с хроническими заболеваниями. В немалой степени этому способствует удобство и сравнительно низкая стоимость подобных устройств.


med_IoT.jpg

Кроме того, носимые устройства могут использоваться для сведения к минимуму ненужных контактов в ситуациях, когда риск вирусного заражения особенно высок (например, в домах престарелых и в инфекционных отделениях больниц).


Еще один из сценариев применения IoT в медицине — это внедрение роботов, которые используются в некоторых больницах, например, для дезинфекции поверхностей.


Читать дальше →

Docker для Data Scientist'a

Reading time5 min
Views13K

Часто у начинающих Data Scientists возникает вопрос, как демонстрировать работу своих моделей другим людям. Банальный пример - прикрепить ссылку на гитхаб репозиторий в отклике на вакансию или показать свое “детище” знакомым со словами “смотрите, что умею”.

Читать далее

Рынок IT-вакансий: куда бежать и, главное, зачем

Reading time5 min
Views28K

Современные реалии таковы: спрос на IT-специалистов значительно выше их количества, зарплаты растут, а миграция кадров перестала быть сезонным явлением. Многочисленные курсы обещают низкий порог входа, а работодатели готовы вкладывать деньги и силы в обучение даже потенциальных сотрудников. Как тут не решиться на переход в IT?

С помощью нашего сервиса @Getmeit_bot мы смогли собрать любопытную статистику, отражающую основные тренды рынка найма IT-специалистов за последнее полугодие. Они помогут начинающим специалистам определиться со своим карьерным путем, а уже состоявшимся — сформировать представление, с чем выходить на рынок найма и куда двигаться дальше с целью карьерного роста.

Читать далее

О курсах, дипломах, паттернах и других вопросах при найме разработчиков

Reading time5 min
Views5.7K

Привет всем заинтересовавшимся! Меня зовут Константин, я заместитель директора по разработке в компании «ВИСТ» (входит в ГК «Цифра»). Недавно я столкнулся с несколькими противоречивыми мнениями о проведении собеседований и подборе персонала в ИТ. В этом посте я хотел бы поделиться своим подходом к этому процессу, основанным на личном опыте участия в собеседованиях по обе стороны стола и собственных шишках, оставшихся на память от граблей, на которые я успел наступить. Не берусь никого учить и утверждать, что мой взгляд единственно верный. Всегда готов выслушать противоположное мнение — пишите в комментариях. 

Читать далее

Как хакнуть когнитивные искажения через левое ухо

Reading time9 min
Views18K
image


Хочу сегодня познакомить вас с парочкой интересных не просто когнитивных искажений, а программно-аппаратных сбоев мозга, как с ними живется людям и как их хакнуть.

Есть такой синдром Капгра, когда в результате травмы или болезни человек вдруг начинает считать своих близких притворщиками. Такой больной видит свою мать и отца, или ребенка, и они выглядят точь-в-точь как его родные, но это не они, а какие-то люди, которые притворяются ими. Причем, на уточняющий вопрос, в чем отличия, больной приводит визуальные признаки: притворщик завязывает шнурки как-то иначе, другой цвет глаз, или длиннее нос. На сегодняшний день проверенное объяснение таково: нейронные связи, соединяющие локации мозга для определения лица и категоризации его как близкого человека – в целости, а вот связи между этим же регионом и эмоциональной системой разрушены.

Поэтому человек видит родителя или ребенка, но не чувствует никаких эмоций, и мозг выдвигает гипотезу, что это не мать, а притворщица. А стоит родителю выйти из комнаты и тут же позвонить больному, как диалог вполне нормальный. Потому что связи между голосовой идентификаций и эмоциональной системой в сохранности. Иногда при синдроме Капгра происходит селективное нарушение — вместе с притворщиками и родной дом оказывается подмененным, или притворщиком оказывается только один член семьи. Это может казаться безобидной причудой, но есть данные, что пациенты с синдромом Капрга убивали своих притворщиков, то есть, своих родных.
Читать дальше →

Как профессор MIT доказал существование Бога с помощью математики

Reading time13 min
Views61K

Внезапно прогремевший около 13.8 миллиардов лет назад Большой Взрыв положил начало истории. Через несколько миллиардов лет после этого из облаков слегка остывшего газа сформировались галактики, спустя какое-то время внутри галактик из туманностей образовались звезды, а вокруг звезд появились планеты. На одной из таких планет в воде вблизи горячих сопок подводных вулканов зародилась химическая жизнь. Постепенно эта жизнь усложнялась и эволюционировала - вначале в простейших вирусов и бактерий, а после в птиц и млекопитающих. И в конце концов, мозг одного из видов млекопитающих развился достаточно, чтобы по косвенным уликам воспроизвести весь пройденный им путь к собственному существованию. Но несмотря на все свои достижения это млекопитающее все еще терзается вопросом: что было до Большого Взрыва?

На этот счет мнения расходятся. Многие считают этот вопрос некорректным, так как до Большого Взрыва не существовало самого времени. Некоторые считают нашу Вселенную внутренностями черной дыры, образовавшейся в некой "внешней" Вселенной. А кто-то считает, что все сущее - это симуляция, запущенная на мощном компьютере в "настоящем" мире. Кто знает, может быть действительно весь наш мир - это всего-лишь навсего школьный проект по программированию шестиклассника из развитой цивилизации. Но даже если наш мир находится внутри "сверхвселенной" или "настоящей вселенной" , то почему существует сама это внешняя Вселенная? Что ее породило? Почему вообще существует все сущее?

Читать далее

С чем на пенсию пойдём?

Reading time6 min
Views36K

Потихоньку начинаю задумываться, на какой технологии буду «въезжать» в пенсионный возраст. Почитываю статьи о том, как люди после 30 лет учатся или переучиваются, какие испытывают трудности в трудоустройстве. Оно и понятно – «старых коней» обычно берут только на технологии, которыми они уже владеют. Самому мне под 40, если что.

Я и сам принимал на стажировку людей в возрасте 35-45 лет, остался только один – чрезвычайно упёртый. Остальные сами убегали, кто через неделю, кто через квартал. Хотя рядом сидят 22-летние студенты, которые и не думают никуда сбегать.

Что интересно – они именно сбегают, причём – назад. Туда, откуда пришли. Если человек с завода, где работа была – не бей лежачего, туда он и спешит вернуться. Если был так-себе-менеджером по продажам, но с инженерным образованием, то быстро сбегает обратно – принимать звонки и оформлять заказы.

Судя по отзывам тех, кто ушёл и тех, кто остался, сбегать заставляет страх. Понятный, даже выраженный в упускаемых деньгах страх не состояться в новой профессии или технологии. Вот и бегут от неё, технологии.

Однако случается, что технология сама приходит к человеку, не спрашивая его мнения. И бежать ему особо некуда, ибо собственные знания продать особо некому – они безнадёжно устарели. Но на заводе, где сидит «возрастной» программист, за эти знания пока платят. Ровно до тех пор, пока старая, уютная, тёплая ламповая информационная система не будет заменена новой, дорогой, блестящей и высокотехнологичной (возьмите в кавычки любое слово, если хотите).

Ну и придётся программисту что-то придумывать, как-то выкручиваться. С учётом ускоряющегося с возрастом течения времени, мне это тоже скоро предстоит. Поэтому решил вспомнить реальные кейсы из внедрений молодости – как тогдашние заводские программисты предпенсионного возраста находили своё место в жизни.

Читать далее

IT-гиганты нацелились на медицину. Что это значит для нас?

Reading time7 min
Views11K


Вы заметили? Все крупные компании, занимающиеся сбором и анализом данных, двигаются в сферу здравоохранения. Amazon за $750 млн купила PillPack для продажи лекарств онлайн. Alphabet инвестирует миллиарды в Google Health, с ее десятками проектов, в том числе AI-роботами для операций и повышением эффективности скрининга глаз при диабете. Apple — создала Health App (запуск этой осенью), продвигает Apple Watch в первую очередь как трекер для здоровья, и даже недавно открыла сеть собственных клиник.


Microsoft недавно купила фирму Nuance за $19,7 млрд. Её вторая по масштабности сделка за всю историю (после покупки LinkedIn за $26 млрд). И тоже, как говорят, чтобы расширить линейку своих продуктов для здравоохранения за счет AI. Microsoft планирует подключить технологию распознавания речи Nuance к своему облаку Microsoft Cloud for Healthcare, что, по расчетам Microsoft, удвоит доступный ей рынок до $500 млрд.


Ради доступа к мир медицины компании даже готовы сильно рисковать. Так, Google последние несколько лет собирала персональные медицинские данные 50 млн американцев без их ведома. В рамках проекта «Project Nightingale» («Проект Соловей») она создавала глобальную базу с медицинскими картами пациентов, в которой есть информация об их исследованиях и анализах, диагнозах врачей, записях о госпитализации, историях болезней. С именами пациентов и датами рождения.


За это компании пригрозили судами: несколько сенаторов, в том числе бывший кандидат в президенты Элизабет Уоррен, просили открыть дело, и ставили ультиматумы партнерам Google, чтобы те вышли из проекта. Но, видимо, оно того стоит.

Читать дальше →

Почему стоит научиться «парсить» сайты, или как написать свой первый парсер на Python

Reading time3 min
Views202K

В этой статье я постараюсь понятно рассказать о парсинге данных и его нюансах.



image

Для начала давайте разберемся, что же действительно означает на первый взгляд непонятное слово — парсинг. Прежде всего это процесс сбора данных с последующей их обработкой и анализом. К этому способу прибегают, когда предстоит обработать большой массив информации, с которым сложно справиться вручную. Понятно, что программу, которая занимается парсингом, называют — парсер. С этим вроде бы разобрались.

Перейдем к этапам парсинга.

  • Поиск данных
  • Извлечение информации
  • Сохранение данных

И так, рассмотрим первый этап парсинга — Поиск данных.


Так как нужно парсить что-то полезное и интересное давайте попробуем спарсить информацию с сайта work.ua.
Для начала работы, установим 3 библиотеки Python.

pip install beautifulsoup4

Без цифры 4 вы ставите старый BS3, который работает только под Python(2.х).

pip install requests
pip install pandas


Теперь с помощью этих трех библиотек Python, можно проанализировать нашу веб-страницу.

Второй этап парсинга — Извлечение информации.


Попробуем получить структуру html-кода нашего сайта.
Давайте подключим наши новые библиотеки.

import requests
from bs4 import BeautifulSoup as bs
import pandas as pd

И сделаем наш первый get-запрос.

URL_TEMPLATE = "https://www.work.ua/ru/jobs-odesa/?page=2"
r = requests.get(URL_TEMPLATE)
print(r.status_code)

Статус 200 состояния HTTP — означает, что мы получили положительный ответ от сервера. Прекрасно, теперь получим код странички.

print(r.text)

Получилось очень много, правда? Давайте попробуем получить названия вакансий на этой страничке. Для этого посмотрим в каком элементе html-кода хранится эта информация.

<h2 class="add-bottom-sm"><a href="/ru/jobs/3682040/" title="Комірник, вакансия от 5 ноября 2019">Комірник</a></h2>


У нас есть тег h2 с классом «add-bottom-sm», внутри которого содержится тег a. Отлично, теперь получим title элемента a.
Читать дальше →

Алгоритмы сортировки NumPy (и танцы, и мемы)

Reading time5 min
Views7.1K

Вместо предисловия:

Да, наверное, нет более избитой темы, чем алгоритмы сортировки. Однако, меня в свое время так увлек процесс разбора того, какие алгоритмы задействованы в NumPy, что захотелось всем об этом рассказать. Возможно, слишком мелкая вещь, возможно, занудство какое-то, но тешу себя надеждой, что материал может быть полезным для тех, кто тему только начал! Особенно для таких же людей, как я, перешедших из смежных сфер (из телекома, например), где алгоритмы и структуры данных могут попросту не изучаться (бывает и такое). Если где-то что-то напутал (или наоборот материал оказался для вас полезным), буду рад обратной связи!

Читать далее

Чем разработчик от кодера отличается

Reading time6 min
Views32K

Самый плохой разработчик — тот, который всё делает по ТЗ. А самый лучший код — не написанный.

«Моя задача — писать код, я разработчик!» — да, это очень удобная позиция. Но людям, которые не только программируют, но ещё и общаются с коллегами, организуют собственную работу и понимают предметную область, платят больше. Потому что они приносят бизнесу больше пользы. Разработчики, которых надо микроменеджерить, чтобы они делали свою работу, никому не нужны.

Основная обязанность разработчика — это решить проблему. Не написать код, не отдать задачу на тестирование, а решить проблему. Писать код по спецификациям может любой дурак (на самом деле тоже нет). А вот решать проблемы — нет. Для этого надо думать и брать на себя ответственность.

Это история не про любовь, мир, жвачку и миссию компании, а про простую способность сделать свою работу так, чтобы она была сделана хорошо. И да, для этого разработчик должен не только уметь программировать, но и уметь общаться с другими людьми, уметь доносить свои мысли, уточнять и понимать, что вообще происходит. То есть уметь договариваться. Да, разработчик должен уметь организовывать свою работу: раскладывать проблему на задачи. Ещё он должен интересоваться продуктом (проектом). Не потому что разработчик так его любит, и не потому, что этого требует Agile, а потому, что живой интерес к продукту и понимание его ценности увеличивает качество решений и стоимость разработчика на рынке. Знание предметной области и её ограничений — первейшее требование для того, чтобы принять правильное техническое и архитектурное решение. И очевидно, что чем меньше руководитель тратит сил на управление сотрудником и чем больше получает результат, — то есть чем выше автономность сотрудника, его самостоятельность и беспроблемность, — тем он ценнее при прочих равных.

Читать далее

Как я оседлала лошадку тревожной прокрастинации, и что из этого вышло

Reading time11 min
Views27K

Бывают такие задачи, которые становятся камнем преткновения, и затыкают запланированное течение дел до такой степени, что формируется что-то похожее на водопад. Другие задачи потоком хлещут поверх затора, но сам камень не сдвигается.

Таким камнем стала для меня эта статья. Я задумала написать её ещё в апреле. Натолкнул меня на эту мысль ролик про прокрастинацию. К концу видео автор прорисовывают связь между прокрастинацией и тревожностью. По ходу просмотра и ревизии собственного опыта и наблюдений, всплыло несколько мыслей про то, откуда что берётся, как связаны между собой тревога, усталость и прокрастинация, и как с этим всем обращаться. И, самое главное, как развернуть это всё себе на пользу.

Накидала тезисы, структурировала в план, и даже написала пару первых абзацев. Дальше пошло как-то туго, структура перестала нравиться, начала её переделывать.  Затем кончился день, на следующий что-то отвлекло, подъехали новые срочные задачи, и...

Читать далее

Про лояльность и ЗП

Reading time4 min
Views103K

Пишу эту статью для гениальных генеральных директоров, хитрых умных собственников и руководителей отделов кадров служб персонала компаний, в которых трудятся ИТ специалисты и разработчики. Я поработал много где - начиная от домашне-уютных, с "семейной атмосферой", компаний и до "кровавого энтерпрайза", типа гигантов нефте-золото-брильянто-страховой металлургии. Начинал с админства, макросов и программирования приложений БД и постепенно ушёл на тёмную сторону дорос до ИТ директора в одной хорошей ИТ компании. Сегодня хочу поговорить про лояльность компании и про "денежную мотивацию", которая "в ИТ - не работает".

Почитать сказки про лояльность

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity