@Repulse^{read⁠-⁠only}

User

ProfileBookmarks526

KonstantinKG Jun 19 2018 at 20:12

Соревнование Kaggle Home Credit Default Risk — анализ данных и простые предсказательные модели

33 min

21K

Big Data * Data Mining * Python * Machine learning *

На датафесте 2 в Минске Владимир Игловиков, инженер по машинному зрению в Lyft, совершенно замечательно объяснил, что лучший способ научиться Data Science — это участвовать в соревнованиях, запускать чужие решения, комбинировать их, добиваться результата и показывать свою работу. Собственно в рамках этой парадигмы я и решил посмотреть внимательнее на соревнование по оценке кредитного риска от Home Credit и объяснить (начинающим дата саентистам и прежде всего самому себе), как правильно анализировать подобные датасеты и строить под них модели.

Читать дальше →

+14

naprienko Jun 19 2018 at 12:31

Инструкция по поступлению на PhD в США

7 min

39K

Education abroadStudying in IT

Так вышло, что я поступил на программу PhD по математике в Стэнфордский университет. Я бы хотел рассказать о том, что требуется для поступления, и почему попробовать поступить — это не очень сложно. Уверен, что мой опыт актуален не только для математики, поэтому местами пишу более общо.

Что требуется для поступления?

TOEFL (260$) (экзамен по английскому)
GRE Subject Mathematics (150$) (экзамен по математике)
GRE general (205$) (школьная математика и английский)
Не менее трёх рекомендательных писем
Statement of Purpose (эссе)
Curriculum vitae (научная автобиография)
(иногда) Personal History Statement (другое эссе)
(желательно) публикации и доклады на конференциях
Деньги (в среднем 150$ за каждый университет)

А теперь — по порядку!

Читать дальше →

+26

nanton Jun 14 2018 at 10:39

Чему я научился, пройдя множество собеседований в компаниях и стартапах из сферы ИИ

14 min

38K

InlyIT corporate blogStudying in ITIT careerArtificial Intelligence

Translation

За последние восемь месяцев я прошел собеседования в самых разных компаниях — DeepMind в Google, Wadhwani Institute of AI, Microsoft, Ola, Fractal Analytics и некоторых других — в основном на позиции Data Scientist, Software Engineer и Research Engineer. По ходу дела мне предоставлялись возможности не только пообщаться со многими талантливыми людьми, но также по-новому взглянуть на себя с пониманием того, что хотят услышать работодатели, когда беседуют с кандидатами. Думаю, если бы я располагал этой информацией раньше, то мог бы избежать многих ошибок и подготовиться к собеседованиям куда лучше. Это и стало импульсом к написанию данной статьи — возможно, она поможет кому-нибудь получить работу мечты.

В конце концов, если уж собираешься две трети своего времени (если не больше) проводить за работой, она должна быть этого достойна.

Читать дальше →

+9

N01Z3 Jun 14 2018 at 11:01

Kaggle: Amazon from Space — трюки и хаки при обучении нейросетей

9 min

19K

Open Data Science corporate blogImage processing * Machine learning * Algorithms * Python *

Летом прошлого года закончилось соревнование на площадке kaggle, которое было посвящено классификации спутниковых снимков лесов Амазонки. Наша команда заняла 7 место из 900+ участников. Не смотря на то, что соревнование закончилось давно, почти все приемы нашего решения применимы до сих пор, причём не только для соревнований, но и для обучения нейросетей для прода. За подробностями под кат.

Читать дальше →

+53

akokarev Jun 3 2018 at 17:00

Downclocking оперативной памяти на MacBook

7 min

41K

Computer hardwareSystem administration * Old hardware

Хочу поделиться своим опытом апгрейда своего MacBook6,1 A1342 (увеличение памяти до 8Гб, установка SSD) и решении ряда проблем связанных с установкой системы на новый диск и борьба с глюками несовместимости RAM.

Сначала может показаться, что апгрейд старого железа тривиальная задача: в интернете должно быть полно статей на эту тему, а на рынке куча дешевых запчастей для него. Но не все так просто на практике. Проблемы начались еще в магазине на этапе подбора комплектующих

Читать дальше →

+65

ITICapital May 16 2018 at 09:23

Подборка: 6 открытых фреймворков для создания бэктестеров торговых стратегий на Python

6 min

26K

ITI Capital corporate blogFinance in IT

Recovery Mode

Translation

В своей статье на ресурсе QuantStart, эксперт по разработке финансовых приложений Фрэнк Смитана (Frank Smietana) рассказал о существующих фреймворках для создания софта для бэктестинга торговых стратегий и дал несколько советов по выбору подобных инструментов. Мы адаптировали этот полезный материал.

Читать дальше →

+17

PuzzleEnglish May 10 2018 at 13:55

Самые трудные пары английских времен

8 min

38K

Puzzle English corporate blogLearning languages

С грамматикой в предыдущей статье разобрались, теперь посмотрим, с какими трудностями сталкивается студент, для которого русский – родной язык. Сразу отметим, что сравнивать языки бесполезно: русский и английский принадлежат к разным группам. Аргумент «а по-русски не так!», к сожалению, бесполезен. Естественно, не так, ведь русский – славянский язык, а английский – германский. Мы можем лишь стараться проводить параллели, но одинаковыми правила не будут никогда.

Читать дальше →

+18

a-pichugin May 7 2018 at 07:10

Стартапы, чат-боты, Кремниевая долина. Интервью с российскими разработчиками в Сан-Франциско

9 min

13K

New Professions Lab corporate blogMachine learning * Python * Data Mining * Big Data *

Во время своей недавней поездки в Сан-Франциско я встретился с выпускниками нашей программы «Специалист по большим данным», эмигрировавшими в США — Евгением Шапиро (Airbnb) и Игорем Любимовым (ToyUp), а также с Артемом Родичевым (Replika), нашим партнером. Ребята рассказали массу интересных вещей: зачем Airbnb выкладывает свои проекты в open-source; как устроена Replika — нейросетевой чат-бот, способный стать твоим другом; про миссию стартапов Кремниевой Долины и предпринимательскую экосистему.

Читать дальше →

+24

ragequit Apr 28 2016 at 19:51

Каково это — быть разработчиком, когда тебе сорок

18 min

230K

Translation

Примечание от переводчика:

Этот пост был написан и опубликован на Medium разработчиком приложений Адрианом Космачевским из Швейцарии. Кроме подготовки перевода его публикации, я также пригласил и самого автора, Адриана ( akosma ), на Хабр, для того, чтобы он смог лично ответить на любые вопросы участников сообщества, если таковые возникнут. Думаю, для общего удобства при общении в комментариях с ним стоит использовать английский (и, при желании, дублировать на русском).

Привет всем, я — сорокадвухлетний программист-самоучка, а это моя история.

Пару недель назад я наткнулся на твит, в котором была картинка, прикрепленная ниже, и он заставил меня задуматься о моей карьере.

Эти размышления привели меня туда, откуда все начиналось.

Я дебютировал в роли разработчика программного обеспечения в 10 часов утра 6 октября 1997 года, в городе Оливос, к северу от Буэнос-Айреса, в Аргентине. Был понедельник. Не так давно я праздновал свой 24-й день рождения.

Мир в 1997 году

Тогда он был немного другим. На веб-сайтах не было предупреждений об использовании cookie. Новаторскими в сети были сайты вида Excite.com, а моим любимым поисковиком был AltaVista.

Мой электронный ящик имел вид kosmacze@sc2a.unige.ch и был расположен на личном веб-сайте, который размещался по адресу http://sc2a.unige.ch/~kosmacze. Тогда мы еще оплакивали принцессу Диану, а Стив Джобс только-только вернулся на роль CEO и убедил Microsoft «вбросить» в Apple Computer 150 миллионов долларов. Digital Equipment Corporation подала в суд на Dell, останки Че Гевары вернули на Кубу, только начался четвертый (!) сезон «Друзей». Был убит Джанни Версаче, скончались Мать Тереза, Рой Лихтенштейн и Жанна Кальман. Люди зависали за Final Fantasy 7 на PlayStation, будто бы были наркоманами, Би-Би-2 начал вещание телепузиков, а Кэмерон только собирался показать миру свой «Титаник».

Читать дальше →

+187

juliant Apr 26 2018 at 10:21

Уехать нельзя остаться: о сложном и зачастую ложном выборе

8 min

28K

Maxilect corporate blogBusiness Models * IT careerRemote work

Почти каждому из нас хотя бы один раз предлагали новое место работы в другом городе. Я таких предложений за 15-20 лет получил не менее 10-ти. Одно из них я даже принял, находясь в Питере, и уехал программировать в США. Основная же масса таких запросов была из Москвы. Помню также, что в районе 2006 года я хотел уехать из Питера и даже рассматривал переезд в Самару, куда съездил на финальное собеседование.

Читать дальше →

+6

Furriest Apr 26 2018 at 08:22

Настройка BGP для обхода блокировок, или «Как я перестал бояться и полюбил РКН»

11 min

145K

Network technologies *

Tutorial

Recovery Mode

Ну ладно, про «полюбил» — это преувеличение. Скорее «смог сосуществовать с».

Как вы все знаете, с 16 апреля 2018 года Роскомнадзор крайне широкими мазками блокирует доступ к ресурсам в сети, добавляя в "Единый реестр доменных имен, указателей страниц сайтов в сети «Интернет» и сетевых адресов, позволяющих идентифицировать сайты в сети «Интернет», содержащие информацию, распространение которой в Российской Федерации запрещено" (по тексту — просто реестр) по /10 иногда. В результате граждане Российской Федерации и бизнес страдают, потеряв доступ к необходимым им совершенно легальным ресурсам.

После того, как в комментариях к одной из статей на Хабре я сказал, что готов помочь пострадавшим с настройкой схемы обхода, ко мне обратились несколько человек с просьбой о такой помощи. Когда у них всё заработало, один из них порекомендовал описать методику в статье. Поразмыслив, решил нарушить свое молчание на сайте и попробовать в кои-то веки написать что-то промежуточное между проектом и постом в Facebook, т.е. хабрапост. Результат — перед вами.

Читать дальше →

+116

vvsotnikov Apr 23 2018 at 08:30

Еще одна статья о распознавании рабочих без касок нейросетями

5 min

30K

Machine learning * Working with video *

Привет, Хабр! Меня зовут Владимир, я студент 4го курса КубГТУ (к сожалению).

Некоторое время назад я наткнулся на статью о разработке CV-системы для обнаружения рабочего персонала без касок, и решил поделиться собственным опытом в данной области, полученным в ходе стажировки в одной промышленной компании летом 2017 года. Теория и практика OpenCV и TensorFlow в контексте задачи обнаружения людей и касок — сразу под катом.

КДПВ, снятая в реальном времени с камеры видеонаблюдения

Читать дальше →

+18

Leono Apr 22 2018 at 13:11

Мобильное приложение на Python c kivy/buildozer. Лекция в Яндексе

5 min

27K

Яндекс corporate blogDevelopment of mobile applications * Python *

Не факт, что вам потребуется написать серьёзное приложение на Python. А вот быстро собрать работающий сервис, чтобы «продать» его заказчику, — почему нет? Python универсален, и опыт создания мобильного софта на этом языке может оказаться полезным. Владислав Шашков из Сбербанка рассказал о том, как строится разработка с помощью фреймворка kivy.

— Добрый день. Меня зовут Владислав Шашков, я работаю в Сбербанке и вообще-то я продуктовик, не разработчик. Именно этим может быть интересен мой доклад, потому что он наглядно покажет, что сделать мобильное приложение на Python достаточно несложно.

+29

snakers4 Apr 22 2018 at 14:55

Применяем Deep Watershed Transform в соревновании Kaggle Data Science Bowl 2018

7 min

8.6K

Image processing * Machine learning * Python * Data Mining *

Применяем Deep Watershed Transform в соревновании Kaggle Data Science Bowl 2018

Представляем вам перевод статьи по ссылке и оригинальный докеризированный код. Данное решение позволяет попасть примерно в топ-100 на приватном лидерборде на втором этапе конкурса среди общего числа участников в районе нескольких тысяч, используя только одну модель на одном фолде без ансамблей и без дополнительного пост-процессинга. С учетом нестабильности целевой метрики на соревновании, я полагаю, что добавление нескольких описанных ниже фишек в принципе может также сильно улучшить и этот результат, если вы захотите использовать подобное решение для своих задач.

описание пайплайна решения

Читать дальше →

+24

McKenzy Apr 19 2018 at 11:09

Ассоциативные правила, или пиво с подгузниками

19 min

85K

Open Data Science corporate blogPython * R * Algorithms * Machine learning *

Введение в теорию

Обучение на ассоциативных правилах (далее Associations rules learning — ARL) представляет из себя, с одной стороны, простой, с другой — довольно часто применимый в реальной жизни метод поиска взаимосвязей (ассоциаций) в датасетах, или, если точнее, айтемсетах (itemsests). Впервые подробно об этом заговорил Piatesky-Shapiro G [1] в работе “Discovery, Analysis, and Presentation of Strong Rules.” (1991) Более подробно тему развивали Agrawal R, Imielinski T, Swami A в работах “Mining Association Rules between Sets of Items in Large Databases” (1993) [2] и “Fast Algorithms for Mining Association Rules.” (1994) [3].

Читать дальше →

+56

AG10 Apr 18 2018 at 05:05

Docker. Начало

7 min

244K

.NET * Website development * Development for Linux * Development for Windows * Studying in IT

Примерно такие же эмоции я и мои коллеги испытывали, когда начинали работать с Docker. В подавляющем большинстве случаев это происходило от недостатка понимания основных механизмов, поэтому его поведение казалось нам непредсказуемым. Сейчас страсти поутихли и вспышки ненависти происходят все реже и все слабее. Более того, постепенно мы на практике оцениваем его достоинства и он начинает нам нравиться… Чтобы снизить степень первичного отторжения и добиться максимального эффекта от использования, нужно обязательно заглянуть на кухню Docker'a и хорошенько там осмотреться.

Читать дальше →

+17

madrugado Apr 10 2018 at 11:00

Применение сверточных нейронных сетей для задач NLP

9 min

66K

Open Data Science corporate blogData Mining * Natural Language Processing * Python * Machine learning *

Когда мы слышим о сверточных нейронных сетях (CNN), мы обычно думаем о компьютерном зрении. CNN лежали в основе прорывов в классификации изображений — знаменитый AlexNet, победитель соревнования ImageNet в 2012 году, с которого начался бум интереса к этой теме. С тех пор сверточные сети достигли большого успеха в распознавании изображений, в силу того факта, что они устроены наподобие зрительной коры головного мозга — то есть умеют концентрироваться на небольшой области и выделять в ней важные особенности. Но, как оказалось, CNN хороши не только для этого, но и для задач обработки естественного языка (Natural Language Processing, NLP). Более того, в недавно вышедшей статье [1] от коллектива авторов из Intel и Carnegie-Mellon University, утверждается, что они подходят для этого даже лучше RNN, которые безраздельно властвовали областью на протяжении последних лет.

Сверточные нейронные сети

Для начала немного теории. Что такое свертка? Мы не будем на этом останавливаться подробно, так как про это написана уже тонна материалов, но все-таки кратко пробежаться стоит. Есть красивая визуализация от Стэнфорда, которая позволяет ухватить суть:

Источник

Читать дальше →

+64

AGrin Apr 8 2018 at 13:05

Анализ данных — основы и терминология

6 min

104K

Big Data * Data Mining * Algorithms * Mathematics * Machine learning *

Tutorial

Recovery Mode

В этой статье я бы хотел обсудить базовые принципы построения практического проекта по (т. н. «интеллектуальному») анализу данных, а также зафиксировать необходимую терминологию, в том числе русскоязычную.

Согласно википедии,

Анализ данных — это область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений.

Говоря чуть более простым языком, я бы предложил понимать под анализом данных совокупность методов и приложений, связанных с алгоритмами обработки данных и не имеющих четко зафиксированного ответа на каждый входящий объект. Это будет отличать их от классических алгоритмов, например реализующих сортировку или словарь.

Читать дальше →

0

petuniaguardian Apr 2 2018 at 15:27

NumPy в Python. Часть 1

5 min

417K

Предисловие переводчика

Доброго времени суток, Хабр. Запускаю цикл статей, которые являются переводом небольшого мана по numpy, ссылочка. Приятного чтения.

Введение

NumPy это open-source модуль для python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций. Они объединяются в высокоуровневые пакеты. Они обеспечивают функционал, который можно сравнить с функционалом MatLab. NumPy (Numeric Python) предоставляет базовые методы для манипуляции с большими массивами и матрицами. SciPy (Scientific Python) расширяет функционал numpy огромной коллекцией полезных алгоритмов, таких как минимизация, преобразование Фурье, регрессия, и другие прикладные математические техники.

Читать дальше →

+33

a-pichugin Apr 1 2018 at 11:40

Специалист по разметке данных

3 min

30K

New Professions Lab corporate blogImage processing * Machine learning * IT careerBig Data *

Сегодня замечательный день (if you know what I mean), чтобы анонсировать нашу новую программу — Специалист по разметке данных.

На текущий момент в сфере искусственного интеллекта сложилась такая ситуация, при которой для обучения сильной нейронной сети нужны несколько компонентов: железо, софт и, непосредственно, данные. Много данных.

Железо, в общем-то, доступно каждому через облака. Да, оно может быть недешевым, но GPU-инстансы на EC2 вполне по карману большинству исследователей. Софт опенсорсный, большинство фреймворков можно скачать себе куда-то и работать с ними. Некоторые сложнее, некоторые проще. Но порог для входа вполне приемлемый. Остается только последний компонент — это данные. И вот здесь и возникает загвоздка.

Deep learning требует действительно больших данных: сотни тысяч–миллионы объектов. Если вы хотите заниматься, например, задачей классификации изображений, то вам, помимо самих данных, нужно передать нейронке информацию, к какому классу относится тот или иной объект. Если у вас задача связана еще и с сегментацией изображения, то получение хорошего датасета — это уже фантастически сложно. Представьте, что вам нужно на каждом изображении выделить границы каждого объекта.

В этом посте хочется сделать обзор тех инструментов (коммерческих и бесплатных), которые пытаются облегчить жизнь этих прекрасных людей — разметчиков данных.

Читать дальше →

+15

1 2 ...

11

12 13 ...