All streams
Search
Write a publication
Pull to refresh
1
0
Skillfactory School @skillfactory_school

Школа Computer Science

Send message

Data Science умерла. Да здравствует Business Science

Reading time8 min
Views15K

5 полезных уроков от скромного лосося


image

Три волны развития искусственного интеллекта согласно Evo Pricing, основано на исследованиях DHL.

Данные — ненадежный друг, и с трудом что-то о них можно назвать научным. Что же делать с наукой о данных?

За последние 5 лет я провел собеседования с более чем 1000 кандидатами на должность аналитиков данных, желающих работать в Evo Pricing. В процессе я узнал, что то, как в СМИ изображают данную профессию, в корне неверно; мы не просто подставляем данные в уже готовые алгоритмы.

Назрела необходимость коренным образом переосмыслить наше представление о науке о данных.

70 лет истории в двух параграфах и одной картинке


В своей основе наука о данных — это красивое название для широкого спектра сложных математических операций, которые, в большинстве своем, были изобретены в далеком прошлом, но обрели второе дыхание благодаря применению значительно усовершенствованных технических устройств: больше данных, больше вычислительной мощности, более разумные результаты по более низкой цене.
Читать дальше →

Тренды в Data Scienсe 2020

Reading time8 min
Views10K
image

Google Trends по запросу «data science»

Краткое изложение


  • По нашим оценкам, вакансии в advanced analytics насчитывают почти 1 миллион человек во всем мире, 291 тысяча из них в США.
  • За последние два года дефицит работ в области data science значительно сократился – были наняты около 800 тысяч специалистов, однако на данный момент десятки вакансий так и остаются нетронутыми, причем подавляющее большинство из них – в США.
  • Самый большой спрос на рабочих в области advanced analytics – в области залива Сан- Франциско с самыми высокими зарплатами и самым большим количеством вакансий, за ней следуют крупные городские центры вроде Нью-Йорка, Бостона, Вашингтона и Сиэтла.
  • Средняя заработная плата по стране у data scientists остается выше $100,000 – эта тенденция просматривается почти во всех штатах, удовлетворенность работой и престиж также остаются на высоком уровне.
  • Для подготовки специалистов в advanced analytics было создано больше ста образовательных программ.
Читать дальше →

Битва ИИ против ИИ: фрод и фейковый контент

Reading time9 min
Views2.3K
image Искусственный интеллект (ИИ) сильно продвинулся в обнаружении попыток мошенничества с банковскими картами. Большинство из нас получали сообщения с просьбами подтвердить покупки, совершенные киберпреступниками. Для составления «синтетических персональных данных», которые копируют типичные модели поведения владельцев банковских карт, используется машинное обучение. Благодаря ему, финансовые учреждения могут в режиме реального времени зафиксировать поведение, отличающееся от нормы. К сожалению, киберпреступники тоже используют ИИ для создания собственных синтетических персональных данных. Они достаточно реалистичны, чтобы обмануть ИИ банков.

Эта битва искусственных интеллектов, мошенничества и кибербезопасности, ведется не только в банковской сфере. Мошенники подделывают новости, видеоролики, аудиозаписи. Так началась гонка вооружений: ИИ против ИИ.

Стеффен Соррелл из Jupiter Research говорит, что в случае с кредитными картами синтетические персональные данные это легкая добыча. Согласно последнему отчету Jupiter Research о мошенничестве с онлайн-платежами, к 2024 году удастся избежать потери 200 миллиардов долларов на таком виде мошенничества. К этому времени рынок распознавания мошенничества должен достигнуть 10 млрд долларов по сравнению с 8,5 млрд долларов в этом году.
Читать дальше →

Как стать «Суперстариком» (superager)

Reading time4 min
Views6.3K
image

Подумайте, есть ли среди ваших знакомых люди старше 65 лет. Скорее всего, некоторые из них страдают старческими психическими расстройствами, например, забывчивостью или снижением концентрации внимания. Тем не менее отдельным людям почему-то удается сохранить остроту ума. Моему свекру 83 года, он врач на пенсии, но до сих пор редактирует книги и ведет несколько медицинских сайтов.

Почему же одним пожилым людям удается сохранить гибкость мышления, а другим нет? «Суперстарики» (термин придумал и ввел в употребление невролог Марсель Месулам) — это люди, чьи память и внимание не просто лучше средних показателей своей возрастной группы, но находятся на уровне здоровых и активных 25-летних людей. Мы с коллегами из Массачусетской больницы не так давно провели исследование, чтобы понять, с чем связан феномен суперстариков.

В нашей лаборатории с помощью функциональной магнитно-резонансной томографии мы просканировали и сравнили головной мозг 17-ти суперстариков и их ровесников. Нам удалось выявить ряд различий в некоторых областях. У обычных людей определенные области головного мозга была истончена вследствие возрастной атрофии. Однако, у суперстариков эти области ничем не отличались от нормы для молодых людей, и казалось бы, были не подвластны разрушительному воздействию времени.
Читать дальше →

Прекратите использовать оператор If-else

Reading time4 min
Views28K
image

Вы просмотрели бесчисленные учебные пособия, использующие операторы If-else. Вы, вероятно, также читали книги по программированию, пропагандирующие использование If-else в качестве фактического метода ветвления.

Возможно, это даже ваш режим по умолчанию, чтобы использовать If-else. Но давайте покончим с этим прямо сейчас, заменив If-else объектами состояния.

Обратите внимание, что этот подход можно использовать, если вы пишете класс с методами, которые нуждаются в изменении его реализаций в зависимости от текущего состояния. Вы бы применили другой подход, если бы не имели дело с изменяющимся состоянием объекта.

Даже если вы слышали о шаблоне состояния, вы можете задаться вопросом, как он реализован в готовом к продакшену коде.

Для тех, кто все еще находится в неведении, вот очень краткое введение.

Вы увеличите сложность с любым новым условным требованием, реализованным с помощью If-else.

Применяя шаблон состояния, вы просто изменяете поведение объектов, используя специализированные объекты состояния вместо операторов If-else.
Читать дальше →

Практическое функциональное программирование

Reading time8 min
Views7.5K
image

Текст статьи взят из презентации, которую я показывал в LinkedIn в2016 году. В презентации была предпринята попытка объяснить функциональное программирование без использования таких понятий, как «монады», «неизменность» или «побочные эффекты». Вместо этого она фокусируется на том, как размышления о композиции могут сделать вас лучшим программистом, независимо от того, какой язык вы используете.

40 лет назад, 17 октября 1977 года, премия Тьюринга была вручена Джону Бэкусу за его вклад в разработку систем программирования высокого уровня, прежде всего языка программирования Fortran. Всем лауреатам премии Тьюринга предоставляется возможность выступить с лекцией по выбранной ими теме в течение года, в котором они получили премию. Как создатель языка программирования Фортран, можно было ожидать, что Бэкус выступит с лекцией о преимуществах Фортрана и будущих разработках в этом языке. Вместо этого он прочитал лекцию под названием «Можно ли освободить программирование от стиля фон Неймана»? в котором он критиковал некоторые из основных языков того времени, включая Фортран, за их недостатки. Он также предложил альтернативу: функциональный стиль программирования.
Читать дальше →

Интерактивная визуализация данных при помощи Plotly: строим красивые графики с Express и Cufflinks

Reading time12 min
Views35K
image


Если Вы все еще используете Matplotlib для создания графиков в Python, самое время взглянуть на мир с высоты альтернативной библиотеки интерактивной визуализации.

Plotly позволяет создавать красивые, интерактивные, экспортируемые графики с помощью всего нескольких строк кода. Однако без карты подъем в гору Plotly может быть медленным и мучительным.

Вот камни преткновения, которые могут появиться на пути авантюристов, решивших покорить эту гору:

  • непонятная начальная настройка для работы оффлайн без аккаунта;
  • неимоверное количество строк кода;
  • устаревшая документация;
  • множество различных инструментов Plotly, в которых можно заблудиться (Dash, Express, Chart Studio и Cufflinks).

Несколько раз попытавшись вскарабкаться на эту гору, я все же нашел карту, снаряжение и короткую тропинку к вершине. В этой статье я укажу вам путь, рассказав как начать работу в оффлайн-режиме, как создавать графики, а потом их корректировать, куда обратиться за помощью и какими инструментами пользоваться.
Читать дальше →

Что должен знать Data Scientist про когнитивные искажения ИИ

Reading time4 min
Views5.5K
image

Проблема когнитивных искажений ИИ возникает на уровне определения, но дело не только в термине. «искажение» — это перегруженный термин, смысл которого может изменяться в зависимости от контекста.

Так, вашему вниманию могут быть представлены следующие примеры определения отклонений:

  • В статистике: искажение (bias) — это разница между ожиданием оцениваемой величины и ее значением. Такое определение жутко формально, так что позвольте мне его перевести. Искажение описывает результаты, которые систематически не соответствуют ожиданиям. Представьте себе стрельбу из лука, у которого сбит прицел. Высокий уровень искажения не означает, что вы стреляете куда угодно (в этом случае речь идет о дисперсии), суть будет заключаться в том, что даже идеальный лучник будет постоянно промахиваться. В данном контексте слово «искажение» несет в себе небольшой эмоциональный оттенок.

Читать дальше →

Философия преподавания Data Science и Deep Learning от fast.ai

Reading time7 min
Views2.4K
image

Рейчел Томас, соосновательница fast.ai, профессор USF Data Institute

Пол Локхард – кандидат наук в области математики Колумбийского университета, бывший профессор университета Брауна и учитель математики средних классов – в своем важном эссе «Плач математика» описывает ужасный мир, где детям нельзя слушать и исполнять музыку, пока они не проведут десятки лет осваивая нотную грамоту и теорию музыки, транспонируя ноты в другую тональность на своих занятиях. На уроках рисования ученики изучают цвета и кисточки, но смогут начать рисовать только в колледже. Звучит абсурдно, не так ли? Именно так и преподается математика – мы требуем от студентов тратить годы на зубрежку, изучение сухих, не связанных между собой «основ», которые, как мы утверждаем, окупятся в будущем, когда большинство уже бросят сам предмет.

К сожалению, именно здесь и начинается упоминание некоторых из немногих ресурсов по глубокому обучению; обучающихся просят знать определение Гессиана и теоремы разложения в ряд Тейлора для функции потерь, но при этом никогда не приводят примеры фактически работающего кода. Я не виню математику. Напротив же, я люблю математику и даже преподавал её на уровне колледжа, однако не считаю, что это можно назвать хорошим или полезным введением в глубокое обучение.
Читать дальше →

10 ошибок, которые я допустил как Data Scientist

Reading time6 min
Views11K
image

Работать в области data science бывает тяжко, но оно того стоит и, к тому же, приносит хороший доход. Некоторые действия преумножают нашу эффективность (например, отказ от использования Slack). Бездействие порой тоже бывает полезным. Ниже я расскажу о своих ошибках, которые препятствовали развитию либо моей карьеры, либо моей компании.

Непонимание того, что в Data Science существуют различные типы задач


Как-то я пришел в компанию в качестве «data scientist», рассчитывая, что буду заниматься прогнозным моделированием. Но в итоге я писал внутренний код приложения. Я ошибся.

Моя предыдущая деятельность в data science была связана исключительно с построением моделей, и я ошибочно полагал, что и новые обязанности будут аналогичными.

Множество видов задач и работ скрывается под эгидой data science. Добавьте к этому неразборчивые должностные инструкции и получите рецепт приготовления превосходной путаницы.
Читать дальше →

Память в JavaScript — без утечек

Reading time6 min
Views7.8K
image


То, как вы создаете и получаете доступ к своим данным, может повлиять на производительность вашего приложения. Посмотрим как.

Вступление


JavaScript — это язык очень высокого уровня. Таким образом, большинство разработчиков не задумываются о том, как данные хранятся в памяти. В этой статье мы рассмотрим, как данные хранятся в памяти, как они влияют на процессор и память и как способ, которым вы распространяете данные в JS и обращаетесь к ним, влияет на производительность.

Любовный треугольник


Когда компьютеру необходимо выполнить некоторые вычисления, процессору (ЦП) нужны данные для обработки. Таким образом, в соответствии с поставленной задачей он отправляет в память запрос на выборку данных через шину.

Это выглядит так:

image

Так что это наш романтический треугольник — Процессор -> Шина -> Память
Читать дальше →

Как создать свой первый open source проект на Python (17 шагов)

Reading time10 min
Views50K
Каждый разработчик ПО должен знать как создать библиотеку с нуля. В процессе работы Вы можете многому научиться. Только не забудьте запастись временем и терпением.

Может показаться, что создать библиотеку с открытым исходным кодом сложно, но Вам не нужно быть потрепанным жизнью ветераном своего дела, чтобы разобраться в коде. Также как Вам не нужна мудреная идея продукта. Но точно понадобятся настойчивость и время. Надеюсь, что данное руководство поможет Вам создать первый проект с минимальной затратой и первого, и второго.

В этой статье мы пошагово разберем процесс создания базовой библиотеки на Python. Не забудьте заменить в приведенном ниже коде my_package, my_file и т.п. нужными вам именами.

Шаг 1: Составьте план


Мы планируем создать простую библиотеку для использования в Python. Данная библиотека позволит пользователю легко конвертировать блокнот Jupyter в HTML-файл или Python-скрипт.
Первая итерация нашей библиотеки позволит вызвать функцию, которая выведет определенное сообщение.

Теперь, когда мы уже знаем, что хотим делать, нужно придумать название для библиотеки.
Читать дальше →

Data Science «на пальцах». Статистика — это наука менять свой взгляд на вещи в условиях неопределенности

Reading time8 min
Views8.5K
Сотрудница Google объясняет статистику «на пальцах» для «гуманитариев», которые хотят стать Data Scientists.

image

Что такое статистика? Какой-то устаревший способ погрязнуть в данных. Ага. На 100% технически правильное определение. Теперь давайте посмотрим, что есть статистика как дисциплина.

Статистика — это наука о том, как менять свои представления.

Принимать решения, основываясь на фактах (параметрах), и так достаточно сложно, но — проклятие! — иногда у нас даже фактов нужных нет. Вместо этого то, что мы знаем (выборка), отличается от того, что мы хотели бы знать (совокупность). Вот что значит попасть в неопределенность.

Статистика — это наука о том, как менять свои решения в условиях неопределенности. Как вы можете думать? Выбирать действия по умолчанию или следовать по пути априорных убеждений. Но что делать, если у вас в голове чистый лист? Почитайте лучше это.

Байесианцы меняют свое мнение насчет представлений.

Байесовская статистика — это школа мысли, которая использует данные, чтобы обновить ваше представление. Байесианцы предпочитают сообщать результаты, используя доверительный интервал (два числа, которые интерпретируются как “Я считаю, что ответ находится где-то между этим и этим”).
Читать дальше →

Советы начинающим веб-разработчикам

Reading time3 min
Views5.7K
Я занимаюсь созданием сайтов в том или ином виде с 1995 года. После 25 лет работы, думаю, что накопил опыта и теперь располагаю достаточными знаниями. Ниже в произвольном порядке изложено несколько моментов, о которых я бы хотел, чтобы начинающие разработчики поразмыслили.

  • Порой сайт — это всего лишь сайт.
  • Браузер уже является клиентом; HTML — это язык, на котором он разговаривает.
  • Веб строится вокруг визуализации на стороне сервера.
  • Вы можете предоставить данные несколькими способами; рассмотрите HTML как один из способов представления данных.
  • Масштабирование на стороне вашего сервера поможет всем, в то время как масштабирование на стороне клиента, помогает только тем, у кого мощное железо и быстрое соединение.
  • Не каждый имеет (или может использовать) мышку.
  • Не каждый имеет (или может использовать) клавиатуру.
  • Не каждый имеет (или может использовать) тачскрин.
  • Не у каждого цвета и картинки отображаются так же, как и у вас.
Читать дальше →

Что я узнал после более чем 1000 code review

Reading time4 min
Views17K
За последние 3 года я рассмотрел более 1000 pull (merge) request’ов. За это время я многому научился — в основном тому, как не проверять код, как сделать процесс менее болезненным, что делает код хорошего качества и так далее.

Pull request должен делать только одну вещь


Это самая важная вещь, на которую стоит обратить внимание.

Делая code review, вы должны держать в голове много вещей. «Что за этим стоит?», «Как это согласуется с остальной частью кода?» и «Будет ли это хорошо работать?» Вот лишь некоторые из вопросов, на которые нужно ответить. Таким образом, когда у вас есть pull request, который пытается решить одну проблему, на некоторые из этих вопросов легче ответить.

Другим важным аспектом является размер pull request’а. Большие запросы требуют экспоненциально больше времени для рассмотрения. И когда я узнаю, что мне нужно потратить более 15 минут на запрос, вам придется подождать до пары часов.
Читать дальше →

7 способов, как Data Scientists пытаются вас обмануть

Reading time6 min
Views4.2K
image

Иногда, люди продающие вам “искусственный интеллект” или “машинное обучение” могут вводить вас в заблуждение. В этой статье я поделюсь 7 простыми принципами, которые позволят избежать этого.

Неважно кем вы являетесь: руководителем фирмы, крупным предпринимателем, бизнес-ангелом, средним звеном в компании, судьей на хакатоне или человеком, кто хоть как-то связан с “техникой”. Рано или поздно кто-то обязательно попытается “продать” вам “ПО для машинного обучения”, “продукт с использованием ИИ” или еще какую-нибудь смесь из модных словечек. Когда вы оказываетесь в такой ситуации, может показаться, что у вас недостаточно знаний и опыта для принятия правильного решения. Не теряйте голову! Ниже приведены 7 критериев, которые позволят отличить стоящий продукт от пустышки. Они помогут вам не обращать внимание на лапшу, которую вам будут вешать на уши, и понять истинную ценность продукта.
Читать дальше →

Новые фичи в Python 3.9

Reading time4 min
Views32K
Обзор лучших функций, включенных в последнюю итерацию Python.

image

Пришло время, выход новой версии Python неизбежен. Сейчас она в бета-версии (3.9.0b3), но скоро мы увидим полную версию Python 3.9.

Некоторые из новейших функций невероятно интересные, и будет восхитительно видеть их использование после релиза. Мы рассмотрим следующее:

  • Операторы объединения словарей
  • Тайп хинтинг
  • Два новых строковых метода
  • Новый Python Parser — это очень круто

Давайте сначала рассмотрим новые функции и то, как мы их будем использовать.

Объединение словарей


Одна из новых и уже моих любимых фич с синтаксисом. Если у нас есть два словаря a и b, которые нам нужно объединить, мы теперь используем операторы объединения.

У нас есть оператор слияния “|”:

a = {1: 'a', 2: 'b', 3: 'c'}
b = {4: 'd', 5: 'e'}
c = a | b
print(c)

[Out]: {1: 'a', 2: 'b', 3: 'c', 4: 'd', 5: 'e'}

И оператор обновления “|=”, который обновляет исходный словарь:

a = {1: 'a', 2: 'b', 3: 'c'}
b = {4: 'd', 5: 'e'}
a |= b
print(a)

[Out]: {1: 'a', 2: 'b', 3: 'c', 4: 'd', 5: 'e'}

Если наши словари имеют общий ключ, будет использована пара ключ-значение из второго словаря:

a = {1: 'a', 2: 'b', 3: 'c', 6: 'in both'}
b = {4: 'd', 5: 'e', 6: 'but different'}
print(a | b)

[Out]: {1: 'a', 2: 'b', 3: 'c', 6: 'but different', 4: 'd', 5: 'e'}
Читать дальше →

В чем разница между Data Analytics и статистикой

Reading time5 min
Views7.4K
Разбираемся в ценности двух совершенно разных профессий.

image

Статистика и аналитика это два раздела дата сайнс, у которых было много предшественников. Люди до сих пор спорят о том, где проходит граница между ними. На практике современные программы обучения, которые содержат в названиях эти термины, разбирают совершенно разные задачи. Аналитики специализируются на изучении ваших данных, а статистики уделяют больше внимания выводам, которые можно сделать на основе этих данных.

Disclaimer: Эта статья о типичных выпускниках учебных программ, в которых преподают только статистику или только аналитику. Я не хочу задеть тех, кто каким-то образом смог освоить и то и другое. На самом деле лучшие датасаентисты должны иметь отличные знания и в статистике, и в аналитике (и в машинном обучении само собой). Вы удивитесь, но такие специалисты встречаются, правда очень редко.

Человеческие поисковые системы


Когда вы располагаете всеми фактами касательно вашей деятельности, единственная квалификация, которая вам нужна, это здравый смысл. Он позволяет вам задавать вопросы о данных и отвечать на них. Просто поищите ответ.

Хотите прямо сейчас увидеть базовую аналитику в действии? Попробуйте загуглить прогноз погоды. Каждый раз, когда вы пользуетесь поисковой системой, вы занимаетесь базовой аналитикой. Вы получаете данные о погоде и смотрите на них.
Читать дальше →

Крутые Data Scientist не тратят время на статистику

Reading time3 min
Views6.9K
image

Недавно я узнала, что один мой хороший друг получил докторскую степень по статистике, при этом он даже никогда не думал над вопросом: а какой собственно прок от статистики? О боже. Если не знаешь — для чего, тогда и не знаешь — нужно ли оно тебе. И раз профессорам это не очевидно, посмотрим, что смогу сделать я.

Статистика — это наука о том, как принимать решения в условиях неопределенности. Как вы можете думать? Следовать стандартным действиям или идти по пути априорных убеждений. Но что делать, если ваш разум не определился? Что если у вас еще не сложилось на этот счет никакого мнения?

Просто руководствуйтесь своими предположениями (это такой причудливый способ сказать, что “лучшая догадка строится на ваших знаниях”). Как это сделать? Посмотрите на данные, и скажите, что там. Это называется аналитикой (или data-mining), а если вам когда-нибудь доводилось пользоваться электронными таблицами, то вы наверняка уже ответили на вопрос. Дело в том, что ваше чутье поможет сделать правильную оценку и, соответственно, выбор. Поэтому всякая необходимость в сложных математических расчетах попросту отпадает.

«Но я ведь могу и ошибаться!» Конечно, ошибка не исключена, это и значит — попасть в неопределенность. В мире нет такой математики, благодаря которой можно было бы прийти к уверенному ответу. Ваша лучшая догадка может оказаться ошибочной, но тем не менее, раз это ваше лучшее предположение, на фоне него все остальные неправильны и даже скорее ошибочны.

Так что, сколько бы данных у вас не было, просто следуйте своей интуиции.

«Подождите, но мне нужно знать, достаточно ли у меня данных?» — Правда? А достаточно для чего?
Читать дальше →

Как стать Data Scientist без онлайн-курсов

Reading time4 min
Views26K
image

Это всего лишь мое мнение. Если у вас есть контраргументы, пожалуйста, напишите их в комментариях.

Хотите стать data scientists?

Я познакомился с более 50-ю data scientists и с еще парочкой поработал лично.

Здесь я расскажу, как эти люди пришли в Data Science. Без онлайн-курсов.

1. Решите задачу с помощью машинного обучения


Выберите реальную проблему, и решите ее с помощью машинного обучения.

Сделать это нелегко, так как нет готового плана действий. Но вне зависимости, преуспеете вы в этом деле или нет, благодаря полученному опыту и истории, впоследствии вы сможете продать себя гораздо дороже.

Вот примеры задач, которые вы можете попробовать разрешить:

  • Распознавание фейковых новостей
  • Прогнозирование стоимости жилья в вашем районе
  • Подбор домашних питомцев в зависимости от образа жизни потенциальных хозяев

Если ваш решатель заработает (или даже почти сработает), создайте пользовательский интерфейс, которым можно будет пользоваться, и опубликуйте его на Hacker News или Product Hunt.

Добавьте строку с названием «Data Scientist» в резюме. Если получилось решить проблему машинного обучения, никому и дела не будет, что это было всего лишь шоу одного актера.

Теперь вам есть, что рассказать на собеседовании, и такая история будет иметь гораздо больший вес, нежели сертификат об окончании онлайн курсов.
Читать дальше →

Information

Rating
Does not participate
Location
Россия
Registered
Activity