Обновить

Компания Skillfactory временно не ведёт блог на Хабре

Сначала показывать

Руководство для начинающих: создаем DevOps-пайплайн

Время на прочтение9 мин
Охват и читатели30K
Если вы новичок в DevOps, взгляните на эту инструкцию по созданию вашего первого конвейера из пяти этапов.

image


DevOps стал стандартным решением для исправления медленных, разобщенных или неработоспособных процессов разработки программного обеспечения. Проблема в том что, если вы новичок в DevOps и не знаете, с чего начать, то вам может не хватать понимания этих методов. В этой статье речь пойдет об определении DevOps-конвейера, а также будет предложена инструкция по его созданию из пяти шагов. Несмотря на то, что это учебное пособие не является исчерпывающим, оно должно дать вам основу для того, чтобы начать свой путь и расширить свои познания в будущем. Но начнем с истории.

Мое путешествие по DevOps


Раньше я работал в облачной команде Citi Group, разрабатывая веб-приложение Infrastructure-as-a-Service (IaaS) для управления облачной инфраструктурой Citi, но меня всегда интересовало, как сделать процесс развития более эффективным и привнести позитивные культурные изменения в команду разработчиков. Ответ я нашел в книге, рекомендованной Грегом Лавендером (Greg Lavender), техническим директором Citi по облачной архитектуре и инфраструктуре. Книга называлась «Проект Феникс» (The Phoenix Project), и в ней объясняются принципы DevOps, при этом она читается как роман.

В таблице на обороте книги показано, как часто различные компании развертывают свои системы в среде для выпуска релизов:

Amazon: 23 000 в день
Google: 5 500 в день
Netflix: 500 в день
Facebook: Раз в день
Twitter: 3 раза в неделю
Типичная компания: Раз в 9 месяцев

Как вообще возможны частоты Amazon, Google и Netflix? Все потому, что эти компании придумали, как сделать почти идеальный DevOps-конвейер.
Читать дальше →

Чеклист для проекта по машинному обучению

Время на прочтение5 мин
Охват и читатели6K
image

В этом посте я собрал чеклист, на который я постоянно ссылаюсь, работая над комплексным проектом по машинному обучению.

Зачем мне вообще нужен чеклист?

Поскольку вам необходимо иметь дело с многочисленными элементами проекта (подготовка, вопросы, модели, подстройка и т. д.), Легко потерять след. Он проведет вас через следующие шаги и подтолкнет вас к проверке, было ли выполнено каждое задание успешно или нет.

Иногда мы пытаемся найти отправную точку, чеклист помогает вам извлечь правильную информацию (данные) из правильных источников, чтобы установить отношения и раскрыть корреляционные идеи.

Рекомендуется, чтобы каждая часть проекта проходила парадигму проверок.

Как говорит Атул Гаванде в своей книге ”The Checklist Manifesto”,
объем и сложность того, что мы знаем, превзошли нашу индивидуальную способность правильно, безопасно и надежно предоставлять свои преимущества.
Итак, позвольте мне провести вас по этому четкому и краткому списку действий, которые уменьшат вашу рабочую нагрузку и улучшат ваши результаты…

Чеклист проектов по машинному обучению

Читать дальше →

Двоичное‌ ‌кодирование‌ ‌вместо‌ ‌JSON

Время на прочтение6 мин
Охват и читатели17K
Кодируйте‌ ‌одни‌ ‌и‌ ‌те‌ ‌же‌ ‌данные‌ ‌гораздо‌ ‌меньшим‌ ‌количеством‌ ‌байт.‌ ‌

image

Почему‌ ‌меня‌ ‌это‌ ‌должно‌ ‌волновать ‌


Данные‌ ‌хранятся‌ ‌в‌ ‌памяти‌ ‌в‌ ‌виде‌ ‌структур‌ ‌данных,‌ ‌таких‌ ‌как‌ ‌объекты,‌ ‌списки,‌ ‌массивы‌ ‌и‌ ‌т.д.‌ ‌Но‌ ‌если‌ ‌вы‌ ‌хотите‌ ‌отправить‌ ‌данные‌ ‌по‌ ‌сети‌ ‌или‌ ‌в‌ ‌файле,‌ ‌вам‌ ‌нужно‌ ‌закодировать‌ ‌их‌ ‌в‌ ‌виде‌ ‌последовательности‌ ‌байтов.‌ ‌Перевод‌ ‌из‌ ‌представления‌ ‌в‌ ‌памяти‌ ‌в‌ ‌последовательность‌ ‌байтов‌ ‌называется‌ ‌кодированием,‌ ‌а‌ ‌обратное‌ ‌преобразование‌ ‌–‌ ‌декодированием.‌ ‌Со‌ ‌временем‌ ‌схема‌ ‌данных,‌ ‌обрабатываемых‌ ‌приложением‌ ‌или‌ ‌хранящихся‌ ‌в‌ ‌памяти,‌ ‌может‌ ‌эволюционировать,‌ ‌туда‌ ‌могут‌ ‌добавляться‌ ‌новые‌ ‌поля‌ ‌или‌ ‌удаляться‌ ‌старые.‌ ‌Следовательно,‌ ‌используемая‌ ‌ кодировка‌ ‌должна‌ ‌иметь‌ ‌как‌ ‌обратную‌ ‌(новый‌ ‌код‌ ‌должен‌ ‌быть‌ ‌способен‌ ‌читать‌ ‌данные,‌ ‌написанные‌ ‌старым‌ ‌кодом),‌ ‌так‌ ‌и‌ ‌прямую‌ ‌(старый‌ ‌код‌ ‌должен‌ ‌быть‌ ‌способен‌ ‌читать‌ ‌данные,‌ ‌написанные‌ ‌новым‌ ‌кодом)‌ ‌совместимость.‌ ‌

В‌ ‌этой‌ ‌статье‌ ‌мы‌ ‌обсудим‌ ‌различные‌ ‌форматы‌ ‌кодирования,‌ ‌выясним‌ ‌почему‌ ‌двоичное‌ ‌кодирование‌ ‌лучше,‌ ‌чем‌ ‌JSON‌ ‌и‌ ‌XML,‌ ‌и‌ ‌как‌ ‌методы‌ ‌двоичного‌ ‌кодирования‌ ‌поддерживают‌ ‌изменения‌ ‌в‌ ‌схемах‌ ‌данных.‌ ‌

Типы‌ ‌форматов‌ ‌кодирования‌


Существует‌ ‌два‌ ‌типа‌ ‌форматов‌ ‌кодирования:‌ ‌

  • Текстовые‌ ‌форматы‌ ‌
  • Двоичные‌ ‌форматы‌
‌ ‌
Читать дальше →

Гайд по DevOps для начинающих

Время на прочтение11 мин
Охват и читатели98K
В чем важность DevOps, что он означает для ИТ-специалистов, описание методов, фреймворков и инструментов.

image

Многое произошло с тех пор, как термин DevOps закрепился в IT-мире. С учетом того, что большая часть экосистемы имеет открытый исходный код, важно пересмотреть, почему это началось и что это значит для карьеры в IT.

Что такое DevOps


Хотя нет единого определения, я считаю, что DevOps — это технологическая структура, которая обеспечивает взаимодействие между командами разработчиков и операционными командами для более быстрого развертывания кода в производственных средах с возможностью повторения действий и автоматизации. Остаток статьи мы потратим на распаковку этого утверждения.

Слово «DevOps» является объединением слов «разработка» (development) и «операции» (operations). DevOps помогает увеличить скорость доставки приложений и услуг. Это позволяет организациям эффективно обслуживать своих клиентов и становиться более конкурентоспособными на рынке. Проще говоря, DevOps — это согласованность между разработкой и ИТ-операциями с более эффективным взаимодействием и сотрудничеством.
Читать дальше →

На смену Data Science. HASH: бесплатная онлайн-платформа для моделирования мира (от создателя StackOverflow)

Время на прочтение12 мин
Охват и читатели5.8K
image

Джоел Спольски


Иногда, когда вы пытаетесь понять, как устроен мир, базовой математики достаточно. Если мы увеличим поток горячей воды на x, температура смеси повысится на y.

Иногда вы работаете над более сложными вещами, и даже не можете начать гадать как входные данные влияют на выходные. На складе, кажется, все идет хорошо, когда у вас меньше четырех сотрудников, но когда Вы берете пятого, они начинают наступать друг другу на пятки, и пятый не приносит никакой пользы.

Вы можете не понимать зависимость между количеством сотрудников и пропускной способностью склада, но вы определенно знаете, что делает каждый из сотрудников. Вы можете написать немного кода на JavaScript для моделирования поведения каждого из ваших работников, запустить симуляцию и посмотреть, что на самом деле происходит. Вы можете настроить параметры и правила, которым следуют сотрудники, чтобы увидеть что может помочь, и вы действительно можете получить некоторое понимание ситуации, а затем и решение сложных проблем.

Вот что такое hash.ai. Прочитайте пост о запуске в блоге Дэвида, а затем попробуйте создать свои собственные симуляции!

Использование C и C++ в Data Science для новичков

Время на прочтение11 мин
Охват и читатели27K
Решим классическую задачу Data Science на C99 и C++11.

В то время как такие языки как Python и R становятся все более популярными для науки о данных, C и C++ могут быть сильным выбором для эффективного решения задач в Data Science. В этой статье мы будем использовать C99 и C++11 для написания программы, работающей с квартетом Энскомба, о котором я расскажу далее.

О своей мотивации к постоянному изучению языков я написал в статье, посвященной Python и GNU Octave, которую стоит прочитать. Все программы предназначены для командной строки, а не для графического интерфейса пользователя (GUI). Полные примеры доступны в репозитории polyglot_fit.

Задача по программированию


Программа, которую вы напишете в этой серии:

  • Считывает данные из CSV-файла
  • Интерполирует данные прямой линией (т.е., f(x)=m ⋅ x + q).
  • Записывает результат в файл изображения
Читать дальше →

TED: Как устроено цифровое правительство Эстонии

Время на прочтение7 мин
Охват и читатели21K
image

Я из Эстонии, и мы декларируем налоги онлайн с 2001 года. Мы используем цифровую идентификацию и подпись с 2002 года. Мы голосуем онлайн с 2005 года. На сегодня у нас бóльший спектр государственных услуг чем вы можете представить: образование, полиция, правосудие, основание компаний, подача заявок на пособия, поиск вашей медицинской карты или оспаривание парковочного талона — это всё делается онлайн. Проще сказать вам, какие три вещи мы всё ещё не можем сделать онлайн. Мы должны прийти, чтобы получить удостоверение личности, чтобы вступить в брак или развестись, или продать недвижимость. Вот и всё. Я не схожу с ума, когда говорю вам, что каждый год я не могу дождаться, чтобы начать заполнять свою налоговую декларацию.

Поскольку всё, что мне нужно сделать, — это, сидя на диване с мобильным телефоном, пролистать несколько страниц с уже готовыми данными по доходам и вычетам и нажать на «Подтвердить». Через три минуты я уже вижу сумму налоговых возвратов. Это очень приятное чувство. Ни налоговых консультантов, ни сбора квитанций, никаких подсчётов. Я в глаза не видела государственную канцелярию около семи лет.

Цель поста — обсудить систему электронного правительства с точки зрения разработки и внедрения


Собираем think tank на тему governmet as a service в телеграм-канале @GaaS

Генеративная зоология с нейронными сетями

Время на прочтение4 мин
Охват и читатели5.2K
image

Пару лет назад в моем списке для чтения появилась статья под названием «Прогресс и развитие GAN для улучшения качества, стабильности и повышения вариации». В ней описывается постепенный рост генеративно-состязательных сетей, начинавших с создания изображений с низким разрешением и повышавших степень детализации по мере продолжения обучения. Этой теме было посвящено множество публикаций, поскольку авторы использовали свою идею для создания реалистичных и уникальных изображений человеческих лиц.

image

Примеры изображений, созданных GAN

Глядя на эти изображения, кажется, что другим нейронным сетям потребуется изучить множество примеров, чтобы иметь возможность создавать то, что выдают GAN. Некоторые факторы кажутся относительно простыми и обоснованными фактически – например, что цвет обоих глаз должен совпадать. Но другие аспекты фантастически сложны, и их очень трудно сформулировать. Так, например, какие детали необходимы для того, чтобы связать воедино глаза, рот и кожу в целостное изображение лица? Конечно, я говорю о статистической машине как о человеке, и наша интуиция может нас обмануть — может оказаться, что рабочих вариаций относительно мало, а пространство решений более ограничено, чем мы себе представляем. Наверное, самое интересное – это не сами образы, а то жуткое воздействие, которое они оказывают на нас.

Ник Бостром: Как уничтожить цивилизацию

Время на прочтение11 мин
Охват и читатели11K
image

Крис Андерсон: Ник Бостром, Вы уже делились с нами своими безумными идеями. Пару десятилетий назад, как мне помнится, вы предположили, что мы будем жить в симуляции или мы уже в ней. А относительно недавно вы представили самый наглядный пример того, как может навредить всеобщий искусственный интеллект. И уже в этом году вы собираетесь издавать книгу с самыми уязвимыми мировыми гипотезами. И сегодняшний выпуск должен стать иллюстрированным руководством к ней. Давайте начнём. Что это за гипотезы?

Ник Бостром: Это попытка осмысления структурных компонентов текущего состояния человечества. Вам нравится метафора про урну, поэтому я использую её. Представьте большу́ю урну, наполненную шарами, которые представляют собой идеи, методы и всевозможные технологии. Всю творческую деятельность человечества можно сравнить с погружением в эту урну и вытаскиванием оттуда шариков. И долгие годы мы всегда получали только пользу от этого, верно? Мы изъяли слишком много белых шаров, несколько с оттенками серого, с неоднозначными последствиями. Но нам так давно не попадался чёрный шар — технология, которая непременно уничтожит своих создателей. В книге содержатся версии того, что́ будет внутри чёрного шара.

КА: То есть, вы определяете этот шар как причину гибели цивилизации.

НБ: Пока мы не выйдем из своего стандартного состояния полуанархии, как я это называю.

КА: В качестве доказательства вы приводите несколько контрпримеров. Вы убеждены, что нам везло на протяжении многих лет. И возможно мы, сами того не подозревая, уже вытянули этот шар смерти. Также вы приводите цитату. Что она означает?

Бенуа Мандельброт на TED: «Фракталы и искусство изломов»

Время на прочтение9 мин
Охват и читатели9.2K
image

Большое спасибо. Прошу прощения за то, что я сижу. Я очень старый человек.

Моя сегодняшняя тема в определённом смысле весьма особенная, потому что она очень древняя. Изломы – неотъемлемая часть человеческой жизни, они есть всегда. Об этом писали древние. Эта вещь по большей части нам неподконтрольна. И в каком-то смысле они кажутся крайней степенью усложнения – просто сплошной беспорядок.

Есть много видов беспорядка. Так вот, по чистой случайности много лет назад я стал заниматься этой формой усложнения, и, к моему полному удивлению, я нашёл признаки, и, должен сказать, весьма чёткие признаки порядка в изломах. А потому сегодня я хотел бы представить вам несколько примеров того, что это значит. Я предпочитаю слово «изломанность» слову «неровность» потому, что для того, кто изучал латынь, как и я в своей далёкой молодости, неровность – это противоположность ровности. Но ведь это не так.

Ровность есть противоположное к изломанности, потому что мир по большей части предстаёт нам как полный изломов.

Python для начинающих: как повелевать Web’ом

Время на прочтение8 мин
Охват и читатели25K
Путешествие в простую веб-автоматизацию

image

Проблема: Отправка домашних заданий требует навигации по лабиринту веб-страниц, настолько сложной, что несколько раз я отправлял задание в неправильное место. Кроме того, хоть и этот процесс занимает всего 1–2 минуты, иногда он кажется непреодолимым препятствием (например, когда я закончил задание слишком поздно ночью и едва могу вспомнить свой пароль).

Решение: Используйте Python для автоматической отправки выполненных заданий! В идеале я мог бы сохранить задание, набрать несколько клавиш и загрузить свою работу за считанные секунды. Сначала это звучало слишком хорошо, чтобы быть правдой, но потом я обнаружил Selenium, инструмент, который можно использовать с Python для навигации по сети.
Читать дальше →

Математические расчёты, стоящие за феноменом роллинг-шаттера

Время на прочтение4 мин
Охват и читатели22K
image

Помню, как однажды увидел фотографию выше на Flickr и сломал мозг, пытаясь понять, что с ней не так. Дело было в том, что пропеллер вращался в то время, когда датчик движения в камере «считывал показания», то есть во время экспозиции камеры происходило какое-то движение. Об этом действительно стоит подумать, давайте-ка подумаем вместе.

Многие современные цифровые камеры используют КМОП-матрицу в качестве своего «чувствительного» устройства, также известную как активный датчик пикселей, который работает путем накопления электронного заряда при падении на него света. По истечении определенного времени – времени экспозиции – заряд построчно перемещается обратно в камеру для дальнейшей обработки. После этого камера сканирует изображение, построчно сохраняя ряды пикселей. Изображение будет искажено, если во время съемки присутствовало хоть какое-то движение. Для иллюстрации представьте съемку вращающегося пропеллера. В анимациях ниже красная линия соответствует текущему положению считывания, и пропеллер продолжает вращаться по мере считывания. Часть под красной линией – это полученное изображение.

Первый пропеллер совершает 1/10 оборота во время экспозиции:

image


Подписывайтесь на каналы:
@Ontol — самые интересные тексты/видео всех времен и народов, влияющие на картину мира
@META LEARNING — где я делюсь своими самыми полезными находками про образование и роль ИТ/игр в образовании (а так же мыслями на эту тему Антона Макаренко, Сеймура Пейперта, Пола Грэма, Джозефа Ликлайдера, Алана Кея)

Учебный проект на Python: интерфейс в 40 строк кода (часть 2)

Время на прочтение4 мин
Охват и читатели15K
image

Демонстрация проекта Python с пользовательским интерфейсом никогда не была такой простой. С помощью Streamlit Framework вы можете создавать браузерный пользовательский интерфейс, используя только код Python. В этой статье мы будем создавать пользовательский интерфейс для программы лабиринта, подробно описанной в предыдущей статье.

Streamlit


Streamlit — это веб-фреймворк, предназначенный для исследователей данных для простого развертывания моделей и визуализаций с использованием Python. Это быстро и минималистично, а также красиво и удобно. Есть встроенные виджеты для пользовательского ввода, такие как загрузка изображений, ползунки, ввод текста и другие знакомые элементы HTML, такие как флажки и переключатели. Всякий раз, когда пользователь взаимодействует с потоковым приложением, сценарий python перезапускается сверху вниз, что важно учитывать при рассмотрении различных состояний вашего приложения.
Вы можете установить Streamlit с помощью pip:

pip install streamlit

И запустите streamlit в скрипте Python:

streamlit run app.py

Варианты использования


В предыдущей статье мы создали программу на Python, которая будет проходить лабиринт, учитывая файл изображения и начальное/конечное местоположения. Мы хотели бы превратить эту программу в одностраничное веб-приложение, где пользователь может загрузить изображение лабиринта (или использовать изображение лабиринта по умолчанию), настроить начальное и конечное местоположение лабиринта и увидеть пройденный лабиринт.
Читать дальше →

Учебный проект на Python: алгоритм Дейкстры, OpenCV и UI ( часть 1)

Время на прочтение4 мин
Охват и читатели25K
Лабиринты — это распространенная головоломка для людей, но они представляют из себя интересную задачу для программирования, которую мы можем решить, используя методы кратчайшего пути, такие как алгоритм Дейкстры.

Вспоминаем алгоритм Дейкстры


Алгоритм Дейкстры — один из наиболее популярных алгоритмов теории графов. Он используется для поиска кратчайшего пути между узлами на ориентированном графе. Мы начнем с исходного узла и известных длин ребер между узлами.

Сначала мы присваиваем значение расстояния от источника всем узлам. Узел s получает значение 0, потому что это источник; остальные получают значения ∞ для начала.

image

Наш интересующий узел — это необработанный узел с наименьшим значением (показан серым), то есть s. Сначала мы «ослабляем» каждую смежную вершину до нашего интересующего узла, обновляя их значения до минимума их текущего значения или значения узла интереса плюс длину соединительного ребра…
Читать дальше →

Ближайшие события

Онтол от DeepMind: самые полезные материалы по искусственному интеллекту от мирового лидера

Время на прочтение13 мин
Охват и читатели11K
image


Ученые из DeepMind составили Curated Resource List образовательных материалов для тех, кто хочет связать свою жизнь с ИИ и машинным обучением. Я называю такую подборку «онтол» — список того, что формирует картину мира по данному вопросу, ранжированный по важности и составленный живым человеком, специалистом, который несёт репутационную ответственность за этот список (чтобы не было в нём маркетинговой и ангажированной фигни).

По задумке, если десяток лучших компаний в области ИИ попросят своих ведущих специалистов (каждого) сделать подборку лучших материалов, которые сформировали их как специалистов, то мы получим массив подборок (список топ-10/100 ресурсов+имя составителя) и на основе этого можно будет делать интересные выводы ( а)по качеству материалов, что следует учить в первую очередь б) по качеству специалистов, которые могут выделять главное в)что-то ещё). Так мы «разметим» все открытые тексты/видео в области ИИ. Потом возьмемся за другие темы: еда, доверие, дело жизни, семья, сотрудничество, когнитивные искажения и прочее — то, что формирует картину мира.

Тестируйте прототип beta.ontol.org и подписывайтесь на канал @Ontol

Оглавление


Этика
Safety
Теория и фундаментальные понятия
Neuroscience
Natural Language Processing
Machine Learning
Deep Learning
Reinforcement Learning
Unsupervised Learning and Generative Models
Прочее
Читать дальше →

Датасет — это просто тест Роршаха (вы видите то, что хотите увидеть)

Время на прочтение6 мин
Охват и читатели8.5K
Опасность апофении в аналитике и способы ее предотвратить. Между ложью и историями, в которых фигурируют данные, очень тонкая грань.

Психологическая ловушка в аналитике данных


Мозг человека обладает удивительной способностью во всем находить паттерны… но у этих паттернов обычно мало общего с реальностью. Мы можем увидеть образ кролика в облаке или лицо Элвиса в картофельных чипсах.

image

Видишь кролика и профиль Элвиса?

Подумайте о тесте Роршаха — людям показывают разные кляксы и спрашивают, что они видят. Вы не поверите насколько охотно наш разум находит ложные интерпретации случайных наборов данных.

image

Летучая мышь? Бабочка? Обычная клякса? Это одна из 10 карт теста Роршаха, созданная в 1921 году.

У психологов есть красивое название этому явлению: апофения. Дайте людям хоть какой-то стимул и они найдут вам не только лица и бабочек, но и причину выделить бюджет на ваш любимый проект или запустить систему искусственного интеллекта.
Читать дальше →

8 трюков в Python, используемых опытными программистами

Время на прочтение5 мин
Охват и читатели19K
image

Вот восемь изящных приемов Python, которые, я уверен, вы еще не видели. Примените эти приемы в своем коде на Python, чтобы сделать его более лаконичным и производительным!

1. Сортировка объектов по нескольким ключам


Предположим, мы хотим отсортировать следующий список словарей:

people = [
{ 'name': 'John', "age": 64 },
{ 'name': 'Janet', "age": 34 },
{ 'name': 'Ed', "age": 24 },
{ 'name': 'Sara', "age": 64 },
{ 'name': 'John', "age": 32 },
{ 'name': 'Jane', "age": 34 },
{ 'name': 'John', "age": 99 },
]

Но мы не просто хотим сортировать их по имени или возрасту, мы хотим отсортировать их по обоим полям. В SQL это будет такой запрос:

SELECT * FROM people ORDER by name, age

На самом деле существует очень простое решение этой проблемы, благодаря гарантии Python, что функции сортировки обеспечивают устойчивость сортировки. Это означает, что элементы, которые сравниваются, сохраняют свой первоначальный порядок.
Читать дальше →

Самая важная идея в Data Science

Время на прочтение7 мин
Охват и читатели5.5K

Советы по отделению отвлекающих факторов от полезных сведений


image

Если вы пройдете вводный курс по статистике, вы поймете, что данные можно использовать для поиска вдохновения или проверки теории, но никогда и для того, и для другого. Почему так?

Люди слишком хороши в поиске закономерностей во всем. Вы сами определяете какие закономерности действительно существуют, а какие – выдуманы. Мы – существа, которые находят лицо Элвиса в картофельной чипсе. Если у вас есть соблазн приравнять закономерности к понятиям, помните, что есть три вида закономерностей:

  • Паттерны, которые существуют и в вашем наборе данных, и за его пределами.
  • Паттерны, которые существуют только в вашем наборе данных.
  • Паттерны, которые существуют только в вашем воображении (апофении).
Читать дальше →

Самое грустное уравнение в Data Science

Время на прочтение5 мин
Охват и читатели5.7K
image

Запаситесь носовыми платочками! Сейчас я расскажу вам всю правду о статистике и data science. У вас слезы на глаза навернутся, я вам обещаю.

ВЫВОД = ДАННЫЕ + ПРЕДПОЛОЖЕНИЯ. Другими словами, статистика не дает вам правду.

Распространенные мифы


Часто можно услышать следующие ошибочные представления:

  • «Если я найду правильные уравнения, я смогу узнать то, что сейчас никому неизвестно.»
  • «Если я добавлю математики в свои данные, я смогу уменьшить неопределенность.»
  • «Статистика может превращать данные в правду!»

Все это звучит как сказки, не так ли? Потому что это они и есть.

Горькая правда


Нет в мире такой магии, которая поможет вам сотворить что-то из ничего. Забудьте об этом. Статистика о другом. Поверьте мне на слово, как статистику. (В качестве бонуса эта статья сэкономит вам кучу времени, которое вы бы потратили, преследуя эту несбыточную мечту.)

К сожалению, многие шарлатаны будут пытаться убедить вас в обратном. Они будут использовать стандартный прием, «Ты не знаешь уравнений, которыми я тебя закидал, поэтому признай мое преимущество и делай как я скажу!»

Не ведитесь на слова этих позеров.
Читать дальше →

Как начинающий Data Scientist вроде меня может набраться опыта

Время на прочтение8 мин
Охват и читатели11K

Я прошел несколько курсов, а что делать дальше?


image

На днях я получил письмо от Мануэлы со следующим вопросом: «Как начинающий data scientist вроде меня может набраться опыта?»

Вопрос отличный.

За вопросом следовало: «Я закончила несколько курсов и проектов, некоторые работодатели говорили, что им нравится мое образование, но мне не хватает минимального опыта, и чтобы я писала им после его получения!».

В своем ответе я расписал несколько пунктов, которые скопирую в эту статью.

Дисклеймер: я не ищу работу. Возможно, вы хотите спросить «А почему я вообще должен слушать советы того, кто не ищет работу?»

И будете правы.

Всегда скептически относитесь к советам тем, кто не учился на собственном опыте. И вот мое пояснение: ни одна найденная мной работа мне не подходила, поэтому я создал свою собственную (на эту тему можно написать отдельную статью, но вот мой совет – не ищите работу, лучше начинайте свой бизнес).

Однако, если бы я все же искал работу (и, в свою очередь, требуемый к ней опыт), я бы сделал следующие вещи.
Читать дальше →