Обновить
3
0
Skillfactory School@skillfactory_school

Школа Computer Science

Отправить сообщение

Как искусственный интеллект борется с вредителями

Время на прочтение9 мин
Охват и читатели2.6K
Сегодня, в преддверии старта набора на новый поток курса «Machine Learning», делимся с вами переводом поста из блога PyTorch, в котором рассказывается о работе ИИ для борьбы с вредителями, который анализирует ситуацию по фотографиям феромоновых ловушек в условиях индийской глубинки, где выращивают хлопок, о применении PyTorch Mobile для развертывания моделей прямо на смартфоне в оффлайне, о сжатии моделей и, конечно, немного о том, как работать с аномальными изображениями, которые отправляют индийские фермеры.

image
Приятного чтения!

Вдохновляющие портфолио Data Science

Время на прочтение6 мин
Охват и читатели13K
image

Data Science — сложная область знания. Она в равной степени сочетает в себе математику и статистику, информатику и черную магию. С середины 2020 года Data Science быстро растет, многочисленные соискатели роятся над каждым объявлением о приеме на работу. Кроме того, бушующая пандемия, в дополнение ко всему, тянет вниз.

Старания в получении списка сертификатов об окончании курсов не продвинут вас далеко, если только у вас нет добросовестно заслуженных дипломов магистра или PhD (кандидата наук). Сертификаты массовых открытых онлайн-курсов, таких как на Coursera или eDx, хороши, но у меня нет свидетельств их большой значимости. Kaggle тоже уже не тот: его открытые соревнования — кладбище переобученных моделей, а настоящие соревнования выигрывают команды, с которыми трудно соревноваться, более того, такие соревнования в любом случае ограничены в смысле личного портфолио.

Выход всё же есть — делать собственные интересные проекты и из них собирать портфолио, которое выгодно представит вас. В данном материале представлены вдохновляющие примеры таких портфолио. Используйте их для улучшения вашего собственного портфолио Data Science, изучения новых навыков или чтобы открыть для себя интересные проекты.
Приятного чтения!

Стресс-тестер для соревнований по программированию

Время на прочтение6 мин
Охват и читатели6.5K


Во-первых, не бойтесь названия «стресс-тестер». Это просто модный термин для написанного мной служебного инструмента для соревнований по программированию. Вместо того чтобы просто дать вам код, я расскажу о стратегии и плане, которые у меня были, когда я писал этот инструмент.
Приятного чтения!

Математическое представление нейронных сетей

Время на прочтение4 мин
Охват и читатели29K
image
Продолжаем «неделю нейронных сетей». В этом посте вы узнаете о нейронных сетях на примерах математических моделей. Говоря проще, вы узнаете о том, как представить нейронные сети с помощью математических уравнений. Дата-сайентисту или исследователю машинного обучения было бы неплохо получить представление о том, как нейронные сети могут быть преобразованы в кучу математических уравнений, для вычисления различных значений. Хорошее понимание представления выходных данных функции активации различных вычислительных блоков (узлов, нейронов) в разных слоях может помочь быстрее и лучше понять алгоритм обратного распространения.

Под катом — простое и краткое введение в математическое представление нейронных сетей для интересующихся теорией практиков: от перцептрона до сети с двумя скрытыми слоями.
Приятного чтения!

Необходимый инструмент для каждого дата-сайентиста

Время на прочтение5 мин
Охват и читатели3.9K
image

Давайте посмотрим правде в глаза: обучение модели машинного обучения отнимает много времени, даже с учетом развития вычислительной техники за последние несколько лет. Даже самые тривиальные модели имеют более миллиона параметров. В масштабе крупнее у моделей бывает более миллиарда параметров — у GPT-3 их более 175 миллиардов! и обучение этих моделей занимает дни, а то и недели. Как дата-сайентисты мы хотели бы следить за метриками модели, чтобы знать, работает ли она, как мы того ожидаем. Но нет смысла сидеть рядом с компьютером, часами отслеживая показатели. Хорошо было бы получить все эти данные на телефон.

Эту задачу можно решить с помощью TensorDash — инструмента удаленного мониторинга ваших моделей машинного обучения с открытым исходным кодом, о котором и пойдет речь дальше. Под катом примеры применения TensorDash с TensorFlow, Keras, PyTorch и Fast.ai.
Приятного чтения!

Реализуем и сравниваем оптимизаторы моделей в глубоком обучении

Время на прочтение14 мин
Охват и читатели77K

Реализуем и сравниваем 4 популярных оптимизатора обучения нейронных сетей: оптимизатор импульса, среднеквадратичное распространение, мини-пакетный градиентный спуск и адаптивную оценку момента. Репозиторий, много кода на Python и его вывод, визуализации и формулы — всё это под катом.
Приятного чтения!

Адаптивный дизайн высоты

Время на прочтение7 мин
Охват и читатели32K

Возможно, вы думаете о том, почему я выбрал такой заголовок. Адаптивный дизайн высоты, серьезно? Ну, термин адаптивный веб-дизайн часто описывается как проверка браузера на нескольких вариантах ширины области просмотра и размеров устройств. Сайт всегда тестируется горизонтально — на уменьшение ширины, но я редко вижу какие-то соображения для тестирования вертикально — на уменьшение высоты. В глубине вашего сознания возникает вопрос: нужно ли уменьшать высоту браузера? Да, и я буду убеждать вас в этом здесь. Когда мы работаем над реализацией веб-сайта, делать предположения вне зависимости от данных реального мира нехорошо. Крайне важно взять на себя ответственность за тестирование как по горизонтали, так и по вертикали.
Приятного чтения!

Почему нам нужно больше Open Source Data Science

Время на прочтение8 мин
Охват и читатели3K

Почти все мы пользуемся ПО с открытым исходным кодом (Open Source Software или OSS), это часть нашей жизни. Коллективное сотрудничество в создании программного обеспечения изменило мир разработки ПО и мир вообще. Но мы не видим тех же действий в области data science. В DAGsHub мы проводим много времени, думая о open source data science (OSDS) и разговаривая с дата-сайентистами. Эта статья представляет собой краткое изложение некоторых таких бесед в нашем сообществе. Цель этой статьи — сформулировать, почему открытый исходный код является важной частью разработки программного обеспечения сегодня и выдвинуть аргумент о том, что открытость источников будет важной частью data science в ближайшем будущем.
Приятного чтения!

Как стать успешным дата-сайентистом и аналитиком данных

Время на прочтение7 мин
Охват и читатели12K

Есть много статей о навыках, необходимых, чтобы быть хорошим дата-сайентистом, или аналитиком данных, но лишь в немногих статьях пишут о навыках, необходимых для успеха — будь то исключительная оценка работы, похвала от руководства, повышение, или все вышеперечисленное. Сегодня мы представляем вам материал, автор которого хотела бы поделиться своим личным опытом работы в качестве дата-сайентиста и аналитика данных, а также тем, чему она научилась ради достижения успеха.
Приятного чтения!

Что читать специалисту по Data Science в 2020 году

Время на прочтение6 мин
Охват и читатели5.9K

В этом посте делимся с вами подборкой источников полезной информации о Data Science от сооснователя и CTO DAGsHub — сообщества и веб-платформы для контроля версий данных и совместной работы дата-сайентистов и инженеров по машинному обучению. В подборку попали самые разные источники, от аккаунтов в твиттере, до полноценных инженерных блогов, которые ориентированы для тех, кто точно знает, что ищет. Подробности под катом.
Приятного чтения!

Как просто и быстро искать данные с помощью Whale

Время на прочтение4 мин
Охват и читатели5.8K

В этом материале рассказывается о простейшем и быстром инструменте обнаружения данных, работу которого вы видите на КДПВ. Интересно, что whale создан таким образом, чтобы размещаться на удаленном git-сервере. Подробности под катом.
Приятного чтения!

Автоматизация работы с проектом Python

Время на прочтение11 мин
Охват и читатели11K

Сегодня делимся с вами переводом статьи DevOps инженера из IBM, об автоматизации сборки быстро собираемых и удобно отлаживаемых образов Docker для проектов на Python с помощью Makefile. Этот проект не только упрощает отладку в Docker, но и заботится о качестве кода вашего проекта. Подробности, как всегда, под катом.
Приятного чтения!

Разбираемся, в чем разница между Data Mining и Data Extraction

Время на прочтение8 мин
Охват и читатели18K

Два этих модных слова, связанных с Data Science, сбивают с толку многих людей. Data Mining часто неправильно понимают как извлечение и получение данных, но на самом деле все намного сложнее. В этом посте давайте расставим точки над Mining и выясним разницу между Data Mining и Data Extraction.
Приятного чтения!

Fastcore — недооцененная, но полезная библиотека Python

Время на прочтение10 мин
Охват и читатели11K

Недавно я начал оттачивать владение языком программирования Python. Я хотел изучить продвинутые паттерны, идиомы и методы программирования. Начал я с чтения книг по продвинутому Python, но информация, похоже, не откладывалась в голове без применения навыков. Хотелось иметь возможность задавать вопросы эксперту, пока учусь, а такую возможность трудно найти! Тогда ко мне и пришла идея: что, если я найду проект с открытым и достаточно продвинутым кодом и напишу документацию и тесты? Я сделал ставку, что это заставит меня изучать все очень глубоко, а поддерживающие проект люди оценит мою работу и будут готовы ответить на мои вопросы.
Возможности fascore

Использование ИИ для сверхсжатия изображений

Время на прочтение5 мин
Охват и читатели10K

Управляемые данными алгоритмы, такие как нейронные сети, взяли мир штурмом. Их развитие вызвано несколькими причинами, в том числе дешевым и мощным оборудованием и огромным объемом данных. Нейронные сети в настоящее время находятся в авангарде во всем, что касается «когнитивных» задач, таких как распознавание изображений, понимание естественного языка и т.д. Но они не должны ограничиваться такими задачами. В этом материале рассказывается о способе сжатия изображений с помощью нейронных сетей, при помощи остаточного обучения. Представленный в статье подход работает быстрее и лучше стандартных кодеков. Схемы, уравнения и, конечно, таблица с тестами под катом.
Приятного чтения!

Абстрагируемся от фреймворков глубокого обучения с Neuropod от Uber

Время на прочтение13 мин
Охват и читатели2.8K

В сегодняшнем материале рассказывается про Neuropod, движок вывода глубокого обучения с открытым исходным кодом от Uber ATG. Это слой абстракции над фреймворками глубокого обучения, решающий проблему быстрой замены написанных на разных фреймворках моделей и проблему адаптации модели для производственных сред, помогающий построить единый и оптимизированный конвейер входных данных. Подробности, как обычно, под катом.
Приятного чтения!

Быстрое развертывание любого приложения вместе с Waypoint

Время на прочтение8 мин
Охват и читатели4.7K

К публикуемым в нашем блоге авторским статьям и переводным материалам про лайфхаки/интересные находки мы решили добавить разбор нового проекта. Waypoint — опенсорсный проект, предоставляющий разработчикам последовательный рабочий процесс сборки, развертывания и релиза приложений на любой платформе. Waypoint позволяет разработчикам провести свои приложения от разработки до производственной среды в одном файле и развертывать приложения с помощью одной команды: waypoint up. Waypoint из коробки поддерживает Kubernetes, HashiCorp Nomad, Amazon ECS, Google Cloud Run, экземпляры контейнеров Azure, Docker, Buildpacks и не только. Читайте дальше, чтобы увидеть небольшой пример, узнать больше о функциях Waypoint и о проблемах, которые решает инструмент.
Приятного чтения!

Объяснимый искусственный интеллект: понимание черного ящика

Время на прочтение6 мин
Охват и читатели12K

Черный квадрат — знаковая картина советского художника Казимира Малевича. Первая версия написана в 1915 году. Черный квадрат впечатляет искусствоведов и сегодня, но на своих современников не произвел впечатления и хранился в таких плохих условиях, что сильно потрескался и обветшал.

Сложные алгоритмы машинного обучения могут быть математическим произведением искусства, но если эти «алгоритмы черного ящика», которые мы не видим, не смогут произвести впечатление и завоевать доверие пользователей, они могут быть проигнорированы, как Черный квадрат Малевича. Как сделать все понятнее для юзеров — в материале под катом.
Приятного чтения!

Как построить диаграмму на Python

Время на прочтение6 мин
Охват и читатели26K

Каждый, кому хоть раз приходилось строить диаграммы в draw.io или Google Diagrams, помнит всю утомительность и медлительность этого процесса. Сегодня делимся с вами материалом, в котором шаг за шагом показывается, как можно строить красивые архитектурные диаграммы с помощью Python. Главное удобство — встроенные узлы для обозначения сервисов и языков программирования. Только код и никакой мыши.
Приятного чтения!

TensorFlow на Google Cloud. Масштабируемый рабочий процесс

Время на прочтение10 мин
Охват и читатели3.4K

Сфера Data Science настолько обширна и настолько быстро развивается, что изучить «вообще всё» в ней попросту невозможно. Но вас не должно это демотивировать, ведь выход один — развиваться и не дать себя захватить страху «как же мало я знаю».

Под катом проект, задействующий мощь современных облачных платформ машинного обучения в классической задаче распознания кошек и собак. Проект написан так, чтобы вы могли адаптировать его под свои задачи.
Приятного чтения!

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность