All streams
Search
Write a publication
Pull to refresh
0
0
Skillfactory School @skillfactory_school

Школа Computer Science

Send message

Как искусственный интеллект борется с вредителями

Reading time9 min
Views2.5K
Сегодня, в преддверии старта набора на новый поток курса «Machine Learning», делимся с вами переводом поста из блога PyTorch, в котором рассказывается о работе ИИ для борьбы с вредителями, который анализирует ситуацию по фотографиям феромоновых ловушек в условиях индийской глубинки, где выращивают хлопок, о применении PyTorch Mobile для развертывания моделей прямо на смартфоне в оффлайне, о сжатии моделей и, конечно, немного о том, как работать с аномальными изображениями, которые отправляют индийские фермеры.

image
Приятного чтения!

Вдохновляющие портфолио Data Science

Reading time6 min
Views12K
image

Data Science — сложная область знания. Она в равной степени сочетает в себе математику и статистику, информатику и черную магию. С середины 2020 года Data Science быстро растет, многочисленные соискатели роятся над каждым объявлением о приеме на работу. Кроме того, бушующая пандемия, в дополнение ко всему, тянет вниз.

Старания в получении списка сертификатов об окончании курсов не продвинут вас далеко, если только у вас нет добросовестно заслуженных дипломов магистра или PhD (кандидата наук). Сертификаты массовых открытых онлайн-курсов, таких как на Coursera или eDx, хороши, но у меня нет свидетельств их большой значимости. Kaggle тоже уже не тот: его открытые соревнования — кладбище переобученных моделей, а настоящие соревнования выигрывают команды, с которыми трудно соревноваться, более того, такие соревнования в любом случае ограничены в смысле личного портфолио.

Выход всё же есть — делать собственные интересные проекты и из них собирать портфолио, которое выгодно представит вас. В данном материале представлены вдохновляющие примеры таких портфолио. Используйте их для улучшения вашего собственного портфолио Data Science, изучения новых навыков или чтобы открыть для себя интересные проекты.
Приятного чтения!

Стресс-тестер для соревнований по программированию

Reading time6 min
Views5.7K


Во-первых, не бойтесь названия «стресс-тестер». Это просто модный термин для написанного мной служебного инструмента для соревнований по программированию. Вместо того чтобы просто дать вам код, я расскажу о стратегии и плане, которые у меня были, когда я писал этот инструмент.
Приятного чтения!

Математическое представление нейронных сетей

Reading time4 min
Views24K
image
Продолжаем «неделю нейронных сетей». В этом посте вы узнаете о нейронных сетях на примерах математических моделей. Говоря проще, вы узнаете о том, как представить нейронные сети с помощью математических уравнений. Дата-сайентисту или исследователю машинного обучения было бы неплохо получить представление о том, как нейронные сети могут быть преобразованы в кучу математических уравнений, для вычисления различных значений. Хорошее понимание представления выходных данных функции активации различных вычислительных блоков (узлов, нейронов) в разных слоях может помочь быстрее и лучше понять алгоритм обратного распространения.

Под катом — простое и краткое введение в математическое представление нейронных сетей для интересующихся теорией практиков: от перцептрона до сети с двумя скрытыми слоями.
Приятного чтения!

Необходимый инструмент для каждого дата-сайентиста

Reading time5 min
Views3.8K
image

Давайте посмотрим правде в глаза: обучение модели машинного обучения отнимает много времени, даже с учетом развития вычислительной техники за последние несколько лет. Даже самые тривиальные модели имеют более миллиона параметров. В масштабе крупнее у моделей бывает более миллиарда параметров — у GPT-3 их более 175 миллиардов! и обучение этих моделей занимает дни, а то и недели. Как дата-сайентисты мы хотели бы следить за метриками модели, чтобы знать, работает ли она, как мы того ожидаем. Но нет смысла сидеть рядом с компьютером, часами отслеживая показатели. Хорошо было бы получить все эти данные на телефон.

Эту задачу можно решить с помощью TensorDash — инструмента удаленного мониторинга ваших моделей машинного обучения с открытым исходным кодом, о котором и пойдет речь дальше. Под катом примеры применения TensorDash с TensorFlow, Keras, PyTorch и Fast.ai.
Приятного чтения!

Реализуем и сравниваем оптимизаторы моделей в глубоком обучении

Reading time14 min
Views62K

Реализуем и сравниваем 4 популярных оптимизатора обучения нейронных сетей: оптимизатор импульса, среднеквадратичное распространение, мини-пакетный градиентный спуск и адаптивную оценку момента. Репозиторий, много кода на Python и его вывод, визуализации и формулы — всё это под катом.
Приятного чтения!

Адаптивный дизайн высоты

Reading time7 min
Views30K

Возможно, вы думаете о том, почему я выбрал такой заголовок. Адаптивный дизайн высоты, серьезно? Ну, термин адаптивный веб-дизайн часто описывается как проверка браузера на нескольких вариантах ширины области просмотра и размеров устройств. Сайт всегда тестируется горизонтально — на уменьшение ширины, но я редко вижу какие-то соображения для тестирования вертикально — на уменьшение высоты. В глубине вашего сознания возникает вопрос: нужно ли уменьшать высоту браузера? Да, и я буду убеждать вас в этом здесь. Когда мы работаем над реализацией веб-сайта, делать предположения вне зависимости от данных реального мира нехорошо. Крайне важно взять на себя ответственность за тестирование как по горизонтали, так и по вертикали.
Приятного чтения!

Почему нам нужно больше Open Source Data Science

Reading time8 min
Views2.9K

Почти все мы пользуемся ПО с открытым исходным кодом (Open Source Software или OSS), это часть нашей жизни. Коллективное сотрудничество в создании программного обеспечения изменило мир разработки ПО и мир вообще. Но мы не видим тех же действий в области data science. В DAGsHub мы проводим много времени, думая о open source data science (OSDS) и разговаривая с дата-сайентистами. Эта статья представляет собой краткое изложение некоторых таких бесед в нашем сообществе. Цель этой статьи — сформулировать, почему открытый исходный код является важной частью разработки программного обеспечения сегодня и выдвинуть аргумент о том, что открытость источников будет важной частью data science в ближайшем будущем.
Приятного чтения!

Как стать успешным дата-сайентистом и аналитиком данных

Reading time7 min
Views12K

Есть много статей о навыках, необходимых, чтобы быть хорошим дата-сайентистом, или аналитиком данных, но лишь в немногих статьях пишут о навыках, необходимых для успеха — будь то исключительная оценка работы, похвала от руководства, повышение, или все вышеперечисленное. Сегодня мы представляем вам материал, автор которого хотела бы поделиться своим личным опытом работы в качестве дата-сайентиста и аналитика данных, а также тем, чему она научилась ради достижения успеха.
Приятного чтения!

Что читать специалисту по Data Science в 2020 году

Reading time6 min
Views5.8K

В этом посте делимся с вами подборкой источников полезной информации о Data Science от сооснователя и CTO DAGsHub — сообщества и веб-платформы для контроля версий данных и совместной работы дата-сайентистов и инженеров по машинному обучению. В подборку попали самые разные источники, от аккаунтов в твиттере, до полноценных инженерных блогов, которые ориентированы для тех, кто точно знает, что ищет. Подробности под катом.
Приятного чтения!

Как просто и быстро искать данные с помощью Whale

Reading time4 min
Views5.6K

В этом материале рассказывается о простейшем и быстром инструменте обнаружения данных, работу которого вы видите на КДПВ. Интересно, что whale создан таким образом, чтобы размещаться на удаленном git-сервере. Подробности под катом.
Приятного чтения!

Автоматизация работы с проектом Python

Reading time11 min
Views10K

Сегодня делимся с вами переводом статьи DevOps инженера из IBM, об автоматизации сборки быстро собираемых и удобно отлаживаемых образов Docker для проектов на Python с помощью Makefile. Этот проект не только упрощает отладку в Docker, но и заботится о качестве кода вашего проекта. Подробности, как всегда, под катом.
Приятного чтения!

Разбираемся, в чем разница между Data Mining и Data Extraction

Reading time8 min
Views17K

Два этих модных слова, связанных с Data Science, сбивают с толку многих людей. Data Mining часто неправильно понимают как извлечение и получение данных, но на самом деле все намного сложнее. В этом посте давайте расставим точки над Mining и выясним разницу между Data Mining и Data Extraction.
Приятного чтения!

Fastcore — недооцененная, но полезная библиотека Python

Reading time10 min
Views10K

Недавно я начал оттачивать владение языком программирования Python. Я хотел изучить продвинутые паттерны, идиомы и методы программирования. Начал я с чтения книг по продвинутому Python, но информация, похоже, не откладывалась в голове без применения навыков. Хотелось иметь возможность задавать вопросы эксперту, пока учусь, а такую возможность трудно найти! Тогда ко мне и пришла идея: что, если я найду проект с открытым и достаточно продвинутым кодом и напишу документацию и тесты? Я сделал ставку, что это заставит меня изучать все очень глубоко, а поддерживающие проект люди оценит мою работу и будут готовы ответить на мои вопросы.
Возможности fascore

Использование ИИ для сверхсжатия изображений

Reading time5 min
Views9.3K

Управляемые данными алгоритмы, такие как нейронные сети, взяли мир штурмом. Их развитие вызвано несколькими причинами, в том числе дешевым и мощным оборудованием и огромным объемом данных. Нейронные сети в настоящее время находятся в авангарде во всем, что касается «когнитивных» задач, таких как распознавание изображений, понимание естественного языка и т.д. Но они не должны ограничиваться такими задачами. В этом материале рассказывается о способе сжатия изображений с помощью нейронных сетей, при помощи остаточного обучения. Представленный в статье подход работает быстрее и лучше стандартных кодеков. Схемы, уравнения и, конечно, таблица с тестами под катом.
Приятного чтения!

Абстрагируемся от фреймворков глубокого обучения с Neuropod от Uber

Reading time13 min
Views2.7K

В сегодняшнем материале рассказывается про Neuropod, движок вывода глубокого обучения с открытым исходным кодом от Uber ATG. Это слой абстракции над фреймворками глубокого обучения, решающий проблему быстрой замены написанных на разных фреймворках моделей и проблему адаптации модели для производственных сред, помогающий построить единый и оптимизированный конвейер входных данных. Подробности, как обычно, под катом.
Приятного чтения!

Быстрое развертывание любого приложения вместе с Waypoint

Reading time8 min
Views4.4K

К публикуемым в нашем блоге авторским статьям и переводным материалам про лайфхаки/интересные находки мы решили добавить разбор нового проекта. Waypoint — опенсорсный проект, предоставляющий разработчикам последовательный рабочий процесс сборки, развертывания и релиза приложений на любой платформе. Waypoint позволяет разработчикам провести свои приложения от разработки до производственной среды в одном файле и развертывать приложения с помощью одной команды: waypoint up. Waypoint из коробки поддерживает Kubernetes, HashiCorp Nomad, Amazon ECS, Google Cloud Run, экземпляры контейнеров Azure, Docker, Buildpacks и не только. Читайте дальше, чтобы увидеть небольшой пример, узнать больше о функциях Waypoint и о проблемах, которые решает инструмент.
Приятного чтения!

Объяснимый искусственный интеллект: понимание черного ящика

Reading time6 min
Views10K

Черный квадрат — знаковая картина советского художника Казимира Малевича. Первая версия написана в 1915 году. Черный квадрат впечатляет искусствоведов и сегодня, но на своих современников не произвел впечатления и хранился в таких плохих условиях, что сильно потрескался и обветшал.

Сложные алгоритмы машинного обучения могут быть математическим произведением искусства, но если эти «алгоритмы черного ящика», которые мы не видим, не смогут произвести впечатление и завоевать доверие пользователей, они могут быть проигнорированы, как Черный квадрат Малевича. Как сделать все понятнее для юзеров — в материале под катом.
Приятного чтения!

Как построить диаграмму на Python

Reading time6 min
Views24K

Каждый, кому хоть раз приходилось строить диаграммы в draw.io или Google Diagrams, помнит всю утомительность и медлительность этого процесса. Сегодня делимся с вами материалом, в котором шаг за шагом показывается, как можно строить красивые архитектурные диаграммы с помощью Python. Главное удобство — встроенные узлы для обозначения сервисов и языков программирования. Только код и никакой мыши.
Приятного чтения!

TensorFlow на Google Cloud. Масштабируемый рабочий процесс

Reading time10 min
Views3.3K

Сфера Data Science настолько обширна и настолько быстро развивается, что изучить «вообще всё» в ней попросту невозможно. Но вас не должно это демотивировать, ведь выход один — развиваться и не дать себя захватить страху «как же мало я знаю».

Под катом проект, задействующий мощь современных облачных платформ машинного обучения в классической задаче распознания кошек и собак. Проект написан так, чтобы вы могли адаптировать его под свои задачи.
Приятного чтения!

Information

Rating
Does not participate
Location
Россия
Registered
Activity