How to become an author

User

ProfileArticles5PostsNewsComments642

alexey_nichnikov May 12 2020 at 13:31

Перевод книги Эндрю Ына «Страсть к машинному обучению». Главы 51 и 52

4 min

2.2K

Professional literature*Machine learning*

Translation

← предыдущие главы

51. Выбираем компоненты конвейера: простота решения задач

Вторым важным фактором, который нужно учитывать при построении «конвейера», кроме доступности обучающих данных, является простота использования компонента. Нужно попытаться выбрать такие компоненты конвейера, каждый из которых легок в разработке или в обучении. Но что значит: компонент легок в обучении?

Читать дальше →

+7

mongohtotech Mar 16 2020 at 10:10

Ваша первая нейронная сеть на графическом процессоре (GPU). Руководство для начинающих

9 min

55K

Python*Machine learning*Cloud services*Image processing*Hosting

Tutorial

В этой статье я расскажу как за 30 минут настроить среду для машинного обучения, создать нейронную сеть для распознавания изображений a потом запустить ту же сеть на графическом процессоре (GPU).

Для начала определим что такое нейронная сеть.

В нашем случае это математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма. Это понятие возникло при изучении процессов, протекающих в мозге, и при попытке смоделировать эти процессы.

Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение.

С точки зрения машинного обучения, нейронная сеть представляет собой частный случай методов распознавания образов, дискриминантного анализа, методов кластеризации и прочих методов.

Оборудование

Сначала разберемся с оборудованием. Нам необходим сервер с установленной на нем операционной системой Linux. Оборудование для работы систем машинного обучения требуется достаточно мощное и как следствие дорогое. Тем, у кого нет под рукой хорошей машины, рекомендую обратить внимание на предложение облачных провайдеров. Необходимый сервер можно получить в аренду быстро и платить только за время использования.

Читать дальше →

+13

iliasam Mar 11 2020 at 07:25

Самодельный лидар: OpenTOFLidar

27 min

79K

Programming microcontrollers*DIYElectronics for beginnersRobotics

В этой статье я хочу рассказать про свой проект импульсного (TOF) Open Source лидара — о том как я его делал, и каких результатов удалось добиться.

Читать дальше →

+136

ru_vds Mar 5 2020 at 09:30

Загрузка NumPy-массивов с диска: сравнение memmap() и Zarr/HDF5

6 min

7K

RUVDS.com corporate blogWebsite development*Data storagingPython*

Translation

Если ваш NumPy-массив слишком велик для того, чтобы полностью поместиться в оперативной памяти, его можно обработать, разбив на фрагменты. Сделать это можно либо в прозрачном режиме, либо явно, загружая эти фрагменты с диска по одному.

В такой ситуации можно прибегнуть к двум классам инструментов:

Метод NumPy memmap(), прозрачный механизм, который позволяет воспринимать файл, расположенный на диске, так, будто он весь находится в памяти.
Похожие друг на друга форматы хранения данных Zarr и HDF5, которые позволяют, по необходимости, загружать с диска и сохранять на диск сжатые фрагменты массива.

У каждого из этих методов есть свои сильные и слабые стороны.

Материал, перевод которого мы сегодня публикуем, посвящён разбору особенностей этих методов работы с данными, и рассказу о том, в каких ситуациях они могут пригодиться. В частности, особое внимание будет уделено форматам данных, которые оптимизированы для выполнения вычислений и необязательно рассчитаны на передачу этих данных другим программистам.

Читать дальше →

+32

germn Jan 10 2020 at 07:53

Повышение продуктивности при работе с Jupyter Notebook за 5 минут

2 min

47K

Python*Programming*

Tutorial

Translation

Для начала повторим основные горячие клавиши. Если вы их ещё не используете — начните обязательно. В долгосрочной перспективе время на изучение окупится многократно.

0. Основные горячие клавиши

Esc: Переключение между режимом выполнения и редактирования
A: Добавление пустой ячейки сверху
B: Добавление пустой ячейки снизу
DD: Удаления ячейки
C: Копирование ячеек
X: Вырезание ячеек
V: Вставка ячеек

1. Перезапуск блокнота

Для рестарта просто нажмите ESC + 00.

Читать дальше →

+25

rishat_edison Dec 16 2019 at 13:18

52 датасета для тренировочных проектов

5 min

151K

Edison corporate blogPython*Machine learning*Programming*Studying in IT

Translation

Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning)
Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.
MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.
The Boston Housing Dataset — популярный датасет для распознавания паттернов. Содержит информацию о домах в Бостоне: количество квартир, стоимость аренды, индекс преступлений.
Fake News Detection Dataset — содержит 7796 записей с разметкой новостей: правда или ложь. (Вариант применения с исходником на Python: Fake News Detection Python Project )
Wine quality dataset — содержит информацию о вине: 4898 записей с 14 параметрами.

Читать дальше →

+30

Yermack Dec 5 2019 at 05:55

Julia и дистрибутивная семантика

17 min

5.4K

Julia*Natural Language Processing*Artificial IntelligenceMachine learning*Programming*

Tutorial

С момента выхода прошлой публикации в мире языка Julia произошло много интересного:

Она заняла все первые места в плане роста вспомогательных пакетов. За это я и люблю статистику — главное выбрать удобную единицу измерения, например проценты как в приведенном ресурсе
Вышла версия 1.3.0 — из самых масштабных нововведений там модернизация менеджера пакетов и появление многопоточного параллелизма
Джулия заручается поддержкой Nvidia
Американский департамент перспективных исследований в области энергетики выделил кучу денег на решение задач оптимизации

В то же время заметен рост интереса со стороны разработчиков, что выражается обильными бенчмаркингами:

Международное энергетическое агенство проверяет пакеты реализующие многомерную оптимизацию
Датасаянтисты тестят работу с GPU
Ни капли не предвзятые ребята сравнивают интеграторы для дифуров
А энтузиасты сравнивают языки на базовых задачах.

Мы же просто радуемся новым и удобным инструментам и продолжаем их изучать. Сегодняшний вечер будет посвящен текстовому анализу, поиску скрытого смысла в выступлениях президентов и генерации текста в духе Шекспира и джулиа-программиста, а на сладкое — скормим рекуррентной сети 40000 пирожков.

Читать дальше →

+8

rishat_edison Nov 26 2019 at 19:33

56 проектов на Python с открытым исходным кодом

13 min

103K

Edison corporate blogStudying in ITProgramming*Python*Open source*

Translation

1. Flask

Это микро-фреймворк, написанный на Python. Он не имеет валидаций для форм и уровня абстракции базы данных, но позволяет вам использовать сторонние библиотеки для общих функций. И именно поэтому это микро-фреймворк. Flask предназначен для простого и быстрого создания приложений, а также является масштабируемым и легким. Он основан на проектах Werkzeug и Jinja2. Вы можете узнать больше о нем в последней статье DataFlair о Python Flask.

2. Keras

Keras — нейросетевая библиотека с открытым исходным кодом, написанная на Python. Она удобна для пользователя, модульная и расширяемая, а так же может работать поверх TensorFlow, Theano, PlaidML или Microsoft Cognitive Toolkit (CNTK). В Keras есть все: шаблоны, целевые и передаточные функции, оптимизаторы и многое другое. Он также поддерживает сверточные и рекуррентные нейронные сети.

Работа над последним проектом с открытым исходным кодом на основе Keras — Классификация рака молочной железы.

Читать дальше →

+23

DataArt Nov 13 2019 at 16:13

Юрий Рябцев: «Первый перехват баллистической ракеты — событие, примерно равное полету Гагарина»

19 min

69K

DataArt corporate blogInterviewHistory of ITOld hardware

Доктор технических наук, профессор Юрий Рябцев — выпускник МФТИ, многолетний сотрудник ИТМиВТ и ИНЭУМ. В 1976 году он стал лауреатом государственной премии за разработку вычислительного комплекса для С-300, в 1986-м — лауреатом Ленинской премии за разработку «Эльбруса-2». В интервью из нашей исторической серии Юрий Степанович рассказывает, как готовили инженеров для передовых оборонных программ, объясняет, как в СССР взаимодействовали институты и целые отрасли, делится мнением о крупных советских проектах в области ИТ.

+146

ph_piter Nov 12 2019 at 09:56

Книга «Знакомство с PyTorch: глубокое обучение при обработке естественного языка»

10 min

7.8K

Издательский дом «Питер» corporate blogPython*Machine learning*Professional literature*

Привет, Хаброжители! Обработка текстов на естественном языке (Natural Language Processing, NLP) — крайне важная задача в области искусственного интеллекта. Успешная реализация делает возможными такие продукты, как Alexa от Amazon и Google Translate. Эта книга поможет вам изучить PyTorch — библиотеку глубокого обучения для языка Python — один из ведущих инструментов для дата-сайентистов и разработчиков ПО, занимающихся NLP. Делип Рао и Брайан Макмахан введут вас в курс дел с NLP и алгоритмами глубокого обучения. И покажут, как PyTorch позволяет реализовать приложения, использующие анализ текста.

В этой книге • Вычислительные графы и парадигма обучения с учителем. • Основы оптимизированной библиотеки PyTorch для работы с тензорами. • Обзор традиционных понятий и методов NLP. • Упреждающие нейронные сети (многослойный перцептрон и другие). • Улучшение RNN при помощи долгой краткосрочной памяти (LSTM) и управляемых рекуррентных блоков • Предсказание и модели преобразования последовательностей. • Паттерны проектирования NLP-систем, используемых в продакшене.

Читать дальше →

+11

ErmIg Nov 6 2019 at 09:13

Сверточный слой: методы оптимизации основанные на матричном умножении

9 min

14K

C++*Algorithms*Machine learning*Image processing*

Введение

Данная статья является продолжением серии статей описывающей алгоритмы лежащие в основе
Synet — фреймворка для запуска предварительно обученных нейронных сетей на CPU.

Если смотреть на распределение процессорного времени, которое тратится на прямое распространение сигнала в нейронных сетях, то окажется что зачастую более 90% всего времени тратится в свёрточных слоях. Поэтому если мы хотим получить быстрый алгоритм для нейронной сети – нам нужен, прежде всего, быстрый алгоритм для свёрточного слоя. В настоящей статье я хочу описать методы оптимизации прямого распространения сигнала в свёрточном слое. Причем начать хочется с наиболее широко распространенных методов, основанных на матричном умножении. Изложение я буду стараться вести в максимально доступной форме, чтобы статья была интересна не только специалистам (они и так про это все знают), но и более широкому кругу читателей. Я не претендую на полноту обзора, так что любые замечания и дополнения только приветствуются.

Читать дальше →

+22

mikejum Oct 28 2019 at 06:43

О странностях хабростатистики

6 min

12K

HabrStatistics in IT

И раньше замечал странное поведение рейтингов, но в последнее время странность проявилась слишком наглядно. И я решил исследовать проблему доступными мне научными методами, а именно: проанализировать динамику плюсования-минусования. Вдруг померещилось?

Программист я еще тот, но совсем элементарные вещи делать умею. Вот и закодил простенькую утилитку, собирающую статистику с панелей хабровского поста: плюсы, минусы, просмотры, закладки и прочее.

Статистика выводится в графики, после изучения которых удалось обнаружить еще пару неожиданностей, помельче. Но обо всем по порядку.

Читать дальше →

+77

belgraviton Oct 16 2019 at 11:35

Рубрика «Читаем статьи за вас». Январь — Июнь 2019

15 min

8.9K

Open Data Science corporate blogAlgorithms*Mathematics*Machine learning*Image processing*

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

Neural Ordinary Differential Equations (University of Toronto, 2018)
Semi-Unsupervised Learning with Deep Generative Models: Clustering and Classifying using Ultra-Sparse Labels (University of Oxford, The Alan Turing Institute, London, 2019)
Uncovering and Mitigating Algorithmic Bias through Learned Latent Structure (Massachusetts Institute of Technology, Harvard University, 2019)
Deep reinforcement learning from human preferences (OpenAI, DeepMind, 2017)
Exploring Randomly Wired Neural Networks for Image Recognition (Facebook AI Research, 2019)
Photofeeler-D3: A Neural Network with Voter Modeling for Dating Photo Rating (Photofeeler Inc., 2019)
MixMatch: A Holistic Approach to Semi-Supervised Learning (Google Reasearch, 2019)
Divide and Conquer the Embedding Space for Metric Learning (Heidelberg University, 2019)

Читать дальше →

+60

PatientZero Oct 21 2019 at 09:34

Неожиданная красота простых чисел

8 min

70K

Popular scienceMathematics*

Translation

Значимость простых чисел, как в повседневном применении, так и во всех отраслях математики, невозможно переоценить. Мы спокойно полагаемся на их особые свойства, используя их как фундамент бесчисленного количества элементов нашего общества, ведь они являются неделимой частью самой ткани природы. Простые числа, устойчивые к любому делению на множители, часто называют «атомами» мира математики. Карл Саган сказал о них так:

Очень важен статус простых чисел как фундаментальных строительных блоков всех чисел, которые сами являются строительными блоками нашего понимания Вселенной.

В природе и в нашей жизни простые числа используются повсюду: цикады выстраивают по ним свои жизненные циклы, часовщики применяют их для вычисления тиканья, а в авиационных двигателях с их помощью балансируется частота воздушных импульсов. Однако все эти области применения бледнеют на фоне факта, знакомого каждому криптографу: простые числа находятся в самом сердце современной компьютерной безопасности, то есть они напрямую несут ответственность за защиту всего. Видите замок в адресной строке браузера? Да, это значит, что используется двухключевое «рукопожатие», основанное на простых числах. Как защищается при покупках ваша кредитная карта? Тоже при помощи криптографии на основе простых чисел.

Однако несмотря на то, что мы постоянно полагаемся на их уникальные свойства, простые числа оставались для нас неуловимыми. На протяжении всей истории математики величайшие умы пытались доказать теорему о предсказании чисел, являющихся простыми, или о том, как далеко друг от друга они должны располагаться.

Читать дальше →

+150

Vlomme Sep 2 2019 at 16:44

Многоязычный синтез речи с клонированием

5 min

46K

Machine learning*

Хотя нейронные сети стали использоваться для синтеза речи не так давно (например), они уже успели обогнать классические подходы и с каждым годам испытывают на себе всё новые и новый задачи.

Например, пару месяцев назад появилась реализация синтеза речи с голосовым клонированием Real-Time-Voice-Cloning. Давайте попробуем разобраться из чего она состоит и реализуем свою многоязычную (русско-английскую) фонемную модель.

Строение

Наша модель будет состоять из четырёх нейронных сетей. Первая будет преобразовывать текст в фонемы (g2p), вторая — преобразовывать речь, которую мы хотим клонировать, в вектор признаков (чисел). Третья — будет на основе выходов первых двух синтезировать Mel спектрограммы. И, наконец, четвертая будет из спектрограмм получать звук.

+29

artemmorozov13 Aug 21 2019 at 08:45

Подбор пароля Wi-Fi утилитой aircrack-ng

4 min

328K

Wireless technologies*Information Security*

Tutorial

Recovery Mode

Данная статья написана исключительно в ознакомительных и исследовательских целях. Призываем вас соблюдать правила работы с сетями и закон, а также всегда помнить об информационной безопасности.

Введение

В начале 1990-х годов, когда Wi-Fi только появился, был создан алгоритм Wired Equivalent Privacy, который должен был обеспечивать конфиденциальность Wi-Fi сетей. Однако, WEP оказался неэффективным алгоритмом защиты, который легко взломать.

На смену пришел новый алгоритм защиты Wi-Fi Protected Access II, который сегодня применяют большинство точек доступа Wi-Fi. WPA2 использует алгоритм шифрования, AES, взломать который крайне сложно.

Читать дальше →

+3

MagisterLudi Aug 13 2019 at 13:18

Алексей Савватеев: Модели интернета и социальных сетей

8 min

14K

Algorithms*Mathematics*Popular scienceSocial networks and communities

«Единственный смысл существование экономики — это воодушевление математиков на новые подвиги.»

В 2013 году Алексей Савватеев прочитал несколько лекций по моделям соцсетей и интернета. Я нашел эту тему очень любопытной и незаслуженно забытой. Попробуем разобраться в вопросе. А ещё мне интересно узнать, как изменилась ситуация с тех пор и какие полезные публикации есть в этой области.

И в интернете, и в биологии соцсети проявляют свойства, которые по отдельности описываются моделями, но все вместе — ставят в тупик современную математику. Савватеев утверждает, что «тот, кто с этим разберется получит Нобелевскую премию». Будущее будет зависеть от способности работать с сетями.

Ниже приводится скомпилированная выжимка из трёх видеозаписей лекций, само видео есть в конце. (Пост выглядит как набор слайдов с цитатами лектора, связать всё в единый и прилизанный текст у меня не хватает способностей к русскому языку и математике, но тема очень важная, поэтому хочу опубликовать.)

+33

Scorobey Aug 13 2019 at 12:55

Удаление высокочастотных шумов из сигналов вибродатчиков при вибродиагностике подшипников

15 min

16K

Development for Windows*Popular scienceMathematics*System Analysis and Design*Python*

Tutorial

Фото взято из публикации

Введение

Одна из наиболее актуальных задач цифровой обработки сигналов – задача очистки сигнала от шума. Любой практический сигнал содержит не только полезную информацию, но и следы некоторых посторонних воздействий помехи или шума. Кроме этого, при вибродиагностике сигналы от вибродатчиков имеют не стационарный частотный спектр, что усложняет задачу фильтрации.

Существует множество различных способов удаления высокочастотного шума из сигнала. Например, библиотека Scipy содержит фильтры, основанные на различных методах фильтрации: Калмана; сглаживание сигнала путём его усреднения по оси времени, и другие.

Однако, преимущество метода дискретного вейвлет преобразования (DWT) состоит в многообразии форм вейвлет. Можно выбрать вейвлет, который будет иметь форму, характерную для ожидаемых явлений. Например, можно выделить сигнал в заданном частотном диапазоне, форма которого отвечает за появление дефекта.

Целью настоящей публикации является анализ методов фильтрации сигналов вибродатчиков с применением DWT преобразования сигнала, фильтра Калмана и метода скользящего среднего.

Исходные данные для анализа

В публикации работу фильтров основанных на различных методах фильтрации будем анализировать используя набор данных НАСА. Данные получены на экспериментальной платформе PRONOSTIA:

Набор содержит данные о сигналах вибродатчиков по износу подшипников различных типов. Назначение папок с файлами сигналов приведено в таблице:

Мониторинг состояния подшипников обеспечивается сигналами датчиков вибрации (горизонтальным и вертикальным акселерометрами), силы и температуры.

Сигналы получены для трёх различных нагрузок:

Первые рабочие условия: 1800 об / мин и 4000 Н;
Вторые рабочие условия: 1650 об / мин и 4200 Н;
Третьи рабочие условия: 1500 об / мин и 5000 Н.

Читать дальше →

+21

0xdde Aug 13 2019 at 11:27

Портирование ОС на Aarch64

6 min

33K

Embox corporate blogSystem Programming*Programming*Assembler*

Aarch64 — это 64-битная архитектура от ARM (иногда её называют arm64). В этой статье я расскажу, чем она отличается от "обычных" (32-битных) ARM и насколько сложно портировать на него свою систему.

Эта статья — не детальный гайд, скорее обзор тех модулей системы, которые придётся переделать, и насколько сильно архитектура в целом отличается от обычных 32-битных ARM-ов; всё это по моему личному опыту портирования Embox на эту архитектуру. Для непосредственного портирования конкретной системы так или иначе придётся разбираться с документацией, в конце статьи я оставил ссылки на некоторые документы, которые могут оказаться полезны.

Читать дальше →

+37

SLY_G Aug 12 2019 at 07:00

Нейросети и глубокое обучение: онлайн-учебник, глава 6, ч.1: глубокое обучение

45 min

16K

Artificial IntelligenceMachine learning*

Translation

Содержание

В прошлой главе мы узнали, что глубокие нейронные сети (ГНС) часто тяжелее обучать, чем неглубокие. И это плохо, поскольку у нас есть все основания полагать, что если бы мы могли обучить ГНС, они бы гораздо лучше справлялись с задачами. Но хотя новости из предыдущей главы и разочаровывают, нас это не остановит. В этой главе мы выработаем техники, которые сможем использовать для обучения глубоких сетей и применения их на практике. Мы также посмотрим на ситуацию шире, кратко познакомимся с недавним прогрессом в использовании ГНС для распознавания изображений, речи и для других применений. А также поверхностно рассмотрим, какое будущее может ждать нейросети и ИИ.

Это будет длинная глава, поэтому давайте немного пройдёмся по оглавлению. Её разделы не сильно связаны между собой, поэтому, если у вас есть некие базовые понятия о нейросетях, вы можете начинать с того раздела, который вас больше интересует.

Основная часть главы – введение в один из наиболее популярных типов глубоких сетей: глубокие свёрточные сети (ГСС). Мы поработаем с подробным примером использования свёрточной сети, с кодом и прочим, для решения задачи классификации рукописных цифр из набора данных MNIST:

Читать дальше →

+23

1 2 ...

9