Search
Write a publication
Pull to refresh
0
@Denispsread⁠-⁠only

Менеджер проектов

Send message

Нейродайджест: главное из области машинного обучения за апрель 2021

Reading time5 min
Views4.3K

Чтобы состарить лицо на фотографии, сменить прическу или заставить его улыбаться, нужно изучить семантику, содержащуюся в отдельных слоях обученной GAN-модели. Недавние исследования генеративно-состязательных сетей показали, что разные слои содержат разную семантику синтезированных изображений: одни отвечают за цвет, а другие за текстуры и т.д.

Очень мало моделей позволяют управлять семантическими атрибутами конкретного слоя. Поэтому в этом месяце продолжают быть актуальными  решения и подходы, которые позволяют управлять скрытым пространством для контролируемого создания высококачественных изображений. С них и начнем подборку:

Перейти к обзору

Нейросеть с нуля своими руками. Часть 1. Теория

Reading time6 min
Views149K

Здравствуйте. Меня зовут Андрей, я frontend-разработчик и я хочу поговорить с вами на такую тему как нейросети. Дело в том, что ML технологии все глубже проникают в нашу жизнь, и о нейросетях сказано и написано уже очень много, но когда я захотел разобраться в этом вопросе, я понял что в интернете есть множество гайдов о том как создать нейросеть и выглядят они примерно следующим образом:

Читать далее

Facebook Prophet + Deep Learning = NeuralProphet

Reading time9 min
Views8.6K

Изучая прогнозирование временных рядов, рано или поздно вы наткнетесь на чрезвычайно популярную модель Prophet, разработанную Facebook. Она приобрела свою большую популярность благодаря тому, что обеспечивает хорошие показатели с точки зрения точности, интерпретируемых результатов и, в то же время, автоматизирует многие элементы (например, подбор гиперпараметров или конструирование признаков) за пользователя. Вот почему ее относительно просто использовать как и опытным датасайентистам, так и энтузиастам с меньшим техническим багажом.

Можете себе представить, насколько я был приятно удивлен, когда недавно наткнулся на новую библиотеку для прогнозирования временных рядов — NeuralProphet. Как вы можете понять из названия библиотеки, это по сути старая добрая Prophet только на стероидах, которыми в данном конкретном случае являются нейронные сети. Учитывая, что в настоящее время я довольно много работаю с временными рядами, я очень хотел проверить, какова она в сравнении с обычной Prophet.

В этой статье я кратко расскажу вам, что такое NeuralProphet и чем она отличается от классической библиотеки. Затем я применю на практике обе библиотеки, чтобы увидеть, насколько хорошо они могут выполнять одну и ту же задачу прогнозирования временных рядов. Определенно, вам будет полезно иметь некоторое представление о прогнозировании временных рядов, чтобы понимать всю терминологию. Давайте начнем!

Читать далее

Принципиальная схема работы типичного мышления

Reading time5 min
Views6.8K

Вы когда-нибудь задумывались, как вы думаете ? Все мыслительные процессы в нашем мозге можно разделить на блоки, алгоритмы, нейронные сети, но принцип один — есть входные сигналы с сенсоров, есть какая-то схема обработки информации, и наконец, есть выходные нейроны, отвечающие за движение всех мышц и регуляцию организма. Простая схема — вход, функция, выход. Входная информация, это информация из среды. Наше тело так же является средой для информационной функции нашего мозга. Вообще средой можно назвать всё, что даёт информацию мозгу. Мозг получает эту информацию из окружающего нас мира, а так же от сенсоров внутренних органов, а именно об их текущем и прошлом состоянии. Информация поступает постоянным плавным потоком в мозг и хранится в нем какое-то время, что даёт ему возможность взглянуть целиком на график за какой-то последний промежуток времени, а не только исключительно на текущий момент. Что ж, давайте подробно углубимся, куда эта информация поступает и как преобразуется. Я уверен, что эту схему поймёт даже 7 летний ребёнок, и это именно та универсальная формула интеллекта, которой пользуются все высшие организмы на земле.

Читать далее

Использование геолокационных данных в машинном обучении: основные методы

Reading time10 min
Views8.1K

Данные о местоположении — это важная категория данных, с которыми часто приходится иметь дело в проектах машинного обучения. Они, как правило, дают дополнительный контекст к данным используемого приложения. Специально к старту нового потока курса по Machine Learning, делимся с вами кратким руководством по проектированию и визуализации элементов с геопространственными данными.

Читать далее

Как я автоматизировал однотипную, монотонную работу бесплатно и без навыков программирования

Reading time3 min
Views42K

Многим знакома проблема однотипных действий за компьютером, особенно на офисных работах. Заполнение каких-то данных в таблицу, размещение постов в социальных сетях, поиск в базе данных и заполнение отчетов. И если для программистов решение такой задачи не составит труда, то что делать обычным офисным работникам?

Я долго мучался над подобной проблемой, был период когда вся моя работа заключалась в сравнении данных в Excel, SAP и ещё парочки источников, но так как я очень ленив, стал искать способ как это дело можно автоматизировать и вот уже два года, я с некой периодичностью создаю новые или редактирую старые программы действий для компьютера (скрипты или сценарии), позволяя ему работать вместо меня, а себе гонять чай в рабочее время посматривая на экран. Я не стал супер экспертом по автоматизированию (RPA разработка если по научному), но работа стала приносить намного меньше стресса.

Читать далее

Искусственный интеллект в юриспруденции. Вебинар № 1: Обзор последних достижений в области AI

Reading time2 min
Views4.7K

Сегодня тема искусственного интеллекта продолжает набирать популярность. Мы слышим новости и упоминания о ней практически во всех СМИ, однако найти по-настоящему содержательную информацию не так просто. Мы решили продолжить развитие данной темы и открываем цикл вебинаров об искусственном интеллекте в юриспруденции.


Фейс-контроль для лимонов и марсианская клубника: как я попал на стажировку в Россельхозбанк после участия в DS-конкурсе

Reading time10 min
Views4.5K

Думаю, осталось не так много людей, которые не слышали о хакатонах и соревнованиях по Data Science. О них полгода назад услышал и я. Участвуя во всём, что видел (и что-то даже выигрывая), я не смог пройти мимо AgroCode 2020, организованного Россельхозбанком. Мне удалось попасть в топ лучших участников по нескольким направлением, а в одном - и вовсе взять призовое место. Благодаря этим достижениям я стал Data Science специалистом в Центре Развития Финансовых Технологий Россельхозбанка. А как у меня это вышло – читайте ниже.

Читать далее

HMM: ловим мошеннические транзакции

Reading time5 min
Views5.7K

Три года я проработал в Сербии iOS-евангелистом - было два профильный проекта и один Machine Learning-овый.

Если вам стало интересно - добро пожаловать в мир HMM.

Читать далее

Как магия машинного обучения меняет нашу жизнь

Reading time4 min
Views5.1K

Много лет назад я загорелась идеей – научиться программированию, создав собственный сайт. Тогда я ничего не понимала в компьютерах и тем более в серверах. И только одна мысль о том, сколько же мне предстоит узнать нового, будила во мне необыкновенный интерес. Перед сном я обдумывала сотни вариантов своего сайта – от параллакс-эффекта при прокручивании до шрифтов из Google Fonts – и мечтала о будущих проектах.

Прошли годы, и теперь я профессиональный инженер и решаю серьезные технологические задачи – они действительно гораздо сложнее, чем мой первый сайт! Тем не менее, я часто вспоминаю ощущения и эмоции, которые испытала тогда, делая первые шаги в программировании.

Один из веселых способов познакомиться с машинным обучением – это создать что-то для себя. В этой статье я расскажу, как это сделать.

Работая в сфере технологий, вы посвящаете свою жизнь учебе. Глазом не успеешь моргнуть, как самое совершенное ПО моментально заменяется чем-то более продвинутым (хотя я все никак не могу отвыкнуть от старого доброго Vim).

Одно из интереснейших направлений в ИТ – машинное обучение. Большинству из нас не рассказывали о нем в вузах (а у некоторых вообще не было уроков информатики), но скоро машинное обучение станет повсеместным, и оно изменит процесс разработки ПО во всех областях. Неудивительно, что меня часто спрашивают, с чего лучше начать изучение машинного обучения.

Обычно я советую обратиться к таким ресурсам, как курс компании Google под названием Machine Learning Crash Course, а также книга Прикладное машинное обучение с помощью Scikit-Learn, Keras и TensorFlow и курс на сайте Coursera Машинное обучение (автор: Andrew Ng), который нацелен не только на теоретические основы, но и на практику.

Читать далее

Открытый курс машинного обучения. Тема 9. Анализ временных рядов с помощью Python

Reading time27 min
Views376K

Доброго дня! Мы продолжаем наш цикл статей открытого курса по машинному обучению и сегодня поговорим о временных рядах.


Посмотрим на то, как с ними работать в Python, какие возможные методы и модели можно использовать для прогнозирования; что такое двойное и тройное экспоненциальное взвешивание; что делать, если стационарность — это не про вас; как построить SARIMA и не умереть; и как прогнозировать xgboost-ом. И всё это будем применять к примеру из суровой реальности.


UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.


Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Читать дальше →

Анализ временных рядов с помощью python

Reading time8 min
Views196K
Добрый день, уважаемые читатели.
В сегодняшней статье, я попытаюсь описать процесс анализа временных рядов с помощью python и модуля statsmodels. Данный модуль предоставляет широкий набор средств и методов для проведения статистического анализа и эконометрики. Я попытаюсь показать основные этапы анализа таких рядов, в заключении мы построим модель ARIMA.
Для примера взяты реальные данные по товарообороту одного из складских комплексов Подмосковья.
Читать дальше →

Как создать отдел Data Science и не облажаться

Reading time5 min
Views16K


Data Science начал приходить не только в большие компании, но и в маленькие, и даже в стартапы. Однако очень часто у топ-менеджеров нет понимания, что требуется для его успешного применения. Многие думают, что один дата-саентист за месяц решит все проблемы компании, а искусственный интеллект по щелчку начнет идеально работать во всех отделах. К сожалению, это не так. Меня зовут Иван Серов и в этом посте я расскажу, с чего нужно начинать создавать отдел DS и с какими трудностями это сопряжено.
Читать дальше →

Как быть data driven. С самого начала

Reading time7 min
Views25K
Цифры много значат для нас. Мы инвестируем в данные, слушаем и понимаем их. Мы руководствуемся ими при принятии решений. Несмотря на то, что в плане инфраструктуры работы с данными у нас еще многое впереди, сам data driven подход был с нами всегда. В этом тексте — рассказ о том, какой путь мы прошли, какие уроки выучили и какие грабли собрали.

image
Читать дальше →

Как проверить подлинность банкнот с помощью нейросети

Reading time13 min
Views2.6K

Разработка прогнозной модели нейронной сети для нового набора данных может оказаться сложной задачей.

Один из подходов состоит в том, чтобы сначала проверить набор данных и разработать идеи о том, какие модели могут работать, затем изучить динамику обучения простых моделей в наборе данных, а затем, наконец, разработать и настроить модель для набора данных с помощью надёжного тестового набора.

Этот процесс можно использовать для разработки эффективных моделей нейронных сетей для задач классификации и регрессионного прогнозного моделирования.

В этом руководстве вы узнаете, как разработать модель нейронной сети многослойного персептрона для набора данных двоичной классификации банкнот.

Читать далее

Краткий обзор NLP библиотеки SpaСy

Reading time5 min
Views38K

Обработка естественного языка(Natural Language Processing — NLP) сегодня становится очень востребованной, так как людям несомненно проще общаться с машинами также, как они общаются с людьми.


image


Поэтому сейчас, вместе с быстрым развитием этой области, всё больше сервисов используют NLP: чат-боты, в которых больше не нужно выбирать готовые ответы, голосовые ассистенты, электронная почта, чтобы автоматически сортировать письма и так далее. В этом посте я хочу рассказать об относительно новой Python библиотеке SpaCy, которая стала, если не индустриальным стандартом, как кричат заявляют сами создатели на сайте библиотеки: https://spacy.io/, то как минимум одним из самых популярных и удобных решений. Приятного чтения!

Читать дальше →

Материалы NLP курса от DeepPavlov

Reading time4 min
Views27K

В этой статье вы найдете материалы очных курсов «Deep Learning in NLP», которые запускались командой DeepPavlov в 2018-2019 годах и которые являлись частичной адаптацией Stanford NLP course — cs224n. Статья будет полезна любым специалистам, погружающимися в обработку текста с помощью машинного обучения. Благодарю физтехов, разрабатывающих открытую библиотеку для разговорного искусственного интеллекта в МФТИ, и Moryshka за разрешение осветить эту тему на Хабре в нашем ods-блоге.


Читать дальше →

Извлечение сущностей из текста с помощью Stanford NLP с нуля

Reading time4 min
Views14K
Данная статья предназначена для тех, кто никогда не работал со Stanford nlp и столкнулся с необходимостью в кратчайшие сроки изучить его и применить.

Данный софт достаточно распространен, и, в частности, наша фирма — БалтИнфоКом — использует эту программу.

Для начала надо понять простую вещь: Stanford NLP работает по принципу аннотирования слов, то есть на каждое слово «навешиваются» одна или более аннотаций, например POS (Part of Speech — часть речи), NER (Named-Entity Recognizing – именованная сущность) и т.д.

Первое, что видит новичок, зайдя на сайт Stanford NLP в раздел "быстрый старт", это следующую конструкцию:

Properties props = new Properties();
props.setProperty("annotators", "tokenize,ssplit,pos,lemma,ner,regexner,parse,depparse,coref");
StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
// create a document object
CoreDocument document = new CoreDocument(text);
// annnotate the document
pipeline.annotate(document);

Здесь StanfordCoreNLP – это конвейер, на вход которому подается наш текст, предварительно упакованный в обьект CoreDocument. StanfordCoreNLP, это самый главный и часто используемый объект во всей структуре, с помощью которого происходит вся основная работа.

Сначала задаем параметры в StanfordCoreNLP и указываем, осуществление каких действий нам нужно. При этом все возможные комбинации этих параметров можно найти на официальном сайте по этой ссылке.

  • tokenize – соответственно разбиение на токены
  • ssplit – разбиение на предложение
  • pos — определение части речи
  • lemma – добавление к каждому слову его начальной формы
  • ner — определение именованных сущностей, таких как «Организация», «Лицо» и т.д.
Читать дальше →

DeepPavlov для разработчиков: #1 инструменты NLP и создания чат-ботов

Reading time5 min
Views36K
Всем привет! Мы открываем цикл статей, посвященных решению практических задач, связанных с обработкой естественного языка (Natural Language Processing или просто NLP) и созданием диалоговых агентов (чат-ботов) с помощью open-source библиотеки DeepPavlov, которую разрабатывает наша команда лаборатории Нейронных систем и глубокого обучения МФТИ. Главная цель цикла — познакомить широкий круг разработчиков с DeepPavlov и показать, как можно решать прикладные задачи NLP, не обладая при этом глубокими познаниями в Machine Learning и PhD in Mathematics.

К NLP задачам относят определение тональности текста, парсинг именованных сущностей, определение того, что хочет от вашего бота собеседник: заказать пиццу или получить справочную информацию и многое другое. Более подробно про задачи и методы NLP вы можете прочитать тут.

В этой статье мы расскажем, как запустить REST север с предобученными моделями NLP, готовыми к использованию без какой-либо дополнительной настройки или обучения.

Все статьи цикла:
1. DeepPavlov для разработчиков: #1 инструменты NLP и создания чат-ботов
2. DeepPavlov для разработчиков: #2 настройка и деплоймент


Читать дальше →

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

Reading time34 min
Views109K
Два года назад я писал на Хабр статью про Yargy-парсер и библиотеку Natasha, рассказывал про решение задачи NER для русского языка, построенное на правилах. Проект хорошо приняли. Yargy-парсер заменил яндексовый Томита-парсер в крупных проектах внутри Сбера, Интерфакса и РИА Новостей. Библиотека Natasha сейчас встроена в образовательные программы ВШЭ, МФТИ и МГУ.

Проект подрос, библиотека теперь решает все базовые задачи обработки естественного русского языка: сегментация на токены и предложения, морфологический и синтаксический анализ, лемматизация, извлечение именованных сущностей.

Для новостных статей качество на всех задачах сравнимо или превосходит существующие решения. Например с задачей NER Natasha справляется на 1 процентный пункт хуже, чем Deeppavlov BERT NER (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек), чем BERT NER на GPU.

В проекте 9 репозиториев, библиотека Natasha объединяет их под одним интерфейсом. В статье поговорим про новые инструменты, сравним их с существующими решениями: Deeppavlov, SpaCy, UDPipe.

Information

Rating
Does not participate
Location
Саратов, Саратовская обл., Россия
Registered
Activity