Data Science на CodeFest: аромат революции / Habr

Самость, в первом приближении, параллельна. Автоматизм реально творит эгоцентризм. Идеи гедонизма занимают центральное место в утилитаризме Милля и Бентама, однако сомнение трансформирует феноменологический конфликт. Код начинает понимающий гендер.

Спонсор вступления Яндекс.Рефераты.

Data Science и Machine Learning уже давно проникли как в нашу жизнь, так и на CodeFest, но впервые мы выделяем их в отдельную секцию. Потому что больше секций богу секций!

Слово предоставляется куратору секции bond005. Он будет рад вашим лойсам и кармическим воздаяниям, кстати.

Что будет в секции Data Science?

Прежде чем написать об этом, сделаю маленькое (совсем маленькое!) философское отступление.

Мы, люди — социальные существа, и не можем без общения: в офисной переговорке на работе или же за бокалом пива в уютном баре. Но не любое общение «одинаково полезно». Есть профессии — например, оператор колл-центра — в которых общение с разными, иногда не самыми приятными, людьми составляет весь смысл работы и длится изо дня в день, неделю за неделей. Тогда общение превращается в тяжёлый, психологически изматывающий труд, который невозможно облегчить или автоматизировать. Или возможно?

Кажется, в данном случае алгоритму надо не просто распознать котика на картинке из ImageNet, а понять (услышать или прочесть), что хочет собеседник, ответить ему адекватно, «впопад», при необходимости что-то переспросить или уточнить. Непростая задача!

Непростая, но решаемая современными методами искусственного интеллекта. И потому не случайно получилось так, что большинство выступлений наших спикеров на секции будет посвящено методам и технологиям решения этой задачи.

Помогут нам в этом или нет нейронные сети? И какие они, современные нейросетевые архитектуры для текстов и общения? Может ли справиться с ними простой IT-шник? «Нейронные сети в обработке текста: хайп или всерьез и надолго?» — об этом расскажет нам специалист по компьютерной лингвистике, основатель проекта rusvectores.org, научный сотрудник Университета Осло Андрей Кутузов.

А что, если мы хотим научить наш алгоритм не только читать, но и слышать? Как сделать хорошую систему распознавания речи? И вообще, что такое «хорошо» применительно к речевым технологиям? Что содержится «под капотом» нового поколения систем распознавания речи? Достаточно ли нам старой доброй классики — скрытых марковских моделей, или же нейросети — и здесь «наше всё»? Ответы на эти вопросы, волнующие многих (а меня уж точно), даст в своём рассказе Николай Шмырёв, руководитель компании «АЦ Технологии» и один из основных контрибьюторов в open source проектов по распознаванию речи CMU Sphinx и Kaldi.

Хорошо, мы услышали человека или прочитали его сообщение, распознали текст. А как извлечь из текста то главное, что хотел до нас донести наш собеседник? Задачу суммаризации (автореферирования) текста пытаются решить уже давно. Помню, я когда-то использовал одну из систем суммаризации для подготовки реферата по философии в университете. А как с этим дела обстоят сейчас? «Суммаризация текстов: от генерации заголовков к новостям до суммаризации всего и вся» — этому будет посвящёно выступление Даниила Гаврилова, разработчика и специалиста по машинному обучению из команды ВКонтакте.

Наконец, робот понял, что хочет от него человек. Теперь он должен достойно ответить! Может быть, даже не прозой, а стихами! Как разработать алгоритм, который умеет писать тексты, самостоятельно понимая, на какую тему надо писать, и при этом имитируя нужный стиль — важно не только для участия в поэтическом конкурсе, но и для создания воспитанного и культурного чат-бота, общающегося с клиентами в банковском колл-центре, например. Аня Мосолова из Новосибирского государственного университета в своём рассказе «Имитатор поэта, или как Пушкин писал бы через двести лет» познакомит нас с алгоритмической «начинкой» генератора текстов на русском языке, умеющего и в смысл, и в рифму!

Все эти темы, которые раскроют наши замечательные докладчики, очень важны как сами по себе, так и для конструирования современного чат-бота. В принципе, послушав их рассказы и пообщавшись с ними в экспертной зоне, вы уже сами сможете сделать (или попробовать сделать) своего чат-бота с искусственным интеллектом, умеющего поддержать разговор хоть о сортах пиццы, хоть о процентах по банковским кредитам.

Но как же не хочется проектировать и программировать всё самому, пусть даже с использованием существующих программных библиотек (о которых, кстати, вы тоже услышите в рассказах, ведь open source — это святое)! Может быть, есть какие-то готовые решения или шаблоны решений для чат-бота в целом, а не только для отдельных его компонентов? В докладе Владислава Лялина, разработчика лаборатории нейронных систем и глубокого обучения МФТИ, вы услышите решительное «да» в качестве ответа на этот вопрос. Владислав познакомит вас с проектом разговорного искусственного интеллекта iPavlov и python-библиотекой DeepPavlov, являющейся, по сути, открытой платформой для конструирования разнообразных диалоговых систем: целенаправленных чат-ботов, вопросно-ответных ботов, FAQ-чатботов и т. п.

И, наконец, не одним лишь разговорным ИИ жив Data Science! Про компьютерное зрение тоже следует помнить. Именно об этом — о пространственном зрении и автоматическом определении расположения объектов в трёхмерном мире — будет рассказ Алексея Грищенко, инженера новосибирской компании «Мотив». Алексей вместе с коллегами не так давно выиграл конкурс по компьютерному зрению, в котором нужно было создать и обучить нейросеть, точно знающую весь процесс сборки турбокомпрессора КамАЗа и умеющую контролировать рабочих на конвейере, чтобы те не напортачили. Но после победы никто не почил на лаврах, и совершенствование системы продолжается! Хотите узнать, как? Приходите на выступление Алексея!

А ещё нужно помнить про основу основ — саму технологию машинного обучения! Вне зависимости от того, какую задачу решает нейронная сеть — анализирует текст или выделяет объекты на изображении, эту нейронную сеть нужно обучить. Чем больше объём обучающих данных, тем лучше и «умнее» станет эта нейросеть, но обучение на больших данных становится очень сложным в технологическом смысле. Леонид Кулигин, разработчик и специалист по машинному обучению из Google Cloud в Мюнхене, расскажет о том, как решить проблему больших данных при обучении современных нейросетей, как работает распределенное обучение с известной нейросетевой библиотекой TensorFlow, как устроен процессинг данных и какие средства доступны для профайлинга тренировки.

Ценовая стратегия восстанавливает потребительский принцип восприятия, оптимизируя бюджеты. Точечное воздействие однообразно программирует продуктовый ассортимент. Другими словами, друзья, во-первых, с 4 марта цена повышается, а во-вторых, онлайн-трансляцию подвезли.

Общение бесценно, и с этим согласится даже разговорный ИИ!

Регистрация обязательна. Участие тоже. Приходите, будет улётно!

Data Science на CodeFest: аромат революции

Что будет в секции Data Science?

Articles

Information