Data Science на CodeFest: аромат революции

    image

    Самость, в первом приближении, параллельна. Автоматизм реально творит эгоцентризм. Идеи гедонизма занимают центральное место в утилитаризме Милля и Бентама, однако сомнение трансформирует феноменологический конфликт. Код начинает понимающий гендер.

    Спонсор вступления Яндекс.Рефераты.

    Data Science и Machine Learning уже давно проникли как в нашу жизнь, так и на CodeFest, но впервые мы выделяем их в отдельную секцию. Потому что больше секций богу секций!

    Слово предоставляется куратору секции bond005. Он будет рад вашим лойсам и кармическим воздаяниям, кстати.

    Что будет в секции Data Science?

    Прежде чем написать об этом, сделаю маленькое (совсем маленькое!) философское отступление.

    Мы, люди — социальные существа, и не можем без общения: в офисной переговорке на работе или же за бокалом пива в уютном баре. Но не любое общение «одинаково полезно». Есть профессии — например, оператор колл-центра — в которых общение с разными, иногда не самыми приятными, людьми составляет весь смысл работы и длится изо дня в день, неделю за неделей. Тогда общение превращается в тяжёлый, психологически изматывающий труд, который невозможно облегчить или автоматизировать. Или возможно?

    Кажется, в данном случае алгоритму надо не просто распознать котика на картинке из ImageNet, а понять (услышать или прочесть), что хочет собеседник, ответить ему адекватно, «впопад», при необходимости что-то переспросить или уточнить. Непростая задача!

    Непростая, но решаемая современными методами искусственного интеллекта. И потому не случайно получилось так, что большинство выступлений наших спикеров на секции будет посвящено методам и технологиям решения этой задачи.

    imageПомогут нам в этом или нет нейронные сети? И какие они, современные нейросетевые архитектуры для текстов и общения? Может ли справиться с ними простой IT-шник? «Нейронные сети в обработке текста: хайп или всерьез и надолго?» — об этом расскажет нам специалист по компьютерной лингвистике, основатель проекта rusvectores.org, научный сотрудник Университета Осло Андрей Кутузов.


    imageА что, если мы хотим научить наш алгоритм не только читать, но и слышать? Как сделать хорошую систему распознавания речи? И вообще, что такое «хорошо» применительно к речевым технологиям? Что содержится «под капотом» нового поколения систем распознавания речи? Достаточно ли нам старой доброй классики — скрытых марковских моделей, или же нейросети — и здесь «наше всё»? Ответы на эти вопросы, волнующие многих (а меня уж точно), даст в своём рассказе Николай Шмырёв, руководитель компании «АЦ Технологии» и один из основных контрибьюторов в open source проектов по распознаванию речи CMU Sphinx и Kaldi.


    imageХорошо, мы услышали человека или прочитали его сообщение, распознали текст. А как извлечь из текста то главное, что хотел до нас донести наш собеседник? Задачу суммаризации (автореферирования) текста пытаются решить уже давно. Помню, я когда-то использовал одну из систем суммаризации для подготовки реферата по философии в университете. А как с этим дела обстоят сейчас? «Суммаризация текстов: от генерации заголовков к новостям до суммаризации всего и вся» — этому будет посвящёно выступление Даниила Гаврилова, разработчика и специалиста по машинному обучению из команды ВКонтакте.


    imageНаконец, робот понял, что хочет от него человек. Теперь он должен достойно ответить! Может быть, даже не прозой, а стихами! Как разработать алгоритм, который умеет писать тексты, самостоятельно понимая, на какую тему надо писать, и при этом имитируя нужный стиль — важно не только для участия в поэтическом конкурсе, но и для создания воспитанного и культурного чат-бота, общающегося с клиентами в банковском колл-центре, например. Аня Мосолова из Новосибирского государственного университета в своём рассказе «Имитатор поэта, или как Пушкин писал бы через двести лет» познакомит нас с алгоритмической «начинкой» генератора текстов на русском языке, умеющего и в смысл, и в рифму!


    imageВсе эти темы, которые раскроют наши замечательные докладчики, очень важны как сами по себе, так и для конструирования современного чат-бота. В принципе, послушав их рассказы и пообщавшись с ними в экспертной зоне, вы уже сами сможете сделать (или попробовать сделать) своего чат-бота с искусственным интеллектом, умеющего поддержать разговор хоть о сортах пиццы, хоть о процентах по банковским кредитам.

    Но как же не хочется проектировать и программировать всё самому, пусть даже с использованием существующих программных библиотек (о которых, кстати, вы тоже услышите в рассказах, ведь open source — это святое)! Может быть, есть какие-то готовые решения или шаблоны решений для чат-бота в целом, а не только для отдельных его компонентов? В докладе Владислава Лялина, разработчика лаборатории нейронных систем и глубокого обучения МФТИ, вы услышите решительное «да» в качестве ответа на этот вопрос. Владислав познакомит вас с проектом разговорного искусственного интеллекта iPavlov и python-библиотекой DeepPavlov, являющейся, по сути, открытой платформой для конструирования разнообразных диалоговых систем: целенаправленных чат-ботов, вопросно-ответных ботов, FAQ-чатботов и т. п.


    imageИ, наконец, не одним лишь разговорным ИИ жив Data Science! Про компьютерное зрение тоже следует помнить. Именно об этом — о пространственном зрении и автоматическом определении расположения объектов в трёхмерном мире — будет рассказ Алексея Грищенко, инженера новосибирской компании «Мотив». Алексей вместе с коллегами не так давно выиграл конкурс по компьютерному зрению, в котором нужно было создать и обучить нейросеть, точно знающую весь процесс сборки турбокомпрессора КамАЗа и умеющую контролировать рабочих на конвейере, чтобы те не напортачили. Но после победы никто не почил на лаврах, и совершенствование системы продолжается! Хотите узнать, как? Приходите на выступление Алексея!


    imageА ещё нужно помнить про основу основ — саму технологию машинного обучения! Вне зависимости от того, какую задачу решает нейронная сеть — анализирует текст или выделяет объекты на изображении, эту нейронную сеть нужно обучить. Чем больше объём обучающих данных, тем лучше и «умнее» станет эта нейросеть, но обучение на больших данных становится очень сложным в технологическом смысле. Леонид Кулигин, разработчик и специалист по машинному обучению из Google Cloud в Мюнхене, расскажет о том, как решить проблему больших данных при обучении современных нейросетей, как работает распределенное обучение с известной нейросетевой библиотекой TensorFlow, как устроен процессинг данных и какие средства доступны для профайлинга тренировки.

    Ценовая стратегия восстанавливает потребительский принцип восприятия, оптимизируя бюджеты. Точечное воздействие однообразно программирует продуктовый ассортимент. Другими словами, друзья, во-первых, с 4 марта цена повышается, а во-вторых, онлайн-трансляцию подвезли.

    Общение бесценно, и с этим согласится даже разговорный ИИ!

    Регистрация обязательна. Участие тоже. Приходите, будет улётно!
    CodeFest
    63,00
    Компания
    Поделиться публикацией

    Похожие публикации

    Комментарии 5

      +5
      Зрение, речь и тексты, а также большие нейросетки — это все, конечно, очень занимательно, но одновременно весьма бесполезно для простого смертного, как я. Мне кажется, что для большинства из нас Data Science — это умение ловко анализировать цифры, много цифр. Динамики, сегменты, девиации. И на эту тему ни одного доклада. :(
        0
        Сергей, привет! Думаю, что вы преуменьшаете свои возможности или желания. Согласен, что Data Science секция получаетя NLP/NLU-biased, что связано с интересами куратора секции bond005. В свою очередь рекомендую зарегистрироваться в ods.ai и читать блог habr.com/ru/company/ods, где информация о ML/DS представлена более равномерно. Полезный открытый курс от ODS mlcourse.ai
          +1
          хм, а давайте сделаем квартирник на эту тему на CodeFest? Зазовём нескольких-всех спикеров, всех интересующихся и пообмениваемся опытом?
            +1
            если будет про реальные данные, то свисти — подтянемся.
            0
            Привет! Действительно, секция получилась несколько смещённой в сторону NLP и компьютерной лингвистики. Но, по-моему, это не баг, а фича! И по собственному опыту, и по опыту моих коллег могу судить, что сейчас становится всё больше и больше прикладных задач, связанных с чат-ботами и компьютерной лингвистикой. Кроме того, есть исследовательские прорывы в этой области за 2018 год. И потому акцент на ML в обработке естественного языка получился довольно естественным (простите за каламбур!)

          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

          Самое читаемое