• Что будет на конференции UseData Conf 2019?

      Ура! Мы завершили формирование программы конференции UseData Conf 2019! Эта конференция для тех, кто решает практические задачи с помощью методов машинного обучения. Между идеальным алгоритмом в вакууме и его применением на реальных данных часто лежит пропасть. Мы хотим, чтобы те, кто умеет преодолевать эту пропасть, встретились и смогли обменяться опытом.



      Магия машинного обучения для управленцев, истории применения ML для анализа эффективности рекламы в телевизоре, беспилотные игрушечные машинки, нефть и автомобильные номера — это лишь часть докладов на UseData 2019. Об этих и других темах подробнее под катом.
      Читать дальше →
    • Deep Learning vs common sense: разрабатываем чат-бота

        Чем больше пользователей у вашего сервиса, тем выше вероятность, что им понадобится помощь. Чат с техподдержкой — очевидное, но довольно дорогое решение. Но если применить технологии машинного обучения, можно неплохо сэкономить.

        Отвечать на простые вопросы сейчас может и бот. Более того, чат-бота можно научить определять намерения пользователя и улавливать контекст так, чтобы он мог решить большинство проблем пользователей без участия человека. Как это сделать, помогут разобраться Владислав Блинов и Валерия Баранова — разработчики популярного помощника Олега.



        Двигаясь от простых методов к более сложным в задаче разработки чат-бота, разберем вопросы практической реализации и посмотрим, какой прирост качества можно получить и сколько это будет стоить.
        Читать дальше →
        • +33
        • 6.4k
        • 1
      • Как мы обучили нейронную сеть классифицировать шурупы

          Нейронная сеть может опознать котика на фотографии, найти диван, улучшить видеозапись, нарисовать картинку из щенят или простого наброска. К этому мы уже привыкли. Новости о нейросетях появляются почти каждый день и стали обыденными. Компании Grid Dynamics поставили задачу не обыденную, а сложную — научить нейросеть находить специфический шуруп или болт в огромном каталоге интернет-магазина по одной фотографии. Задачка сложнее, чем найти котика.



          Проблема интернет-магазина шурупов — в ассортименте. Тысячи или десятки тысяч моделей. У каждого шурупа свое описание и характеристики, поэтому на фильтры нет надежды. Что делать? Искать вручную или искать в гипермаркете на полках? В обоих случаях это потеря времени. В итоге клиент устанет и пойдет забивать гвоздь. Чтобы помочь ему, воспользуемся нейросетью. Если она может находить котиков или диваны, то пусть занимается чем-то полезным — подбирает шурупы и болты. Как научить нейросеть подбирать для пользователя шурупы быстро и точно, расскажем в расшифровке доклада Марии Мацкевичус, которая в компании Grid Dynamics занимается анализом данных и машинным обучением.
          Читать дальше →
        • Жизненный цикл ML в боевых условиях

            В реальном внедрении ML само обучение занимает от силы четверть усилий. Остальные три четверти — подготовка данных через боль и бюрократию, сложный деплой часто в закрытом контуре без доступа в интернет, настройка инфраструктуры, тестирование и мониторинг. Документы на сотни листов, ручной режим, конфликты версий моделей, open source и суровый enterprise — все это ждет data scientist’а. Но такие «скучные» вопросы эксплуатации ему не интересны, он хочет разработать алгоритм, добиться высокого качества, отдать и больше не вспоминать.

            Возможно, где-то ML внедряется легче, проще, быстрее и одной кнопкой, но мы таких примеров не видели. Все, что выше — опыт компании Front Tier в финтехе и телекоме. О нем на HighLoad++ рассказал Сергей Виноградов — эксперт в архитектуре высоконагруженных систем, в больших хранилищах и тяжелом анализе данных.


            Читать дальше →
            • +17
            • 6.9k
            • 2
          • Используем данные на практике

              Между идеальным алгоритмом машинного обучения в вакууме и его применением на реальных данных часто лежит пропасть. Вроде бы берешь статью: алгоритм есть, сходимость для данных такого-то типа есть — бери и применяй. Но почему-то оказывается, что твоих данных недостаточно для обучения, да и отличаются они от модельных из статьи, потому что настоящие, не синтетические.

              Обычное дело в обосновании алгоритма ввести допущения о чистоте данных и их распределении, которых в реальной жизни не найдёшь. Например, автор статьи экспериментирует на фотографиях взрослых знаменитостей, и все у него замечательно распознается и классифицируется, а в нашем реальном примере попадаются еще и дети, и мультяшные персонажи, и на них всё внезапно ломается. Но есть люди, которые умеют с этим справляться, да так, что пропасть между теорией и практикой перестает казаться неприступной, и, стоит показать как, сразу находятся и другие желающие ее преодолеть.


              Читать дальше →
              • +21
              • 2.2k
              • 9
            • Я так хотел попасть в программный комитет конференции, и вот я здесь, и что мы будем делать?



                На разных конференциях обязанности участников программного комитета отличаются. Бывает так, что «программный комитет» и «организаторы» — в точности одни и те же люди, и каждый из них и швец, и жнец, и на дуде игрец. Тогда в круг их обязанностей внезапно попадает и выбор площадки, и аренда оборудования, и закупка еды, и маркетинг. Это очень интересные темы, но я не разбираюсь ни в одной из них. Поэтому сегодня мы сосредоточимся на том, что у программного комитета отнять невозможно: на работе с докладчиками.

                Сейчас я имею в виду не суперзвёзд, которые вдвое увеличат продажи билетов, даже если выйдут на сцену и будут просто молчать. Не тех людей, за которыми мы охотимся в надежде привлечь их на наше мероприятие всё равно в каком качестве.

                Я говорю о работе с нормальными людьми, профессионалами в своём деле, а не в выступлениях. О работе с теми, кто сам подаёт заявку на доклад через форму подачи заявок. О работе с теми, кто на самом деле обеспечивает конференциям приток свежей крови и новых знаний, без которых весь процесс очень быстро выродится.
                Читать дальше →
              • Разбор доклада Дмитрия Столярова о мониторинге Kubernetes

                  Ох, больше года прошло с предыдущего разбора, но пришла пора возвращать традиции. Сегодня смотрим доклад Дмитрия distol Столярова «Мониторинг и Kubernetes», который был представлен в мае этого года на фестивале РИТ++, и пытаемся на его примере понять, почему людям обычно нравятся доклады Дмитрия.


                  Слайды (все 344 штуки) можно найти тут.
                  Дисклеймер: про мониторинг и Kubernetes не сама статья, а доклад, который в ней разбирается.
                  Читать дальше →
                  • +49
                  • 5.6k
                  • 3
                • Пойди туда, не знаю куда: по следам конференции SmartData



                    Конференций, связанных с AI / ML / data science в последнее время и у нас стало довольно много. Организаторы до сих пор ищут форматы, концепции конференций меняются, но состав спикеров повторяется процентов на 50.

                    Задача поиска формата стояла и перед программным комитетом SmartData. Задача эта довольно размытая. Кто тот человек, который занимается анализом и / или обработкой данных, что ему интересно? От участников конференции мы получили частичные ответы на эти вопросы, но данных хочется больше. В связи с этим хочу поделиться тем представлением об идеальном мире, которое сложилось на данный момент, и пригласить читателей к дискуссии в комментариях. Помогите сделать такую конференцию, на которую вам потом самим захочется сходить.

                    Кроме вопросов о ваших интересах и задачах, за кликом вас ждут две ранее не публиковавшиеся видеозаписи выступлений с первой конференции, технический приём написания текстов на Хабр и один забавный факт о беспилотных автомобилях.
                    И кое-что ещё
                    • +26
                    • 2.7k
                    • 3
                  • Легко ли выступать на конференции в первый раз?



                      У любой конференции по мере роста постепенно накапливаются внешние атрибуты солидности и зрелости: большие залы, профессиональная фото- и видеосъёмка, слайды, наложенные на видеозапись из исходника, а не снятые на камеру, десяток-другой стендов на выставке спонсоров и прочие визитки-брошюрки.

                      В этот же момент возникает одна из болезней роста: новые люди боятся подавать заявки. Не то чтобы совсем пропадают, но их оказывается меньше, чем хотелось бы. Многие, и совершенно напрасно, рассуждают в духе «не с моим рылом в калашный ряд». На примере прошедшего Highload++ давайте посмотрим, насколько тяжело приходится докладчику-новичку. Можно ли с первого раза выступить успешно?

                      Спойлер: можно. Что для этого нужно делать?
                      Статистика, отзывы зрителей и советы новичкам
                    • Разбор доклада Ивана Круглова «Строим свой Service Mesh»

                        На каждой крупной регулярной конференции есть докладчики, которые приходят каждый год, рассказывают что-нибудь новое и всегда нравятся аудитории. Всегда быть в самом-самом топе для человека, который не занимается выступлениями профессионально, очень трудно (да и зачем), но всегда выдавать уверенно хороший материал — реально. Один из спикеров, сделавших несколько успешных докладов и на Highload++, и на РИТ++, — Иван Круглов из Booking.com.

                        Несколько дней назад в блоге Онтико уже была статья о подготовке докладчиков, посвящённая больше подаче материала, а сегодня хотелось бы рассказать о другом аспекте подготовки, которым на РИТ++ и Highload++ я в основном и занимаюсь. Давайте на примере последнего выступления Ивана рассмотрим, что важно и над чем мы при подготовке конференции работаем с докладчиками в области содержания.



                        Слайды тут.
                        Конечно, любой доклад про микросервисы или хотя бы про SOA автоматически получает +2 к харизме, но спикер ещё должен суметь этим воспользоваться.

                        Дисклеймер: про SOA только разбираемый доклад, а не сама статья.
                        Читать дальше →
                        • +14
                        • 4.5k
                        • 7
                      • Анализ доклада Никиты Макарова о револьвере, мнемонике, заведующем складом и других полезных вещах

                          В блоге JUG.ru новый разбор, на этот раз под увеличительное стекло попал Никита Макаров из «Одноклассников», многократный участник программных комитетов наших конференций. Сегодня мы рассмотрим доклад о микросервисах для автоматизации тестирования. Выступление состоялось в 2015 году на встрече devclub.eu в Таллинне:



                          Слайды доклада можно найти тут.
                          Читать дальше →
                        • Разбор доклада Артёма Гавриченкова о масштабировании TLS

                            Сегодняшняя статья посвящена докладу про безопасность. Это рассказ Артёма ximaera Гавриченкова «Масштабируя TLS», который был представлен на Highload++ в ноябре 2016 года:


                            Слайды можно найти тут.

                            Disclaimer: про сертификаты и TLS только разбираемое выступление, а не сама статья.

                            Сюжет


                            Всегда приятно смотреть, как докладчик находит в какой-то общеупотребительной вещи подводные камни, которые вас, да-да, вот именно вас, запросто могут больно задеть. Это благодатные темы, заходят они обычно на ура. При этом человеку, который глубоко занимается тем, чем обычные люди просто пользуются, всегда есть чем шокировать публику.
                            Читать дальше →
                            • +16
                            • 3.3k
                            • 2
                          • Разбор доклада Романа Неволина про F#

                              С предыдущего разбора прошло много времени, но я не бросил затею. Сегодня предлагаю вашему вниманию доклад Романа nevoroman Неволина, посвящённый тому, какой выход есть у человека, если он, во-первых, data scientist, а во-вторых, почему-то любит .NET.

                              Вполне логично, что это выступление состоялось на DotNext в декабре 2016 года:


                              Слайды можно найти тут.

                              Традиционный дисклеймер: про .NET только разбираемый в статье доклад, а не сама статья.
                              Читать дальше →
                            • Анализ доклада Алексея Виноградова про карго-культ и другие болезни

                                Всем привет, с вами снова Роман Поборчий, и сегодня для разнообразия мы смотрим доклад не хардкорно-технический, а, скорее, менеджерский. Он был представлен на SQADays-20. Автор — Алексей i_vino Виноградов, и его выступление посвящено культу карго, синдрому not-invented-here и эффекту Даннинга-Крюгера.



                                Слайды тут:


                                Читать дальше →
                              • Разбор доклада Андрея Акиньшина про арифметику

                                  Всем привет, готов ещё один разбор. Сегодня будем смотреть доклад не с JPoint, а с DotNext! Автор доклада — Андрей DreamWalker Акиньшин, и посвящено его выступление деталям реализации арифметики с плавающей точкой в .NET:


                                  Слайды можно найти здесь.

                                  Дисклеймер: про реализацию арифметики только сам разбираемый доклад, а не собственно статья.
                                  Читать дальше →
                                • Анализ доклада Баруха Садогурского с JPoint 2015

                                    Созрел ещё один разбор, в этот раз смотрим доклад Баруха jbaruch Садогурского «Как писать асинхронные многопоточные http-приложения» с JPoint 2015:


                                    Слайды тут.

                                    Про Java только разбираемый доклад, а не сама статья.
                                    Читать дальше →
                                    • +31
                                    • 7.2k
                                    • 8
                                  • Анализ доклада Руслана Черёмина с JPoint 2016

                                      Всем добрый день, с вами снова Роман Поборчий в блоге JUG.ru, и сегодня мы разбираем доклад Руслана cheremin Черёмина про escape-анализ и скаляризацию:


                                      Слайды можно посмотреть и скачать тут. Традиционный disclaimer: про Java только разбираемый в статье доклад, а не сама статья.
                                      Читать дальше →
                                      • +16
                                      • 3.6k
                                      • 8
                                    • Анализ доклада Сергея Куксенко с JPoint 2016

                                        Сегодня открываем новую рубрику: разбор технических выступлений. Если взять в целом удачный доклад с IT-конференции и формализовать в нём те моменты, благодаря которым он хорош, то можно многому научиться в плане выступлений. А если в том же докладе формализовать ещё и моменты, которые можно улучшить, то польза будет двойная. Тем, кто собирается выступать на конференциях, это пригодится. Да и тем, кто давно и успешно там выступает, это тоже не повредит.

                                        Сегодня вашему вниманию предлагается доклад Сергея Walrus Куксенко на JPoint 2016: «Quantum Performance Effects II: Beyond the Core».


                                        Слайды тут

                                        Дисклеймер: про Java только сам доклад, если вы его ещё не видели. Статья под катом — про доклад.
                                        Читать дальше →
                                      • Айтрекер на службе консультанта по презентациям



                                          Почти весь прошлый октябрь я провёл, работая с докладчиками Highload++ 2015. Поскольку конференция большая, и участники собираются из разных городов и даже стран, большая часть этой работы проходила дистанционно: у нас были вебинары, затем скайп-созвоны и только в самом конце — очные встречи. Там я особенно ярко столкнулся с типичной проблемой обучения: нужно не только показать, как правильно, а как — неправильно, но и заставить уговорить участников делать так, как сам считаешь верным. Морально тяжело провести вебинар, посвящённый слайдам, получить на него в среднем довольно хорошие отзывы (спасибо! полезно! интересно!), а затем в индивидуальной работе увидеть в слайдах те вещи, о которых специально предупреждал и просил их избегать.

                                          Логично задавшись вопросом о том, что я сделал не так, я пришёл к выводу, что, с учётом специфики аудитории, нужно прибегнуть к убеждению с помощью технических средств, подкрепить эмоции данными. Мне уже приходилось пользоваться айтрекером для анализа того, как люди пользуются, например, поиском в интернете, и я хорошо представлял себе его возможности. Что ж, решил я, заодно проверим, так ли ужасно то, чего я прошу не делать?
                                          Читать дальше →
                                        • Визуальные искажения данных

                                            Важно: эта статья не про политику!

                                            Источник: info.minfin.ru/fbrash.php
                                            Диаграмма расходов бюджета с сайта Минфина прекрасна во многих отношениях, именно с неё я начну рассказ о том, как мы, зачастую непреднамеренно, искажаем данные, выбирая для них неподходящую визуализацию. Искажение данных — на мой взгляд, безвыигрышный путь: тех, кто не заметит проблему, мы введём в заблуждение, а те, кто заметит, возможно, подумают, что мы это специально, ещё и гадостей напишут в этих ваших интернетах. Имхо, искажать данные следует только умышленно. Давайте разберёмся, как избежать в этом вопросе случайностей.
                                            Читать дальше →