• Рынок систем детекции и распознавания: Эмоции и «эмоциональные вычисления»

      В наши дни технологии по распознаванию перестают быть недосягаемыми. Распознавание эмоций и «эмоциональные вычисления» являются частью большого пласта науки, также включающего такие основополагающие понятия, как распознавание образов и обработка визуальной информации. Этим постом мы хотим открыть наш блог на Хабре и провести небольшой обзор решений, представленных на рынке систем распознавания эмоций — взглянем, какие компании работают в этом сегменте и чем конкретно они занимаются.

      Читать дальше →
    • CRISP-DM: проверенная методология для Data Scientist-ов

        Постановка задач машинного обучения математически очень проста. Любая задача  классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.

        Методология анализа данных CRISP-DM упоминается во многих постах на Хабре, но я не смог найти ее подробных русскоязычных описаний и решил своей статьей восполнить этот пробел. В основе моего материала – оригинальное описание и адаптированное описание от IBM. Обзорную лекцию о преимуществах использования CRISP-DM можно посмотреть, например, здесь.


        * Crisp (англ.) — хрустящий картофель, чипсы
        Читать дальше →
      • Байесовские многорукие бандиты против A/B тестов

          Здравствуйте, коллеги. Рассмотрим обычный онлайн-эксперимент в некоторой компании «Усы и когти». У неё есть веб-сайт, на котором есть красная кнопка в форме прямоугольника с закругленными краями. Если пользователь нажимает на эту кнопку, то где-то в мире мурлычет от радости один котенок. Задача компании — максимизация мурлыкания. Также есть отдел маркетинга, который усердно исследует формы кнопок и то, как они влияют на конверсию показов в клико-мурлыкания. Потратив почти весь бюджет компании на уникальные исследования, отдел маркетинга разделился на четыре противоборствующие группировоки. У каждой группировки есть своя гениальная идея того, как должна выглядеть кнопка. В целом никто не против формы кнопки, но красный цвет раздражает всех маркетологов, и в итоге было предложено четыре альтернативных варианта. На самом деле, даже не так важно, какие именно это варианты, нас интересует тот вариант, который максимизирует мурлыкания. Маркетинг предлагает провести A/B/n-тест, но мы не согласны: и так на эти сомнительные исследования спущено денег немерено. Попробуем осчастливить как можно больше котят и сэкономить на трафике. Для оптимизации трафика, пущенного на тесты, мы будем использовать шайку многоруких байесовских бандитов (bayesian multi-armed bandits). Вперед.

          Читать дальше →
        • Предсказываем популярность статьи на TJ

          Однажды томным вечером, сидя напротив мелькающей ленты tjournal и попивая ромашковый чай, внезапно обнаружил себя за чтением статьи про советскую лампочку, которая освещала чей-то подъезд уже 80 лет. Да, весьма интересно, но все же я предпочитаю статьи про политику достижения ИИ в игре дум, приключения ракет SpaceX и, в конце концов, — с наибольшим кол-вом просмотров. А какие вообще статьи набирают внушительные рейтинги? Посты размером с твит про какую-то политическую акцию или же талмуды с детальным анализом российской киноиндустрии? Ну что же, тогда самое время расчехлять свой Jupyter notebook и выводить формулу идеальной статьи.


          Читать дальше →
          • +19
          • 9,1k
          • 6
        • Открытый курс машинного обучения. Тема 2: Визуализация данных c Python


            Второе занятие посвящено визуализации данных в Python. Сначала мы посмотрим на основные методы библиотек Seaborn и Plotly, затем поанализируем знакомый нам по первой статье набор данных по оттоку клиентов телеком-оператора и подглядим в n-мерное пространство с помощью алгоритма t-SNE. Есть и видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).


            UPD: теперь курс — на английском языке под брендом mlcourse.ai со статьями на Medium, а материалами — на Kaggle (Dataset) и на GitHub.


            Сейчас статья уже будет существенно длиннее. Готовы? Поехали!

            Читать дальше →
          • Нейронные сети для начинающих. Часть 2



              Добро пожаловать во вторую часть руководства по нейронным сетям. Сразу хочу принести извинения всем кто ждал вторую часть намного раньше. По определенным причинам мне пришлось отложить ее написание. На самом деле я не ожидал, что у первой статьи будет такой спрос и что так много людей заинтересует данная тема. Взяв во внимание ваши комментарии, я постараюсь предоставить вам как можно больше информации и в то же время сохранить максимально понятный способ ее изложения. В данной статье, я буду рассказывать о способах обучения/тренировки нейросетей (в частности метод обратного распространения) и если вы, по каким-либо причинам, еще не прочитали первую часть, настоятельно рекомендую начать с нее. В процессе написания этой статьи, я хотел также рассказать о других видах нейросетей и методах тренировки, однако, начав писать про них, я понял что это пойдет вразрез с моим методом изложения. Я понимаю, что вам не терпится получить как можно больше информации, однако эти темы очень обширны и требуют детального анализа, а моей основной задачей является не написать очередную статью с поверхностным объяснением, а донести до вас каждый аспект затронутой темы и сделать статью максимально легкой в освоении. Спешу расстроить любителей “покодить”, так как я все еще не буду прибегать к использованию языка программирования и буду объяснять все “на пальцах”. Достаточно вступления, давайте теперь продолжим изучение нейросетей.
              Читать дальше →
            • 10 причин, по которым ваш дата-проект провалится

              • Перевод

              Введение


              Наука, связанная с обработкой данных, продолжает волновать людей, однако реальные результаты нередко вызывают разочарование у заинтересованных бизнесменов. Как мы можем снизить риски и обеспечить соответствие результатов ожиданиям? Работа в качестве технического специалиста на стыке НИОКР и коммерческих операций дала мне представление о проблемах, которые стоят на этом пути. Я представляю свою личную точку зрения на наиболее распространённые виды провалов и неудач проектов, связанных с информатикой.
              Читать дальше →
              • +13
              • 9,2k
              • 3
            • Chatbot на базе рекуррентной нейронной сети своими руками за 1 вечер/6$ и ~ 100 строчек кода

              • Перевод
              • Tutorial
              В данной статье я хочу показать насколько просто сегодня использовать нейронные сети. Вокруг меня довольно много людей одержимы идеей того, что нейронки может использовать только исследователь. И что бы получить хоть какой то выхлоп, нужно иметь как минимуму кандидатскую степень. А давайте на реальном примере посмотрим как оно на самом деле, взять и с нуля за один вечер обучить chatbot. Да еще не просто абы чем а самым что нинаесть ламповым TensorFlow. При этом я постарался описать все настолько просто, что-бы он был понятен даже начинающему программисту! В путь!

              image
              Читать дальше →
            • Как сейчас используют нейросети: от научных проектов до развлекательных сервисов

                В 1960-х годах появился новый подраздел информатики — искусственный интеллект (ИИ). Полвека спустя инженеры продолжают развивать обработку естественного языка и машинное обучение, чтобы оправдать надежды на появление сильного ИИ.

                Мы в 1cloud пишем в блоге не только о себе [клиентоориентированность, безопасность], но и разбираем занимательные темы вроде ментальных моделей или систем хранения данных на основе ДНК.

                Сегодня мы расскажем о том, как машинное обучение используется сейчас: почему нейронные сети популярны у физиков, как работают рекомендательные алгоритмы YouTube и поможет ли машинное обучение «перепрограммировать» наши болезни.


                / Zufzzi / Wikimedia / CC0
                Читать дальше →
                • +18
                • 20,2k
                • 8
              • Нейронные сети для начинающих. Часть 1

                image

                Привет всем читателям Habrahabr, в этой статье я хочу поделиться с Вами моим опытом в изучении нейронных сетей и, как следствие, их реализации, с помощью языка программирования Java, на платформе Android. Мое знакомство с нейронными сетями произошло, когда вышло приложение Prisma. Оно обрабатывает любую фотографию, с помощью нейронных сетей, и воспроизводит ее с нуля, используя выбранный стиль. Заинтересовавшись этим, я бросился искать статьи и «туториалы», в первую очередь, на Хабре. И к моему великому удивлению, я не нашел ни одну статью, которая четко и поэтапно расписывала алгоритм работы нейронных сетей. Информация была разрознена и в ней отсутствовали ключевые моменты. Также, большинство авторов бросается показывать код на том или ином языке программирования, не прибегая к детальным объяснениям.

                Поэтому сейчас, когда я достаточно хорошо освоил нейронные сети и нашел огромное количество информации с разных иностранных порталов, я хотел бы поделиться этим с людьми в серии публикаций, где я соберу всю информацию, которая потребуется вам, если вы только начинаете знакомство с нейронными сетями. В этой статье, я не буду делать сильный акцент на Java и буду объяснять все на примерах, чтобы вы сами смогли перенести это на любой, нужный вам язык программирования. В последующих статьях, я расскажу о своем приложении, написанном под андроид, которое предсказывает движение акций или валюты. Иными словами, всех желающих окунуться в мир нейронных сетей и жаждущих простого и доступного изложения информации или просто тех, кто что-то не понял и хочет подтянуть, добро пожаловать под кат.
                Читать дальше →
              • Сколько нужно нейронов, чтобы распознать сводку моста?

                  История началась, когда я переехал жить на остров Декабристов в Санкт-Петербурге. Ночью, когда мосты развели, этот остров вместе с Васильевским полностью изолирован от большой земли. Мосты при этом нередко сводят досрочно, иногда на час раньше опубликованного расписания, но оперативной информации об этом нигде нет.


                  После второго "опоздания" на мосты, я задумался об источниках информации о досрочной сводке мостов. Одним из пришедших в голову вариантов была информация с публичных веб-камер. Вооружившись этими данными и остаточными знаниями со специализации по ML от МФТИ и Яндекса, я решил попробовать решить задачу "в лоб".


                  0, Дворцовый
                  Картинки и кишочки под катом
                • А если найду? Перелет еще дешевле чем вы уже нашли

                    Если вы планируете поездку и уже нашли недорогой перелет, не спешите покупать билеты, потому что сейчас вы найдете билеты еще дешевле. И это не реклама очередного говноагрегатора.

                    Всем известно, что авиакомпании берут свои цены с потолка. Маркетологи придумывают хитроумные непрозрачные схемы отъёма денег у пассажиров пропорционально финансовым возможностям последних. Так, чтобы богатые платили за билеты побольше, а бедные — сколько смогут.

                    Читать дальше →
                  • Badoo перешли на PHP7 и сэкономили $1M

                      Badoo перешли на PHP7 и сэкономили $1M

                      Мы сделали это! Несколько сотен наших application-серверов переведены на PHP7 и прекрасно себя чувствуют. Насколько нам известно, это второй переход на PHP7 проекта такого масштаба (после Etsy). В процессе мы нашли несколько очень неприятных багов в системе кеширования байт-кода PHP7, но они исправлены. А теперь — ура! — благая весть для всего PHP-сообщества: PHP7 действительно готов к продакшену, стабилен, потребляет значительно меньше памяти и дает очень хороший прирост производительности. Ниже мы подробно расскажем, как мы перешли на PHP7, с какими трудностями столкнулись, как с ними боролись и какие результаты получили.
                      Читать дальше →
                    • Прокачай себя методом кнута

                        image

                        Вы из числа счастливчиков, которые поставили цель и напрямую идут к ней, расшвыривая в разные стороны помехи? Круто! Но даже у супергероев бывает время, когда очень сложно организовать себя. И здесь на помощь вам придет… кнут. Нет, не настоящий, но очень эффективный.
                        Читать дальше →
                        • +7
                        • 10,9k
                        • 7
                      • Знакомьтесь, линейные модели

                          Машинное обучение шагает по планете. Искусственный интеллект, поскрипывая нейронными сетями, постепенно опережает людей в тех задачах, до которых успел дотянуться своими нейронами. Однако не стоит забывать и про простую модель линейной регрессии. Во-первых, потому что на ней построены многие сложные методы машинного обучения, включая нейронные сети. А, во-вторых, потому что зачастую прикладные бизнес-задачи легко, быстро и качественно решаются именно линейными моделями.
                          И для начала небольшой тест. Можно ли с помощью линейной модели описать:
                          — зависимость веса человека от его роста?
                          — длительность ожидания в очереди в магазине в разное время суток?
                          — посещаемость сайта в фазе экспоненциального роста?
                          — динамику во времени количества человек, ожидающих поезда на станции метро?
                          — вероятность, что клиент не оформит заказ на сайте в зависимости от его производительности?
                          Как вы догадываетесь, на все вопросы ответ будет «Да, можно». Так что линейные модели не так просты, как может показаться на первый взгляд. Поэтому давайте познакомимся с их богатым разнообразием.
                          Читать дальше →
                        • Архитектура Stack Overflow

                          • Перевод
                          image

                          Чтобы понять, как все это работает, давайте начнем с показателей Stack Overflow. Итак, ниже приводится статистика за 12 ноября 2013 и 9 февраля 2016 года:

                          статистика
                          • 209,420,973 (+61,336,090) HTTP-запросов к нашему балансировщику нагрузки;
                          • 66,294,789 (+30,199,477) страниц было загружено;
                          • 1,240,266,346,053 (+406,273,363,426) битов (1.24 TБ) отосланного HTTP-трафика;
                          • 569,449,470,023 (+282,874,825,991) битов (569 ГБ) всего получено;
                          • 3,084,303,599,266 (+1,958,311,041,954) битов (3.08 ТБ) всего отослано;
                          • 504,816,843 (+170,244,740) SQL-запросов (только из HTTP-запросов);
                          • 5,831,683,114 (+5,418,818,063) обращений к Redis;
                          • 17,158,874 (not tracked in 2013) поисков в Elastic;
                          • 3,661,134 (+57,716) запросов Tag Engine;
                          • 607,073,066 (+48,848,481) мс (168 часов) выполнения SQL-запросов;
                          • 10,396,073 (-88,950,843) мс (2.8 часов) затрачено на обращение к Redis;
                          • 147,018,571 (+14,634,512) мс (40.8 часов) затрачено на запросы к Tag Engine;
                          • 1,609,944,301 (-1,118,232,744) мс (447 часов) затрачено на обработку в ASP.Net;
                          • 22.71 (-5.29) мс в среднем (19.12 мс в ASP.Net) на формирование каждой из 49,180,275 запрошенных страниц;
                          • 11.80 (-53.2) мс в среднем (8.81 мс в ASP.Net) на формирование каждой из 6,370,076 домашних страниц.


                          Вы можете спросить, почему существенно сократилась продолжительность обработки в ASP.Net по сравнению с 2013 годом (когда было 757 часов) несмотря на прибавление 61 миллиона запросов в день. Это произошло как и из-за модернизации оборудования в начале 2015 года, так и из-за некоторого изменения параметров в самих приложениях. Пожалуйста, не забывайте, что производительность – это наша отличительная особенность. Если Вы хотите, чтобы я более подробно рассказал о характеристиках оборудования – без проблем. В следующем посте будут подробные спецификации железа всех серверов, которые обеспечивают работу сайта.

                          Итак, что изменилось за прошедшие 2 года? Кроме замены некоторых серверов и сетевого оборудования, не очень многое. Вот укрупненный список хардварной части, которая обеспечивает работу ресурса (выделены различия по сравнению с 2013 годом):

                          • 4 Microsoft SQL Servers (новое железо для 2-х из них);
                          • 11 Web-серверов IIS (новое оборудование);
                          • 2 сервера Redis (новое оборудование);
                          • 3 сервера Tag Engine (новое оборудование для 2-х из 3-х);
                          • 3 сервера Elasticsearch (те же, старые);
                          • 4 балансировщика нагрузки HAProxy (добавлено 2 для поддержки CloudFlare);
                          • 2 брандмауэра Fortinet 800C (вместо Cisco 5525-X ASAs);
                          • 2 маршрутизатора Cisco ASR-1001 (вместо маршрутизаторов Cisco 3945);
                          • 2 маршрутизатора Cisco ASR-1001-x (новые!).

                          Что нам необходимо, чтобы запустить Stack Overflow? Этот процесс не сильно изменился с 2013 года, но из-за оптимизации и нового железа, нам необходим только один web-сервер. Мы этого не хотели, но несколько раз успешно проверили. Вношу ясность: я заявляю, что это работает. Я не утверждаю, что это (запуск SO на единственном web-сервере) — хорошая затея, хотя каждый раз выглядит весьма забавно.
                          Читать дальше →
                        • Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 1



                          Нечеткий поиск строк является весьма дорогостоящей в смысле вычислительных ресурсов задачей, особенно если вам необходима высокая точность получаемых результатов. В статье описан алгоритм нечеткого поиска в словаре, который обеспечивает высокую скорость поиска при сохранении 100% точности и сравнительно низком потреблении памяти. Именно автомат Левенштейна позволил разработчикам Lucene повысить скорость нечеткого поиска на два порядка
                          Читать дальше →
                          • +49
                          • 35,8k
                          • 7
                        • YC Combinator рекомендует: лучшие 15 книг в 2015 году, на которые стоит обратить внимание

                          • Перевод
                          Новогодние праздники – это замечательное время для того, чтобы проводить время за чтением.



                          Вот список книг, которые в уходящем 2015 году пользовались популярностью у нас в Y Combinator. Некоторые из них были опубликованы в этом году, но большинство увидели свет ранее. Хотим выразить огромную благодарность Биллу Гейтсу, чей легендарный список литературы для прочтения вдохновил нас создать свой собственный перечень рекомендованных книг.
                          Читать дальше →
                          • +8
                          • 17,9k
                          • 2
                        • Книги-двигатели карьеры

                          Есть книги-двигатели: закрываешь и понимаешь, что энергии, сил и творческого топлива стало сильно больше. Эти 11 книг помогут вам завести карьеру и стартовать снова. Вы не заглохли!

                          Читать дальше →
                          • +10
                          • 32,7k
                          • 7
                        • «Семь навыков высокоэффективных людей». Книга за 15 минут



                            Мы публикуем основные идеи из книги №1 по личной эффективности и самосовершенствованию. Книге, которая является must read для каждого уважающего себя менеджера. Книге, по которой проходят тесты сотрудники крупнейших организаций, в том числе и в нашей стране.
                            Но стоит сказать, что сама по себе книга написана в американском стиле, очень водянисто. Читать ее достаточно сложно, ввиду присутствия большого количества наукообразных терминов, типа «парадигма», «детерминизм», «синергия». Поэтому мы решили, что формат краткого изложения будет наиболее оптимальным, чтобы понять, стоит ли читать эту книгу полностью. А для тех, кто ее не смог осилить, наше саммари станет отличной мотивацией завершить прочтение книги.
                            Итак…
                            Читать дальше →
                            • +6
                            • 53,4k
                            • 5