• Оптимизация аптек: что мы сделали с помощью математики



      Оказалось, что аптечный бизнес достаточно прост в плане старта (аптека крупной франшизы открывается чуть ли не по механике «далее-далее-ок»), но достаточно сложный в управлении. При этом таким он не кажется. Сложная часть в управлении запасами, то есть в поставке лекарств, медсредств и прочего в конечную розничную точку. В реальности делают это люди руками и часто жёстко лажают.

      Очень часты ситуации недозаказа товара (когда нужного ходового лекарства просто нет в аптеке), перезаказа (товар поставляется на пару ближайших лет) или неправильного распределения по сети аптек (в одной нет, а в другой — на шесть месяцев запаса). Таблетки компактные, выкладка в аптеках — хорошо, если 5 % от товарного запаса, поэтому восемь–десять миллионов рублей можно запросто спрятать даже на 15 квадратных метрах в ящиках. А потом у этих лекарств внезапно уже через год закончатся сроки годности.

      Проблема — в ручном управлении запасами и в неправильном прогнозировании спроса: рынок таков, что часто в начале года подписываются обязательства на год вперёд, и производитель впихивает тонны неходового товара аптечным сетям.

      Конечно же, в этой ситуации очень не хватает математической модели. Ну мы с ней и пришли. В процессе сделали ещё несколько чудесных открытий про рынок.
      Читать дальше →
    • Дайджест новостей машинного обучения и искусственного интеллекта за сентябрь

        Привет, Хабравчане! Отфильтровав для вас большое количество источников и подписок — собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за сентябрь. Не забудьте поделиться с коллегами, или просто с теми, кому интересны такие новости.

        Для тех, кто не читал дайджест за август, можете прочесть его здесь.

        Итак, а теперь дайджест за сентябрь:

        1. Ученые EPFL разработали мягкую искусственную кожу, которая обеспечивает тактильную обратную связь и — благодаря сложному механизму самочувствия — потенциально способна мгновенно адаптироваться к движениям пользователя.

        Читать дальше →
        • +44
        • 5,7k
        • 2
      • Создаем датасет для распознавания счетчиков на Яндекс.Толоке

        • Tutorial


        Как-то два года назад, случайно включив телевизор, я увидел интересный сюжет в программе "Вести". В нём рассказывали о том, что департамент информационных технологий Москвы создает нейросеть, которая будет считывать показания счетчиков воды по фотографиям. В сюжете телеведущий попросил горожан помочь проекту и прислать снимки своих счетчиков на портал mos.ru, чтобы на них обучить нейронную сеть. 


        Если Вы — департамент Москвы, то выпустить ролик на федеральном канале и попросить людей прислать изображения счетчиков — не очень большая проблема. Но что делать, если Вы — маленький стартап, и сделать рекламу на телеканале не можете? Как получить 50000 изображений счетчиков в таком случае?

        Читать дальше →
      • Тематическое моделирование новостей с помощью факторного анализа

        • Tutorial


        Привет, коллеги! Как из 20 000 новостей за 30 секунд выделить главные темы? Обзор тематического моделирования, которое мы делаем в ТАСС, с матешей и кодом.
        Читать дальше →
      • Подготовка данных в Data Science-проекте: рецепты для молодых хозяек



          В предыдущей статье я рассказывала про структуру Data Science-проекта по материалам методологии IBM: как он устроен, из каких этапов состоит, какие задачи решаются на каждой стадии. Теперь я бы хотела сделать обзор самой трудоемкой стадии, которая может занимать до 90% общего времени проекта: это этапы, связанные с подготовкой данных -сбор, анализ и очистка.

          В оригинальном описании методологии Data Science-проект сравнивается с приготовлением блюда, а аналитик - с шеф поваром. Соответственно, этап подготовки данных сравнивается с подготовкой продуктов: после того, как на этапе анализа бизнес-задачи мы определились с рецептом блюда, которое будем готовить, необходимо найти, собрать в одном месте, очистить и нарезать ингредиенты. Соответственно, от того, насколько качественно был выполнен этот этап, будет зависеть вкус блюда (предположим, что с рецептом мы угадали, тем более рецептов в открытом доступе полно). Работа с ингредиентами, то есть подготовка данных - это всегда ювелирное, трудоемкое и ответственное дело: один испорченный или недомытый продукт - и весь труд впустую.
          Читать дальше →
        • ок.tech Data Толк #3: Рекомендательные системы



            6 ноября в московском офисе компании Одноклассники состоится ок.tech Data Толк #3, в этот раз мы решили посвятить мероприятие рекомендательным системам. Вместе с коллегами из OK.ru, Joom и СколТеха поговорим про прошедший RecSys19, а также о теории, практике и трендах рекомендательных систем. Влад Грозин сделает обзор культовой конференции RecSys19. Евгений Фролов расскажет один из докладов о HybridSVD, которую используют для построения гибридных рекомендательных систем. Затем перейдем от теории к практике, и Андрей Кузнецов поделится практическим опытом улучшения рекомендательных систем для групп Одноклассников. Как всегда, после докладов будет дискуссия, где каждый сможет задать любой вопрос спикерам. Вести мероприятие будет Алексей Чернобровов.

            Ждем всех, кому интересна тема создания, улучшения и эксплуатации рекомендательных систем.

            Зарегистрироваться на мероприятие.
            Читать дальше →
          • «Золотое сечение» в экономике — 2

              Здесь дополняется тема «Золотое сечение» в экономике — что это?», поднятая в прошлой публикации. Подойдем к проблеме предпочтительного распределения ресурсов со стороны, которая еще не затрагивалась.

              Возьмем самую простую модель генерации событий: бросание монеты и вероятность выпадения «орла» или «решки». При этом постулируется, что:

              Выпадение «орла» или «решки» при каждом отдельном броске равновероятно – 50 на 50%
              При большой серии бросков число выпадений каждой из сторон монеты приближается к числу выпадений другой.

              Это означает, что, записывая результаты предыдущих выпадений «орла» и ориентируясь на равновесие серии, можно ожидать выпадения «орла» (и невыпадения «решки») как следующего элемента серии с большей или меньшей вероятностью – в зависимости от результатов предыдущих выпадений. Что согласуется с опытом каждого, такую серию проводившего.

              Как показывает статистика (для избежание повторов см. примеры графиков в публикации), в разнообразных экономических системах — как и в опытах с монетой — наблюдается некое закономерно-вероятностное распределение расходов. И это эмпирическое распределение расходов крайне интересно представить как диаграмму Лоренца (см. иллюстрацию ниже в «Расходах компании»). При некоторых незначительных погрешностях ее аппроксимации эта кривая превращается в дугу окружности (правая нижняя четверть). Обширный статистический анализ распределения ресурсов свидетельствует о высокой воспроизводимости дуги окружности в разных областях экономики (опять же см. предыдущую публикацию) И степень близости имеющегося распределения расходов к этому эталонному позволяет судить о «здоровье» рассматриваемой экономической системы. Под «здоровьем» здесь понимается выживаемость системы и ее способность к развитию.
              Читать дальше →
            • AdBlock похитил этот баннер, но баннеры не зубы — отрастут

              Подробнее
              Реклама
            • Как технология in-memory изменила бизнес-аналитику

              Примерно 5 миллисекунд проходит от запроса до ответа, если данные хранятся на жестком диске. SSD отвечает в 30 раз быстрее — за 150 микросекунд. Оперативной памяти требуется в 300,000 раз меньше времени — лишь 15 наносекунд.*



              Можно долго рассуждать о том, как бизнес-аналитика помогает финансам или логистике. Способов применить информацию много, все время появляются новые. Но принцип работы разных аналитических решений один и заключается он в том, чтобы соединить данные из разных источников и посмотреть на них вместе — то есть целиком.

              Чтобы воспользоваться информацией из нескольких источников, нужно к ним подключиться и извлечь данные. Но данные создавались разными способами, с разной периодичностью и хранятся в разных форматах. Поэтому прежде, чем визуализировать данные или передать другим системам для дальнейшей обработки, их придется объединить с помощью каких-то математических операций — трансформировать.

              Технология in-memory заключается в том, что для трансформации в оперативную память единовременно загружаются все данные из разных источников. После этого трансформацию можно выполнить «на лету», без запросов к диску. Например, кликом выбрать измерение и сразу получить график, который будет отображать значения показателей в нужном разрезе. Благодаря тому, что все данные уже в оперативной памяти, аналитическому приложению не нужно делать запросы к жесткому диску для получения новой информации.

              Это вступление должно помочь мне рассказать о том, как и почему менялись технологии, лежащие в основе современных аналитических решений.
              Читать дальше →
              • +12
              • 5,1k
              • 8
            • Структура Data Science-проекта с высоты птичьего полета

              Как узнать наверняка, что внутри у колобка?
              Может, ты его проглотишь, а внутри него река?
              © Таня Задорожная

              Что такое Data Science сегодня, кажется, знают уже не только дети, но и домашние животные. Спроси любого котика, и он скажет: статистика, Python, R, BigData, машинное обучение, визуализация и много других слов, в зависимости от квалификации. Но не все котики, а также те, кто хочет стать специалистом по Data Science, знают, как именно устроен Data Science-проект, из каких этапов он состоит и как каждый из них влияет на конечный результат, насколько ресурсоемким является каждый из этапов проекта. Для ответа на эти вопросы как правило служит методология. Однако бОльшая часть обучающих курсов, посвященных Data Science, ничего не говорит о методологии, а просто более или менее последовательно раскрывает суть упомянутых выше технологий, а уж со структурой проекта каждый начинающий Data Scientist знакомится на собственном опыте (и граблях). Но лично я люблю ходить в лес с картой и компасом и мне нравится заранее представлять план маршрута, которым двигаешься. После некоторых поисков неплохую методологию мне удалось найти у IBM — известного производителя гайдов и методик по управлению чем угодно.
              Читать дальше →
              • +12
              • 4,6k
              • 6
            • Анализируем историю прослушивания в «Яндекс.Музыке»

                Вот уже почти год я пользуюсь сервисом Яндекс Музыка и меня все устраивает. Но есть в этом сервисе одна интересная страница — история. Она хранит все треки, которые были прослушаны, в хронологическом порядке. И мне, конечно, захотелось скачать ее и проанализировать, что я там наслушал за все время.


                Читать дальше →
              • Must-have алгоритмы машинного обучения

                • Перевод
                Хабр, привет.

                Этот пост — краткий обзор общих алгоритмов машинного обучения. К каждому прилагается краткое описание, гайды и полезные ссылки.

                Метод главных компонент (PCA)/SVD


                Это один из основных алгоритмов машинного обучения. Позволяет уменьшить размерность данных, потеряв наименьшее количество информации. Применяется во многих областях, таких как распознавание объектов, компьютерное зрение, сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных или к сингулярному разложению матрицы данных.

                image

                SVD — это способ вычисления упорядоченных компонентов.

                Полезные ссылки:


                Вводный гайд:

                Читать дальше →
                • +24
                • 16k
                • 6
              • CQM — другой взгляд в глубоком обучении для оптимизации поиска на естественном языке

                  CQM — другой взгляд в глубоком обучении для оптимизации поиска на естественном языке


                  Краткое описание: Calibrated Quantum Mesh (CQM)— это следующий шаг от RNN / LSTM (Рекуррентные нейронные сети RNN (Recurrent Neural Networks) / Долгая краткосрочная память (Long short-term memory; LSTM) ). Появился новый алгоритм, называемый Calibrated Quantum Mesh (CQM), который обещает повысить точность поиска на естественном языке без использования размеченных данных обучения.

                  Читать дальше
                • Портрет Data Scientist в России. Только факты

                    Служба исследований hh.ru совместно с Академией больших данных MADE от Mail.ru составили портрет специалиста по Data Science в России. Изучив 8 тысяч резюме российских дата-сайентистов и 5,5 тысяч вакансий работодателей мы выяснили где живут и работают специалисты в Data Science, сколько им лет, какой вуз они закончили, какими языками программирования владеют и сколько у них ученых степеней.


                    Читать дальше →
                  • Угадай меня, если сможешь: прогнозирование рейтинга фильма до его выхода

                      Недавно мне на глаза попался датасет на Kaggle с данными о 45 тысячах фильмов с Full MovieLens Dataset. Данные содержали не только информацию об актерах, съемочной команде, сюжете и т.п., но и оценки, выставленные фильмам пользователями ресурса (26 миллионов оценок от 270 тыс.пользователей).

                      Стандартная задача для таких данных — это рекомендательная система. Но мне в голову почему-то пришло прогнозирование рейтинга фильма на основе информации, доступной до его выхода. Я не знаток кинематографа, и поэтому обычно ориентируюсь на рецензии, выбирая что посмотреть из новинок. Но ведь рецензенты тоже несколько biased — они-то смотрят гораздо больше разных фильмов, чем рядовой зритель. Поэтому спрогнозировать, как оценит фильм обычная публика, показалось занятным.
                      Читать дальше →
                      • +17
                      • 4,4k
                      • 8
                    • Дайджест новостей машинного обучения и искусственного интеллекта за август

                        Привет, читатель! Отфильтровав для тебя большое количество источников и подписок — собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за август. Не забудьте поделиться с коллегами, или просто с теми, кому интересны такие новости.

                        Для тех, кто не читал дайджест за июль, можете прочесть его здесь.

                        Итак, а теперь дайджест за август:

                        1. Российский человекоподобный робот пробирается на МКС. Российский космический корабль «Союз» состыковался с МКС. В капитанском кресле капсулы, предназначенной для перевозки пассажиров, сидел Skybot F-850, человекоподобный робот, созданный российским космическим агентством Роскосмос.

                        image
                        Читать дальше →
                      • Книга «Data mining. Извлечение информации из Facebook, Twitter, LinkedIn, Instagram, GitHub»

                          image Привет, Хаброжители! В недрах популярных социальных сетей — Twitter, Facebook, LinkedIn и Instagram — скрыты богатейшие залежи информации. Из этой книги исследователи, аналитики и разработчики узнают, как извлекать эти уникальные данные, используя код на Python, Jupyter Notebook или контейнеры Docker. Сначала вы познакомитесь с функционалом самых популярных социальных сетей (Twitter, Facebook, LinkedIn, Instagram), веб-страниц, блогов и лент, электронной почты и GitHub. Затем приступите к анализу данных на примере Twitter. Прочитайте эту книгу, чтобы:

                          • Узнать о современном ландшафте социальных сетей;
                          • Научиться использовать Docker, чтобы легко оперировать кодами, приведёнными в книге;
                          • Узнать, как адаптировать и поставлять код в открытый репозиторий GitHub;
                          • Научиться анализировать собираемые данные с использованием возможностей Python 3;
                          • Освоить продвинутые приемы анализа, такие как TFIDF, косинусное сходство, анализ словосочетаний, определение клика и распознавание образов;
                          • Узнать, как создавать красивые визуализации данных с помощью Python и JavaScript.
                          Читать дальше →
                        • Несколько штрихов о работе с идентификаторами bigint в R

                            Каждый раз, когда начинается разговор об использовании различных БД в качестве источника данных, появляется тема идентификаторов записей, объектов или чего-либо иного. Иногда согласование протокола обмена может рассматриваться участниками несколько месяцев. int-bigint-guid, далее по кругу. Для объемных задач, с учетом того, что нативно в R нет поддержки bigint (емкость ~2^64) выбор правильного представления таких идентификаторов может оказаться критичным в части производительности. Есть ли очевидное и универсальное обходное решение? Ниже несколько практических соображений, которые могут применяться в проектах в качестве лакмусовой бумажки.


                            Как правило, идентификаторы будут использоваться для трех классов задач:


                            • группировка;
                            • фильтрация;
                            • объединение.

                            Исходя из этого и оценим различные подходы.


                            Является продолжением предыдущих публикаций.

                            Читать дальше →
                          • Треугольник Паскаля vs цепочек типа «000…/111…» в бинарных рядах и нейронных сетях

                              Серия «Белый шум рисует черный квадрат»



                              История цикла этих публикаций начинается с того, что в книге Г.Секей «Парадоксы в теории вероятностей и математической статистике» (стр.43), было обнаружено следующее утверждение:


                              Рис. 1.

                              По анализу комментарий к первым публикациям (часть 1, часть 2) и последующими рассуждениями созрела идея представить эту теорему в более наглядном виде.

                              Большинству из участников сообщества знаком треугольник Паскаля, как следствие биноминального распределения вероятностей и многие сопутствующие законы. Для понимания механизма образования треугольника Паскаля развернем его детальнее, с развертыванием потоков его образования. В треугольнике Паскаля узлы формируются по соотношению 0 и 1, рисунок ниже.


                              Рис. 2.

                              Для понимания теоремы Эрдёша-Реньи составим аналогичную модель, но узлы будут формироваться из значений, в которых присутствуют наибольшие цепочки, состоящие последовательно из одинаковых значений. Кластеризации будет проводиться по следующему правилу: цепочки 01/10, к кластеру «1»; цепочки 00/11, к кластеру «2»; цепочки 000/111, к кластеру «3» и т.д. При этом разобьём пирамиду на две симметричные составляющие рисунок 3.


                              Рис. 3.

                              Первое что бросается в глаза это то, что все перемещения происходят из более низкого кластера в более высокий и наоборот быть не может. Это естественно, так как если цепочка размера j сложилась, то она уже не может исчезнуть.
                              Читать дальше →
                              • +17
                              • 3,4k
                              • 5
                            • Визуализация больших графов для самых маленьких



                                Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.
                                Читать дальше →
                              • Полезная help-ссылка для работы с данными

                                  Хабр, привет. Представляю вам главную help-ссылку для работы с данными. Материал в Гугл-доке подойдет как профессионалам, так и тем, кто только учится работать с данными. Пользуйтесь и прокачивайте скиллы сами + делитесь с коллегами.

                                  Дальнейшее описание поста — это содержание help-ссылки. Поэтому, можете сразу ознакомиться с документом. Либо начать с её содержания, которую прикрепляю ниже.

                                  Конечно, весь список книг/сервисов/видео и лекций в файле неполный. Поэтому предлагаю сделать этот пост ценнейшим — добавляйте в комментарии свои полезные ссылки, самые крутые из них я добавлю к себе в файл.

                                  image
                                  Читать дальше →
                                  • +46
                                  • 6,1k
                                  • 1

                                Самое читаемое