<?xml version="1.0" encoding="UTF-8"?>

<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" >

  <channel>
    <title><![CDATA[Комментарии к публикации «ЗаETLье или Особенности рыбалки в Озере данных»]]></title>
    <link>https://habr.com/ru/companies/X5Tech/articles/595387/</link>
    <description><![CDATA[Комментарии к публикации «ЗаETLье или Особенности рыбалки в Озере данных»]]></description>
    <language>ru</language>
    <managingEditor>editor@habr.com</managingEditor>
    <generator>habr.com</generator>
    <pubDate>Mon, 27 Apr 2026 08:13:01 GMT</pubDate>
    
    
      <image>
        <link>https://habr.com/ru/</link>
        <url>https://habrastorage.org/webt/ym/el/wk/ymelwk3zy1gawz4nkejl_-ammtc.png</url>
        <title>Хабр</title>
      </image>
    

    
      

      
        
  
    <item>
      <title>28.12.2021 07:57:43 EvgenyVilkov</title>
      <guid isPermaLink="true">https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23878909</guid>
      <link>https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23878909</link>
      <description><![CDATA[<p>Задачи потоковой аналитики - это задачи анализа данных во временном окне. Для удержания окна на глубину анализа in-memory не нужен. С этим справляется k-v.  Под ногами той же kafka streams лежит банальный rocks который разруливает очень высокую нагрузку в онлайн оконной аналитике.</p><p>Такая платформа как ни странно существует. Имя ей Cloudera Data Platform. Попробуйте назвать задачу с которой она не справится. Спойлер - под high load нагрузкой система ведет себя лучше чем большинство традиционных mpp систем, включая упомянутые вами ранее.  </p>]]></description>
      <pubDate>Tue, 28 Dec 2021 07:57:43 GMT</pubDate>
      <dc:creator><![CDATA[EvgenyVilkov]]></dc:creator>
    </item>
  

  
    <item>
      <title>27.12.2021 21:30:18 EvgeniyRasyuk</title>
      <guid isPermaLink="true">https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23877949</guid>
      <link>https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23877949</link>
      <description><![CDATA[<p>Посмотрите на snowflake За ними будушее.</p>]]></description>
      <pubDate>Mon, 27 Dec 2021 21:30:18 GMT</pubDate>
      <dc:creator><![CDATA[EvgeniyRasyuk]]></dc:creator>
    </item>
  

  
    <item>
      <title>27.12.2021 17:16:22 BaalExe</title>
      <guid isPermaLink="true">https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23877251</guid>
      <link>https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23877251</link>
      <description><![CDATA[<ol><li><p>Характер использования: конечно не 1 запрос, и даже не тысячи и их характер сильно различается.</p></li><li><p>Типы DWH: да, есть Time series и много других типов хранилищ, которые хорошо решают некий круг задач и плохо - другой. В извложенной выше концепции Streaming покрывает не только супер-актуальные данные продаж (которые нужны не только в онлайн-режиме), а также много другой информации, которая требуется например в режиме t-10m, какая-то для моментальной реакции, а какая-то для аналитики и пр. Что-то грузится в режиме Streaming только ввиду колоссального объёма данных и технической невозможности одноразово вытащить подобный объём в Batch-режиме.<br>Приведённое сравнение in-memory действительно не самое удачное, но ничего более подходящего не нашёл. Отдельно отмечу, что на цветной архитектуре TO-BE с 3 уровнями платформ темпорально-ориентированные БД условно есть, точнее некоторые можно использовать подобным образом (ClickHouse например: <a href="https://clickhouse.com/docs/en/single/#can-i-use-clickhouse-as-a-time-series-database" rel="noopener noreferrer nofollow">https://clickhouse.com/docs/en/single/#can-i-use-clickhouse-as-a-time-series-database</a>).</p></li><li><p>Один за всех: К сожалению подобной платформы, удовлетворяющей всем потребностям, на горизонте не видится (особенно с учётом п.1). Насчёт проектирования "с нуля" не совсем согласен, т.к. есть понимание текущих процессов, потоков данных и запросов к ним, откуда вытекает ряд потребностей, не покрываемых (особенно в перспективе ближайших лет) "золотой рыбкой" где оперативные данные и архив, аналитические запросы и high-load, оптимальная стоимость по лицензиям, железу (и его доступности во времена кризиса микросхем), сопровождению, наличию специалистов на рынке и т.д.</p></li></ol>]]></description>
      <pubDate>Mon, 27 Dec 2021 17:16:22 GMT</pubDate>
      <dc:creator><![CDATA[BaalExe]]></dc:creator>
    </item>
  

  
    <item>
      <title>24.12.2021 08:06:29 BaalExe</title>
      <guid isPermaLink="true">https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23863571</guid>
      <link>https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23863571</link>
      <description><![CDATA[<p>Второй абзац: "... сотен систем-источников (СИ)", т.е. Система-источник по отношению к DWH - места откуда грузим данных.</p>]]></description>
      <pubDate>Fri, 24 Dec 2021 08:06:29 GMT</pubDate>
      <dc:creator><![CDATA[BaalExe]]></dc:creator>
    </item>
  

  
    <item>
      <title>20.12.2021 07:16:12 EvgenyVilkov</title>
      <guid isPermaLink="true">https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23845109</guid>
      <link>https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23845109</link>
      <description><![CDATA[<p>Заканчивался 2021 год, а люди продолжали ссылать на "тестирование in-memory" от 2016 года имени Димы Павлова :) :)</p><p>И дело даже не в сроках (хотя автор понимает что ситуация могла сильно измениться за такой срок). Дело в методике. Вы же не думаете что в реальной жизни в вашей системе будет работать 1 запрос? Системы тестируют под большой конкурентной нагрузкой в десятки с сотни запросов  на входе.</p><p>"Тиньки" тестировали для узкой аналитической(!) задачи, а в вашем архитектурном подходе in-mem для других целей предполагается. И на самом деле он вам не нужен для задач online загрузки. Эту задачу решает time series хранилище. In-mem нужен тогда и только тогда когда нужен общий кэш с сервисами данных. Для всех остальных задача - это за уши притянутая история</p><p>Как внимательный читатель я конечно же не мог не заметить магическое число 3. Число это выбрано вами не потому что они магическое, а потому что изначальная платформа вокруг которой стали проектировать ландшафт  не может решить все задачи "в одной коробке". Вот и приходится обрастать соседями. Это нормальная история когда есть легаси вокруг которого нужно строить. </p><p>Но когда вы проектируете с нуля и предлагаете гетерогенную архитектуру - это очень плохо! Каждая точка интеграции - потенциальная точка отказа. Каждая система - отдельное железо, отдельная команда и экспертиза, отдельная ролевая модель доступа и пляски с информационной безопасностью и тд. Минусов много больше чем плюсов. </p><p>Если бы была система, способная решать все задачи, вами обозначенные, вы бы пошли в историю с множеством систем?</p>]]></description>
      <pubDate>Mon, 20 Dec 2021 07:16:12 GMT</pubDate>
      <dc:creator><![CDATA[EvgenyVilkov]]></dc:creator>
    </item>
  

  
    <item>
      <title>16.12.2021 06:20:13 CyaN</title>
      <guid isPermaLink="true">https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23827579</guid>
      <link>https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23827579</link>
      <description><![CDATA[<p>А что в данном контексте подразумевается под СИ? Средства интеграции, сервисная инфраструктура, совокупность инструментов, etc?</p>]]></description>
      <pubDate>Thu, 16 Dec 2021 06:20:13 GMT</pubDate>
      <dc:creator><![CDATA[CyaN]]></dc:creator>
    </item>
  

  
    <item>
      <title>14.12.2021 13:43:26 BaalExe</title>
      <guid isPermaLink="true">https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23820017</guid>
      <link>https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23820017</link>
      <description><![CDATA[<p>Ну, смотря что именно работает. Данные собираются и раздаются условно для всех 18 тысяч магазинов (на самом деле для проектов над ними в разных конфигурация по сетям, локации и пр.), в рамках этих проектов могут быть реализованы и вопрощены в жизнь разные модели. Ну думаю, что факт наличия данных в DWH как-то связан с оценкой единичной точкой сети, но уверен, что в рамках развития всей сети улучшение сервисов централизации корпоративных данных и улучшение качества, актуальности и пр. данных в будущем исключительно положительно скажется на пользовательского опыте. DWH - не готовая рыбка, а удочка, которую можно использовать в меру своих возможностей.</p>]]></description>
      <pubDate>Tue, 14 Dec 2021 13:43:26 GMT</pubDate>
      <dc:creator><![CDATA[BaalExe]]></dc:creator>
    </item>
  

  
    <item>
      <title>14.12.2021 12:31:35 vakhramov</title>
      <guid isPermaLink="true">https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23819615</guid>
      <link>https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23819615</link>
      <description><![CDATA[<p>А это работает? Вот у нас маленький город, есть большой Перекрёсток, перед НГ откроется Магнит напротив него. И уже нельзя будет по историческим предновогодним 2020 данным сказать, что в 2021 загруженность касс в Перекрёстке будет такая же. </p><p>Построили новый мост из НН на Бор в 2018, в пятницу стало не протолкнуться на парковке перед Перекрёстком (полно народа) - стало больше ездить людей на дачу (пораньше выезжать из города, спокойно затариться в пригороде Бор и ехать на дачу без пробок).</p><p>Внешние факторы (у нас это называется ручной ввод) учитываются :)? </p><p>Конъюнктура покупателей (дачники по пятницам) - учитывается в моделях?</p>]]></description>
      <pubDate>Tue, 14 Dec 2021 12:31:35 GMT</pubDate>
      <dc:creator><![CDATA[vakhramov]]></dc:creator>
    </item>
  

  
    <item>
      <title>14.12.2021 11:58:53 BaalExe</title>
      <guid isPermaLink="true">https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23819469</guid>
      <link>https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23819469</link>
      <description><![CDATA[<p>Задача - предоставить данные всем подразделениям компании "по потребностям", а именно с требуемой детализацией, актуальностью и в нужной степени нормализации. Классические подходы складывания всего и вся в DataLake уже не удовлетворяют потребностям бизнеса, поэтому рождаются разнообразные решения, о которых идёт речь в статье.</p><p>В части данных речь не идёт о регулярном взаимодействии система-система, централизованное хранилище предоставляет данные для анализа и использования в экосистемах доменов/продуктов в сценариях: различного рода прогнозы (товаров на полках, загруженности тех же касс и много другого), ML, BI-отчётность для многих задач от анализа вчерашнего дня/недели до оперативного воздействия при задержке выполнения какой-то задачи сотрудником (тут как раз нужна высокая актуальность данных) и любые другие сценарии использования данных.</p>]]></description>
      <pubDate>Tue, 14 Dec 2021 11:58:53 GMT</pubDate>
      <dc:creator><![CDATA[BaalExe]]></dc:creator>
    </item>
  

  
    <item>
      <title>14.12.2021 08:34:39 bormanman</title>
      <guid isPermaLink="true">https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23818631</guid>
      <link>https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23818631</link>
      <description><![CDATA[<blockquote>Не понятно, какие задачи в итоге решаются, и для чего :)</blockquote><br>
Никакие. Сайт «Пятёрочки» один из самых глючных, тормозных и неудобных среди всех ритейлеров. Не меняется годами. Баги там не переводятся и большинство прям детские, а с тех пор как они перешли на «x5 id» без слёз этим поделием пользоваться практически нет возможности.<br>
Зато приятно узнать, что в их ИТ-отделе люди выучили много модных терминов.]]></description>
      <pubDate>Tue, 14 Dec 2021 08:34:39 GMT</pubDate>
      <dc:creator><![CDATA[bormanman]]></dc:creator>
    </item>
  

  
    <item>
      <title>14.12.2021 08:06:34 vakhramov</title>
      <guid isPermaLink="true">https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23818519</guid>
      <link>https://habr.com/ru/companies/X5Tech/articles/595387/#comment_23818519</link>
      <description><![CDATA[<p>Не понятно, какие задачи в итоге решаются, и для чего :) </p>]]></description>
      <pubDate>Tue, 14 Dec 2021 08:06:34 GMT</pubDate>
      <dc:creator><![CDATA[vakhramov]]></dc:creator>
    </item>
  

      

      

    
  </channel>
</rss>
