Comments / Profile of Yo1 / Habr

Yo! @Yo1^{read⁠-⁠only}

Developer

ProfileArticles3PostsNewsComments370

«20 тысяч IOPS на узел — хорошие показатели с учётом задержек в 5 мс». Для OLTP — нет

Yo1 Jun 18 2018 at 16:47

в навороченных схд несколько уровней кеширования. «горячие» блоки гуляют по ssd и прочим кешам. поэтому скорость чтения датафайла утром и ночью запросто различаются на порядок.

0

«20 тысяч IOPS на узел — хорошие показатели с учётом задержек в 5 мс». Для OLTP — нет

Yo1 Jun 18 2018 at 13:57

а как эти навороченные схд сочетаются с оптимизаторами субд? регулярно наблюдаю проблемы когда оптимизатор оракла собрал статистику в момент когда датафайлы активно использовались и сидели в кеше/ssd, а когда пришло время запускать ночной джоб блоки таблиц вытеснились на тормозные hdd. в результате то что оптимизатор считал, что вычитает за 2 минуты нестед-лупом, в реальности долбит хдд часами.

+1

NewSQL: SQL никуда не уходит

Yo1 Jun 18 2018 at 07:29

в отличие от индюшатины у меня образование и серьезный опыт. в том числе и жава и хадупах и многом другом. потому я прекрасно понимаю сколько написать. MERGE на таблички по 100 млн запустит хеш-джоин между основной таблицей и external, их фулсканы займут несколько секунд. а вот тащить 100 млн по jdbc в одном потоке точно дело не пары секунд и на несколько порядков более затратое дело, чем MERGE.

+1

NewSQL: SQL никуда не уходит

Yo1 Jun 18 2018 at 04:36

я же говорил что индюшатину за весту чую. pl/sql в такой задаче не нужен. у меня подобные задачи решаются созданием external table, когда приходит новый файл, делается create or replace directory, которая указывает на новый файл. дальше обычный MERGE между extranal table и основной. т.е. команда MERGE into main_table… WHEN NOT MATCHED THEN INSERT…
вот это, да. займет пару секунд. а вот вычитать в апп сервер по jdbc 100 млн строк что бы вычислить дельту уйдет вечность только на выкачивание. классика индюшатины, не слышавшей о MERGE.

+1

NewSQL: SQL никуда не уходит

Yo1 Jun 17 2018 at 14:48

боюсь болезнь именно у тебя. кстати, тот эпизод, когда весь отдел ухахатывался на твой тупизной, а ты не мог понять чего смеются. они смеялись вот по этому

Я нашему бывшему ораклисту (да, его позднее ушли попой в мороз) показывал фокус, когда даже с тормозным Ораклом оказывалось в несколько раз быстрее скачать весь dataset

не надо качать весь датасет, люди буду смеяться

+1

NewSQL: SQL никуда не уходит

Yo1 Jun 17 2018 at 06:22

весь приличный бизнес идет в бигдата, где за попытку вытянуть данные на апп сервер убивают на месте. все бигдаты обрабатывают данные там же, где данные хранятся.

+1

NewSQL: SQL никуда не уходит

Yo1 Jun 16 2018 at 18:37

человек с индуской внешностью лжет. ядро субд абсолютно всегда быстрее. скорость в nosql обеспечивается заметно более медленной обработкой, но в параллель. всякие хадупы много медленее ядра оракла, но из-за того что легко поднимают сотни и тысячи параллельных процессов на гораздо больше кол-ве узлов обгоняют. но в одном потоке, тащить данные по нетворку на апп сервер, это всегда медленее. апп сервер ничего не умеет, чего бы не умел pl/sql

+1

NewSQL: SQL никуда не уходит

Yo1 Jun 15 2018 at 16:23

нет, мальчик с хадупом и вот таких вот индюшат поучатель. сначала он был лист лонгов, потом понадобилось имя, потом баланс, потом юзеров таких параллельно тысяча.
вы индусы все одинаковы.

+3

NewSQL: SQL никуда не уходит

Yo1 Jun 15 2018 at 07:03

индюшачья классика. в проде этот кодер получает Error running child: java.lang.OutOfMemoryError: Java heap space и идет читать что такое субд и знакомиться с азами.

+2

Как устроены базы данных

Yo1 Jun 14 2018 at 05:00

firebird версионник до сих пор не имеет лога. там при апдейте транзакция пишет прямо в датафайл новую версию строки, не трогая старую. по коммиту обновляет запись в заголовке, где указывает что новая версия закомичена. на IL snapshot транзакции стартовавшие после записи в заголовке видят уже новую версию, стартовавшие до старую версию. спустя какое-то время сборка мусора вычищает никому не нужные версии строк из файла данных.

0

База данных в коммерческом проекте: как поступить?

Yo1 Jun 13 2018 at 14:26

Для взаимодействия с БД использовали Azure Cosmos DB SDK для .NET

что-то я сомневаюсь что с таким подходом реально переключиться

0

База данных в коммерческом проекте: как поступить?

Yo1 Jun 13 2018 at 10:13

в эпоху реалтайм аналитики с kafka + hadoop подсаживаться на пропретарные технологии, с которых никуда не переехать и которые будут вытягивать бабло по экспоненте глупо. во сколько раз вырастет цена, когда нагрузка вырастит хотя бы до 40к запросов? такие базы имеют смысл лишь под прототип с крошечной нагрузкой.

+1

NewSQL: SQL никуда не уходит

Yo1 Jun 8 2018 at 13:47

странный поток сознания. какую строчку ни возьми, если не полная чушь, то во многом. то что к nosql дают возможность 2pc транзакцию на несколько «документов» не значит, что это вытеснит более примитивные режимы. если взять происходящее во всяких багдата/хадупах, то хорошо видно что консистентность из базы не столь уж кого-то заботит и т.д. и т.п.
особенно повеселило восхищение майкрософтом, учитывая, что flashback query в оракле уже лет 8 доступны.

-2

Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения

Yo1 Jun 7 2018 at 04:51

какой странный дизайн. зачем же выносить модель с yarn кластера, если было бы много эффективней прямо в спарковском датасете дергать какую-нибудь жава ML библиотеку посерьезней? например jppml дает вполне приличный набор ML алгоритмов.

+1

Распределенное хранилище данных в концепции Data Lake: с чего начать

Yo1 Jun 4 2018 at 21:05

Сейчас, когда система стабилизировалась, пришли к конфигурации с тремя средами – тест, препрод и прод (основная).

а тест и препрод такие же маленькие как в облаке были? 3 крошечные ноды, там же ничего объемное не протестируешь. тем более если если толкается и ярн и импала.

0

Как быстро найти и не потерять AI и Data Science специалистов

Yo1 May 30 2018 at 12:11

вообще изначально сайнтист тот кто сам алгоритм может разработать, а скормить очищенные данные одному из миллионов фрейморков это задача аналитика. но теперь любой аналитик освоивший три команды питона, которые тренируют модель, называют себя сайнтистами…

0

«Мегафон» заказал комплекс СХД «Купол» для хранения трафика по закону Яровой

Yo1 May 21 2018 at 10:24

чувак, ну сходи по ссылке
zakupki.gov.ru/223/purchase/public/purchase/info/documents.html?regNumber=31806451184

ознакомься что закуплено на тот млрд

0

«Мегафон» заказал комплекс СХД «Купол» для хранения трафика по закону Яровой

Yo1 May 21 2018 at 09:46

к чему эта клоунада? так сложно открыть документ тендера и посмотреть сколько закуплено на тот млрд? на млрд они купили 6 стоек по 96 дисков, диски по 12 тб.

все датацентры гугла и амазона живут на ширпотреб дисках, статистика отказов публикуется и доступна. разницы с ентерпрайз гугл не видит, но даже ентерпрайз SSD диски 1.5-2 раза дороже. ну будет не $2 млн, а $4 млн. все равно во многие разы дешевле купола

0

«Мегафон» заказал комплекс СХД «Купол» для хранения трафика по закону Яровой

Yo1 May 19 2018 at 07:31

гуглы, амазоны и прочие лидеры ставят примерно в эти же хадупы. от того они и лидеры
у леново 15.36 TB ынтерпрайз ssd диски есть, стоят порядка $26k. даже с такими хадуп дешевле купола выходит

0

«Мегафон» заказал комплекс СХД «Купол» для хранения трафика по закону Яровой

Yo1 May 19 2018 at 07:21

сколько воткнешь, столько в сторидже и будет. у леново 15.36 TB ынтерпрайз ssd диски есть, стоят порядка $26k
lenovopress.com/lp0612-pm1633a-enterprise-capacity-12gb-sas-ssd

0

1 2 ...

14