учитывайте что 1) есть массивы примитивных типов и строк 2) аллокатор линейный на уровне потока и сборщик перемещает объекты (уплотняет кучу), это значит что если вы цикле в потоке создаете объекты и кладете в List то скорее всего они в памяти будут где-то рядом 3) есть библиотеки примитивных коллекций, люди из Goldman Sachs поработали и заопенсорсили, если вам нужна хэшмапа строк к интам то такой класс вы найдете, и все остальные вариации 4) вы можете работать с куском памяти, держать данные вне хипа и видимости gc (и без ненужных заголовков), и сами писать математику вычисления положения данных, таким образом на чтение (и запись данных фиксированного размера в то же поле) у вас уже как бы структура, как пример google flatbuffers (кроссплатформенное решение кстати) и netflix сделал похожий хитрый кэш hollow для хранения констант метадаты о фильмах, т.е. данные физически как бы на ленте а в классе зашиты константы смещения для полей объекта. Так что кому прям очень нужно было и он был готов поработать или закрыть глаза на красивые интерфейсы и абстракции то у него все это было, но это unsafe, bytebuffer, кодогенерация и по сути Си стайл программинг (но ради выгоды можно и потерпеть в отдельных горячих участках).
А сейчас будет красивое решение которое полностью интегрировано в язык и работает в связке с другими фичами. Единственная проблема что не все были такие прожженные и есть конечно код написанный без хаков кушающий много памяти, или разные вариации одного и того же хака
лучше прогонять текст через chatgpt, перевод выглядит как машинный
s3 универсальное хранилище, в нем есть и ssd и ленты, а не только hdd, хотя они и основа
"Платформа Kafka любит группировать элементы." - все кому нужно надежно писать на диск так делают, потому что единица записи это блок (4кб), а большинство клиентов пишет иногда пару байт, для s3 наверно больше. Так делает и postgres и по-моему даже redis при журналировании
Diskless - на сколько я понимаю это чуть более сложная концепция, чем “просто пишем в s3”, потому что любая операция в s3 стоит денег, даже чтение. Turbopuffer (Vector DB на основе S3) - тут вообще основная фишка не в s3 а в эффективном алгоритме который многим было просто лень реализовывать, а s3 удачное дополнение
судя по вашему описанию это очередная попытка сделать Erlang/OTP, но проблема в том, что на jvm это нормально не реализовать из-за дизайна jvm. В Erlang у каждого актора свой gc - получаем очень маленькую лейтенси (то что часто надо для канкаренси), актор не может повлиять на соседей (а у нас их очень много), общая память где значения иммутабельные, а не "как бы иммутабельные" (не можем сломать систему). Т.е. я не очень понимаю зачем это, попытка сделать апи, для jvm которая не предназначена для таких задач. собственно и go тоже с примерно похожим дизайном не предназначен и дискорду пришлось переписывать соотв часть кода на elixir
минусатор может что-то ответить или он исповедует карго культ и принцип “а ты кто такой по сравнению с ним”, вместо инженерного подхода и понимая с чем он вообще работает? А то пока какая-то печальная картина, кроме меня только один человек заметил что как-то слабо у них там с систем дизайном.
повезло мужику, он по сути скоро станет миллиардером, хотя совсем не производит впечатление грамотного человека.
таблицы на десятки терабайт и ембединги в постгресе, используем yugabyte но не понимаем что это такое и как. Окончательно убило это
Нам также нравится, что Turbopuffer построен на базе S3. Хотя это прыжок веры — доверять так много молодому стартапу, но знание того, что они строят на самом стабильном хранилище в отрасли (S3), было в их пользу».
типа S3 круто, и раз они на основе S3 сделали то значит они тоже крутые.
Ну и забавно что 1) нет своей модели 2) нет своего векторного хранилища 3) редактор тоже взяли готовый. Вывод: нужно быть проворным и где-то в Калифорнии рядом с деньгами и хайпом.
а зачем его искать если можно спросить у чата и еще детально расспросить непонятные моменты? а вообще плохо что люди, которые не имеют соответствующего образования пытаются учить тому, а чем не знают во всех деталях. Но так было всегда в интернетах, надеюсь что скоро это закончится
Дуров предупредил, что будущие утечки будут ещё более катастрофическими, если французские власти получат доступ к зашифрованным чатам и цифровым идентификаторам пользователей социальных сетей.
сказал человек, который непонятно как шифрует чаты в своем мессенджере, всячески пряча и ограничивая функционал шифрования, и одновременно щедро добавляя идентификаторы пользователя в трафик, чтоб любой канальный провайдер знал кто с кем переписывается без каких-либо усилий... сиди, Паша, на попе ровно
интересно, потому что говорят что Jetty лучше обрабатывает большое количество соединений чем томкат и в этот момент имеет лучшую latency. А netty с версии 4.2 умеет в io_uring под linux, это самый эффективный способ обмена данными с минимальным количеством обращений к ядру. У томката есть какой-то apr native, но это как я понимаю скорее небольшой допинг.
так и я ж не из провинциального вуза, тоже считай одного из самых привлекательных факультетов среди олимпиадников по программированию в стране. да, в яндекс пару человек пошло на пятом курсе когда уже был офис. очень башковитые люди тоже кстати специфические в плане работы, я б их в том возрасте не ставил руководить, потому что тут не хард скилы нужны. ну и опять, ты можешь быть очень умным, но многие вещи надо знать и уметь делать, это время и это все плохо пересекается с классической учебой. в общем было бы очень интересно посмотреть на ту команду, но само описание у меня вызывает скепсис и не понимание, учитывая что яндекс компания большая и было логично собрать более сбалансированную команду
ок, интересно было узнать, похожие истории знаю, в том числе с релокацией в штаты сразу после универа, но там люди были очень головастые, и все равно я не помню чтоб они прямо сеньорами пошли. и уж тем более чтоб из них целую команду собрали. учились они кстати хорошо и работать пошли довольно поздно.
ок, но в мою бытность даже в ЕПАМ брали с курса третьего, ну ок, может кто со второго проскочил, но давно дело было, ютуб буквально вчера появился и курсов толком не было чтоб заранее быть умнее всех. опять, в западный бигтех так не берут, так берут в галеры, а бигтех берет летом на стажировку. и не 8ч у вас будет рабочий день, а 4 дай бог. так что к 23г у вас будет не 5 лет полноценного стажа. и раз вы "элита" то и универ у вас должен быть нормальный, а не каждый универ даст работать без троек с первого курса. ну т.е. опять это нужно быть прям супер уникомом, чтоб ни на что не отвлечься, везде успевать и чтоб на глаза попадалась только нужная инфа и ничего больше. Я знаю людей кто к пятому курсу успел в галере стать тимлидом (года за 2) но мне сложно сказать кто они реально были по скилам, никогда с такими лично не работал. Скорее на галере просто других кандидатов не было на эту роль, а сам человек был с хваткой.
ну раз мы используем западное слово "бигтех" то вопрос повторяется, там такая же ситуация? я не слышал подобных примеров. обычно такое в стартапчике друзей. а вы кстати как-то давите в другую крайность словно сами из той команды. наброс совсем не интересный для обсуждения. Еще раз, я знаю что есть толковый молодняк созревший на 5 лет раньше обычного, но это прям единицы. В яндексе других работников нет? зачем так формировать команды?
На финале руководитель - парень лет 23. Пообщались норм. Заодно он сказал что команда у них чисто продуктовая, и молодая - средний возраст 21-22.
это точно биг тех? больше напоминает аутсорс галеру с невыспаными студентами. Просьба не рассказывать мне про молодых гениев, я конечно видал таких пару штук в универе, но их было всего пару штук и я все равно не уверен что они могли сами взять и затащить большой проект без взрослых, тем более что по возрасту видно что такси это их первый проект. Не с 15 ж лет они в Яндексе работают. В общем очень-очень странно.
result = condition if_expression + !condition else_expression;
кстати в java и варинат "condition ? if_expression : else_expression" работает, компилируется в conditional move, наверно и других языках похожая ситуация. это я к тому, что выражение "? : " совсем не обязательно компилируется в чистый if, выглядит не так жутко как предложенный вариант и работает с такой же скоростью
учитывайте что 1) есть массивы примитивных типов и строк 2) аллокатор линейный на уровне потока и сборщик перемещает объекты (уплотняет кучу), это значит что если вы цикле в потоке создаете объекты и кладете в List то скорее всего они в памяти будут где-то рядом 3) есть библиотеки примитивных коллекций, люди из Goldman Sachs поработали и заопенсорсили, если вам нужна хэшмапа строк к интам то такой класс вы найдете, и все остальные вариации 4) вы можете работать с куском памяти, держать данные вне хипа и видимости gc (и без ненужных заголовков), и сами писать математику вычисления положения данных, таким образом на чтение (и запись данных фиксированного размера в то же поле) у вас уже как бы структура, как пример google flatbuffers (кроссплатформенное решение кстати) и netflix сделал похожий хитрый кэш hollow для хранения констант метадаты о фильмах, т.е. данные физически как бы на ленте а в классе зашиты константы смещения для полей объекта. Так что кому прям очень нужно было и он был готов поработать или закрыть глаза на красивые интерфейсы и абстракции то у него все это было, но это unsafe, bytebuffer, кодогенерация и по сути Си стайл программинг (но ради выгоды можно и потерпеть в отдельных горячих участках).
А сейчас будет красивое решение которое полностью интегрировано в язык и работает в связке с другими фичами. Единственная проблема что не все были такие прожженные и есть конечно код написанный без хаков кушающий много памяти, или разные вариации одного и того же хака
лучше прогонять текст через chatgpt, перевод выглядит как машинный
s3 универсальное хранилище, в нем есть и ssd и ленты, а не только hdd, хотя они и основа
"Платформа Kafka любит группировать элементы." - все кому нужно надежно писать на диск так делают, потому что единица записи это блок (4кб), а большинство клиентов пишет иногда пару байт, для s3 наверно больше. Так делает и postgres и по-моему даже redis при журналировании
Diskless - на сколько я понимаю это чуть более сложная концепция, чем “просто пишем в s3”, потому что любая операция в s3 стоит денег, даже чтение. Turbopuffer (Vector DB на основе S3) - тут вообще основная фишка не в s3 а в эффективном алгоритме который многим было просто лень реализовывать, а s3 удачное дополнение
судя по вашему описанию это очередная попытка сделать Erlang/OTP, но проблема в том, что на jvm это нормально не реализовать из-за дизайна jvm. В Erlang у каждого актора свой gc - получаем очень маленькую лейтенси (то что часто надо для канкаренси), актор не может повлиять на соседей (а у нас их очень много), общая память где значения иммутабельные, а не "как бы иммутабельные" (не можем сломать систему). Т.е. я не очень понимаю зачем это, попытка сделать апи, для jvm которая не предназначена для таких задач. собственно и go тоже с примерно похожим дизайном не предназначен и дискорду пришлось переписывать соотв часть кода на elixir
ну просто а зачем оно если не понятно что это? OCR это не вау технология уже лет 25 точно
я так и не понял чем эта OneOCR особенная? Работает лучше чем то что можно скачать из hf?
минусатор может что-то ответить или он исповедует карго культ и принцип “а ты кто такой по сравнению с ним”, вместо инженерного подхода и понимая с чем он вообще работает? А то пока какая-то печальная картина, кроме меня только один человек заметил что как-то слабо у них там с систем дизайном.
а что они должны были сделать? изобрести новые диски и память под вертикальное масштабирование? С физикой спорить бесполезно.
повезло мужику, он по сути скоро станет миллиардером, хотя совсем не производит впечатление грамотного человека.
таблицы на десятки терабайт и ембединги в постгресе, используем yugabyte но не понимаем что это такое и как. Окончательно убило это
типа S3 круто, и раз они на основе S3 сделали то значит они тоже крутые.
Ну и забавно что 1) нет своей модели 2) нет своего векторного хранилища 3) редактор тоже взяли готовый. Вывод: нужно быть проворным и где-то в Калифорнии рядом с деньгами и хайпом.
а зачем его искать если можно спросить у чата и еще детально расспросить непонятные моменты? а вообще плохо что люди, которые не имеют соответствующего образования пытаются учить тому, а чем не знают во всех деталях. Но так было всегда в интернетах, надеюсь что скоро это закончится
сказал человек, который непонятно как шифрует чаты в своем мессенджере, всячески пряча и ограничивая функционал шифрования, и одновременно щедро добавляя идентификаторы пользователя в трафик, чтоб любой канальный провайдер знал кто с кем переписывается без каких-либо усилий... сиди, Паша, на попе ровно
интересно, потому что говорят что Jetty лучше обрабатывает большое количество соединений чем томкат и в этот момент имеет лучшую latency. А netty с версии 4.2 умеет в io_uring под linux, это самый эффективный способ обмена данными с минимальным количеством обращений к ядру. У томката есть какой-то apr native, но это как я понимаю скорее небольшой допинг.
вы под linux тестировали? И можете ради интереса прогнать самые тяжелые тесты под Jetty вместо tomcat?
так и я ж не из провинциального вуза, тоже считай одного из самых привлекательных факультетов среди олимпиадников по программированию в стране. да, в яндекс пару человек пошло на пятом курсе когда уже был офис. очень башковитые люди тоже кстати специфические в плане работы, я б их в том возрасте не ставил руководить, потому что тут не хард скилы нужны. ну и опять, ты можешь быть очень умным, но многие вещи надо знать и уметь делать, это время и это все плохо пересекается с классической учебой. в общем было бы очень интересно посмотреть на ту команду, но само описание у меня вызывает скепсис и не понимание, учитывая что яндекс компания большая и было логично собрать более сбалансированную команду
ок, интересно было узнать, похожие истории знаю, в том числе с релокацией в штаты сразу после универа, но там люди были очень головастые, и все равно я не помню чтоб они прямо сеньорами пошли. и уж тем более чтоб из них целую команду собрали. учились они кстати хорошо и работать пошли довольно поздно.
ок, но в мою бытность даже в ЕПАМ брали с курса третьего, ну ок, может кто со второго проскочил, но давно дело было, ютуб буквально вчера появился и курсов толком не было чтоб заранее быть умнее всех. опять, в западный бигтех так не берут, так берут в галеры, а бигтех берет летом на стажировку. и не 8ч у вас будет рабочий день, а 4 дай бог. так что к 23г у вас будет не 5 лет полноценного стажа. и раз вы "элита" то и универ у вас должен быть нормальный, а не каждый универ даст работать без троек с первого курса. ну т.е. опять это нужно быть прям супер уникомом, чтоб ни на что не отвлечься, везде успевать и чтоб на глаза попадалась только нужная инфа и ничего больше. Я знаю людей кто к пятому курсу успел в галере стать тимлидом (года за 2) но мне сложно сказать кто они реально были по скилам, никогда с такими лично не работал. Скорее на галере просто других кандидатов не было на эту роль, а сам человек был с хваткой.
ну раз мы используем западное слово "бигтех" то вопрос повторяется, там такая же ситуация? я не слышал подобных примеров. обычно такое в стартапчике друзей. а вы кстати как-то давите в другую крайность словно сами из той команды. наброс совсем не интересный для обсуждения. Еще раз, я знаю что есть толковый молодняк созревший на 5 лет раньше обычного, но это прям единицы. В яндексе других работников нет? зачем так формировать команды?
это точно биг тех? больше напоминает аутсорс галеру с невыспаными студентами. Просьба не рассказывать мне про молодых гениев, я конечно видал таких пару штук в универе, но их было всего пару штук и я все равно не уверен что они могли сами взять и затащить большой проект без взрослых, тем более что по возрасту видно что такси это их первый проект. Не с 15 ж лет они в Яндексе работают. В общем очень-очень странно.
крайне странный выбор моделей. спросите у perplexity что в 26 году стоит брать для ембедингов
result = conditionif_expression + !conditionelse_expression;кстати в java и варинат "condition ? if_expression : else_expression" работает, компилируется в conditional move, наверно и других языках похожая ситуация. это я к тому, что выражение "? : " совсем не обязательно компилируется в чистый if, выглядит не так жутко как предложенный вариант и работает с такой же скоростью
насколько я понимаю это изначальный проект. к вопросу кто у кого копировал