• Загадка пробоины в «Союзе»
    +3
    ria.ru/space/20180903/1527705864.html

    Теперь точно, проблема на производстве.
  • Баг в поиске писем на Mail.Ru
    0
    По размеру ящика коллега ниже дал ответ.

    А вот по OpenOffice пока на ближайшее время не планировали, то есть точно не в этом году. :( А далее посмотрим, возможно все.
  • Баг в поиске писем на Mail.Ru
    0
    Можете в личку дать больше деталей?
  • Баг в поиске писем на Mail.Ru
    +13
    Привет! Это я делаю поиск по почте.

    После экспериментов со склонениями и спряжениями разных слов мне показалось, что Мэйл в морфологии разбирается лучше остальных.

    Спасибо! Кстати, скоро станет еще лучше. Активно работаем над морфологией. :)

    Но, в отличие от Яндекса с Gmail, здесь не выводится общее количество найденных писем.

    Выводится, если больше одной страницы результатов.

    Цифры в составе слов (3-й образец) найти не смог никто.

    А это будет. Токенизацию тоже существенно улучшаем.

    Эта же логика наблюдается и при поиске частей слов: ищется только слово целиком, по отдельным частям не работает.

    К сожалению, нельзя сделать эффективно. Размер словаря по экспоненте вырастет. Поэтому, никто и не умеет. Подробнее по устройству поиска можно тут глянуть: habrahabr.ru/company/mailru/blog/167497
    Со времен публикации много улучшилось, но суть осталась таже.

    Тут не работает поиск чисел по таблицам Excel ни в старом формате XLS, ни в новом XLSX:

    А вот это уже и правда баг. И мы его уже фиксим.

    Понятно, что в приоритете стоят задачи, которые увеличивают прибыль компании и найденный баг к этой категории не относится, но надеюсь, что Mail.Ru когда-нибудь пофиксит и его.

    Это не так. Баги всегда имеют приоритет перед любыми фичами. Проблемой мы уже занимаемся и скоро пофиксим.
  • Новая заявка на решение задачи P vs. NP
    +1
    Извиняюсь, ссылку пропустил…

    Но на счет «чем-то» отличается, у меня достаточно много скептицизма тут.
    Аппеляция к личности автора, к сожалению, вряд ли можно считать за существенное отличие. Ну а в плане техники… все-таки, глобально, это всего лишь «еще одно доказательство в списке». Потому что у всех 116 тоже есть что-то отличное в технике.

    Думаю, поднимать хайп пока еще очень и очень рано.
  • Новая заявка на решение задачи P vs. NP
    0
    Предыдущие 116 «доказательств»: www.win.tue.nl/~gwoegi/P-versus-NP.htm
  • Красно-черные деревья: коротко и ясно
    0
    Да, было дело. Я по сути рассказывал ровно то, что рассказывал уже упомянутый тут Robert Sedgewick в своей книге и в своем курсе на Coursera. Очень советую как первоисточник.

    P.S. А эта статья так себе, я ничего не понял. :(
  • Сказ о том, как Android-разработчика спамеры задолбали, и что и из этого вышло
    0
    Спасибо за статью и за программу!

    P.S. Особенно порадовал первый диалог со спамером, в котором сочетаются:

    У вас заканчивается срок службы!
    Ну тогда вам пришлют письменное извещение!!!

    и

    Говорите адрес!
  • Сравнение Tarantool с конкурентами в Microsoft Azure
    0
    Смею не согласиться с Сальваторе в этом вопросе. Свою позицию изложил тут.
  • Сравнение Tarantool с конкурентами в Microsoft Azure
    0
    Конечно согласен. Но другой тест будет уже для другой статьи.
  • Сравнение Tarantool с конкурентами в Microsoft Azure
    0
    Есть tnt_replace в сишной либе.
    А еще есть C API, с помощью которого вы можете внедрить любой язык. :)
  • Сравнение Tarantool с конкурентами в Microsoft Azure
    +1
    Мне действительно жаль, что у вас возникло такое ощущение, хотя я такого и не заявлял. Тем не менее, мой юзкейс чрезвычайно часто встречается в реальном мире, и именно этом обоснован мой выбор.
  • Сравнение Tarantool с конкурентами в Microsoft Azure
    +1
    Все-таки наличие тестирования не подразумевает тестирование ВСЕХ случаев.
    Тестировать можно по-разному: синхронно, асинхронно, синхронно-асинхронно, с батчингом и без него, с хранилками.

    Но все и сразу — нет. Это будет месиво информации, которое бросят читать на полпути.
    Я уже делал тест с батчингом (правда, асинхронный) и демонстрировал его результаты на хайлоаде.

    Тут я захотел сделать тест без батчинга — по этой причине. Кратко — я взял типовой, по моему мнению, профиль нагрузки и сделал тест под нему.
  • Сравнение Tarantool с конкурентами в Microsoft Azure
    0
    Ответ простой. :)
    Потому что я всегда пишу тесты под задачу. Сегодня выбрал такую.

    Батчинг — интересная тема, но для совсем другого теста.
    В целом этот тест больше для «масс-маркета», чем тест с батчингом.

    Основная же идея — сравнивать равное.
  • Сравнение Tarantool с конкурентами в Microsoft Azure
    0
    Пока еще в активной разработке.
  • Сравнение Tarantool с конкурентами в Microsoft Azure
    0
    Конечно, по не «прямо сейчас». К следующей статье. :)
  • Сравнение Tarantool с конкурентами в Microsoft Azure
    +1
    На batch-режим есть одна достаточно серьезная претензия.
    Он совершенно не всегда может быть органически встроен в структуру проекта.
    Придется писать дополнительный код, который эти пачки формирует.

    То есть в теории, конечно, попробовать можно протестировать, но а практике не факт что этот подход будет легко применим, ИМХО.

    То есть нам важно не «сколько из СУБД можно выжать в принципе» (сферический конь в вакууме), а сколько можно выжать на типовой бизнесовой задаче.

    + Делая пачку, мы увеличиваем latency для первых запросов в ней. (!)
  • Сравнение Tarantool с конкурентами в Microsoft Azure
    0
    Немного лени. :)

    Там цель была не в сравнении, а показать, что при синхронном тесте мы упираемся в потолок раньше.
    Но раз вопрос возник — попробую нарисовать — покажу.
  • Сравнение Tarantool с конкурентами в Microsoft Azure
    +1
    Был бы рад с вами пообщаться на эту тему, если вы не против.
    Хочу «разогнать» VoltDB и перечертить графики, но пока это лучшее, что удалось на таком тесте.
  • Сравнение Tarantool с конкурентами в Microsoft Azure
    +3
    Сразу под заголовком «Синхронно-асинхронный тест» в конце первого абзаца есть ссылка.
    Но я там красоту не наводил, выложил AS IS.
  • Как работает реляционная БД
    +2
    Так по x шкала тоже логарифмическая. Это немного неожиданно для глаза. :)
  • Как работает реляционная БД
    +1
    Тут на самом деле у автора вряд ли стояла цель разобрать полностью всю «Big-Oh notation». Конечно, сравнение верно только начиная с некоторого n, но давайте представим, что тут вместо общего случая тут рассмотрен просто один из примеров, причем учебный, целью которого является лишь поверхностно коснуться «Big-Oh notation» без сильного погружения в математику.

    Для вводной статьи это ОК, кто захочет большего, тот найдет.
    ИМХО.
  • Измеряем качество поиска в Почте
    0
    К тому же, насколько знаю, Pinba — это решение для PHP, а PHP у нас нигде не используется.
  • Измеряем качество поиска в Почте
    +7
    Собственная разработка.
    Максимально подробно я описывал в своем прошлом посте: habrahabr.ru/company/mailru/blog/167497/
  • Полнотекстовый поиск: как это делают в Почте Mail.Ru
    0
    Время поиска по snapshot практически не зависит от размера ящика, а от количество слов в запросе зависит линейно.
    Время поиска по xlog линейно зависит от его размера (а его максимально допустимый размер — от конкретных настроек демона).

    Математическое ожидание времени исполнения поискового запроса — 200мс (посчитано на живом сервере).
    Подробные графики покажем в ближайшее время (возможно, это тема для отдельного поста).
  • Полнотекстовый поиск: как это делают в Почте Mail.Ru
    +3
    Для каждого почтового ящика свой индекс. Никакого «общего» индекса нет.
  • Полнотекстовый поиск: как это делают в Почте Mail.Ru
    +7
    Важно, чтобы все записи в словаре имели одинаковую длину. Благодаря этому достаточно легко организовать бинарный поиск по нему.
    Кроме того, существуют определенные требования к размеру индекса. Во-первых, таким образом экономится пространство на жестких дисках. Во-вторых, меньший по размеру словарь быстрее читается в память. А CRC32 меньше, чем средней длины слово.
  • Полнотекстовый поиск: как это делают в Почте Mail.Ru
    +4
    В поиске по почте таких запросов нет. Обычно поисковый запрос представляет собой 1-2 слова, либо e-mail (или его часть). Максимум, чем мы рискуем, это большим количеством результатов, чем могло бы быть при «полном совпадении».