Комментарии / Профиль tiendi3 / Хабр

Дмитрий Тумайкин@tiendi3

Пользователь

Подписчики

Трансформеры в Поиске: как Яндекс применил тяжёлые нейросети для поиска по смыслу

tiendi3 21 фев 2021 в 00:00

Меня искренне волнует, почему нейросети Яндекса не справляются с запросом "гол задницей", "гол задницей видео", а гугл отрабатывает наура

Использование различных метрик для кластеризации ключевых запросов

tiendi3 15 сен 2017 в 17:37

В контекстной рекламе никто не будет мешать несмешиваемое, поэтому тут подход имеет место быть. Например, свежую зелень будут продавать вместе со свежими овощами

Анализ больших семантических ядер, или «Робот-распознаватель»

tiendi3 13 дек 2016 в 16:36

Инструкция к последней версии и ссылка на нее же в описании к ролику:

https://youtu.be/Ryk1znM5HMA

Лемматизация в Excel, или «Робот-распознаватель 3.0»

tiendi3 13 дек 2016 в 16:35

Инструкция к последней версии и ссылка на нее же в описании к ролику:

https://www.youtube.com/watch?v=Ryk1znM5HMA

Усовершенствуем функцию ВПР в Excel

tiendi3 6 ноя 2016 в 13:06

А расскажите подробнее, вот я хочу обрабатывать словарь (текстовый файл размером около 2 ГБ), поможет в этом R?
Искать и находить в нем по ключам от 1 до 200.000 значений одновременно, и возвращать для каждого ключа значения.

Упрощаем бинарный поиск в Excel — реализация Double VLOOKUP Trick с помощью UDF

tiendi3 28 окт 2016 в 21:51

на данных в 200 тыс строк 50 сек вместо 45), что не критично, зато поддерживает целостность данных.

это если делать немного поисков.
А если нужно одновременно в массиве из 1 млн значений найти другие 60.000 — это совершенно другая история. тут нужна сортировка и бинарный.

Упрощаем бинарный поиск в Excel — реализация Double VLOOKUP Trick с помощью UDF

tiendi3 28 окт 2016 в 21:46

зависимость от структуры при желании легко обойти. помимо ВПР есть ГПР — всегда можно ссылаться не на номер столбца, а на индекс его заголовка.
В других случаях можно просто ссылаться на индекс нужного столбца через подсчет ширины массива — при добавлении столбцов будет смещаться и индекс.
Речь вообще идет о феномене бинарного поиска, а не о функциях — индекс или ВПР. И та и та функция умеют искать бинарным поиском по сортированному массиву.

Упрощаем бинарный поиск в Excel — реализация Double VLOOKUP Trick с помощью UDF

tiendi3 28 окт 2016 в 21:36

ПОИСКПОЗ тоже бывает бинарный, принимает последний аргумент 1 и -1 для сортировки а-я и я-а соответствено.
Поэтому совмещение ВПР и Индекс-ПОИСКПОЗ дает убер-решение, которое такое же быстрое, но в то же время не обладает недостатками ВПР. В статье выше об этом тоже ведется речь, даже выложен пример функции. UDF тоже напишу, попозже, опубликую, если до меня кто-нибудь не опубликует :)
Статья:
http://analystcave.com/excel-vlookup-vs-index-match-vs-sql-performance/

Упрощаем бинарный поиск в Excel — реализация Double VLOOKUP Trick с помощью UDF

tiendi3 28 окт 2016 в 00:09

апдейт кода выложил, но вышеописанное поведение (скриншот) — корректное при бинарном поиске, поэтому там ничего не корректировалось. И в целом если корректировать, это ухудшит производительность.

Упрощаем бинарный поиск в Excel — реализация Double VLOOKUP Trick с помощью UDF

tiendi3 28 окт 2016 в 00:03

кому как)
первые два пункта — трудно представить как нечто непреодолимое.
последний в моих проектах не актуален (ключи уникальны), и непонятно, как вопрос с неопределенностью решают другие алгоритмы.
Несколько условий — целый отдельный кейс реализации.

Лемматизация в Excel, или «Робот-распознаватель 3.0»

tiendi3 26 окт 2016 в 06:33

https://habrahabr.ru/post/313476/
Пост о бинарном поиске в excel и ссылка на последнюю (6.0) версию файла тут

Анализ больших семантических ядер, или «Робот-распознаватель»

tiendi3 26 окт 2016 в 06:32

Пост о бинарном поиске и последняя версия файла, дополненная многими новыми фичами — тут:
https://habrahabr.ru/post/313476/

Упрощаем бинарный поиск в Excel — реализация Double VLOOKUP Trick с помощью UDF

tiendi3 25 окт 2016 в 20:06

по 1-му пункту — так и было задумано, если хотите свой вариант — вполне можете переработать код под ваши нужды. По мне это предложение уже чересчур кастомное.
по 2-му — тут интереснее, так не было задумано, буду фиксить вместе с первым параметром, который не принимает вручную добавленные или вычисляемые строки (что хотелось бы и мне в том числе). Апдейт кода выложу.

Упрощаем бинарный поиск в Excel — реализация Double VLOOKUP Trick с помощью UDF

tiendi3 25 окт 2016 в 20:01

Решение выглядело бы как последовательная сортировка каждого из критериев, справа налево, затем конкатенация, затем тот же бинарный поиск с выводом значения. Это возможно, если сортировка не мешает.
Думаю, решения должны быть, если нет, можно задуматься о реализации.

Лемматизация в Excel, или «Робот-распознаватель 3.0»

tiendi3 25 окт 2016 в 19:42

обычно выкладываю анонсы на своих страницах в FB и VK.

Упрощаем бинарный поиск в Excel — реализация Double VLOOKUP Trick с помощью UDF

tiendi3 25 окт 2016 в 08:56

продумывал этот вариант, поскольку стажа программирования практически нет, еще не разобрался, даст ли прирост в моем кейсе.
+ критичным является не оптимизация объема занимаемой памяти, а оптимизация процессорного времени.
Массивы в моих задачах большие, но не настолько большие, чтобы не хватило памяти.

Упрощаем бинарный поиск в Excel — реализация Double VLOOKUP Trick с помощью UDF

tiendi3 25 окт 2016 в 08:32

аналогично при бинарном поиске, искомое может быть найдено как на 1-й, так и на 20-й итерации. На бесконечном количестве поисков среднее время поиска будет 10 итераций.

Упрощаем бинарный поиск в Excel — реализация Double VLOOKUP Trick с помощью UDF

tiendi3 25 окт 2016 в 08:30

Нет, речь о чисто математическом расчете, если не учитывать никакие внешние факторы (многопоточность, обслуживание функции, запись в файл и т.д.).
Если массив 2^20 строк и все поиски разнородные, то при стремлении количества поисков к бесконечности среднее количество операций на один поиск стремится к числу, равному половине массива. Т.к. экстремумы — 1 и 2^20 (искомое может быть как в первой, так и в последней строке), среднее на большом количестве где-то посередине, т.е. 2^10, или ~500.000

Упрощаем бинарный поиск в Excel — реализация Double VLOOKUP Trick с помощью UDF

tiendi3 24 окт 2016 в 19:53

Исходя из синтаксиса — да, но практически нужно учитывать и этот вариант, не продумал его заранее. Реализую

Лемматизация в Excel, или «Робот-распознаватель 3.0»

tiendi3 24 окт 2016 в 12:00

https://yadi.sk/d/ayYqQjxpxVq5q
Последняя