Pull to refresh

Comments 13

впр не требует отсортированного множества
Если 4-й аргумент имеет значение ИСТИНА и значения в первом столбце таблицы подстановки не отсортированы по возрастанию, — это может привести к непредвиденным результатам. (При использовании значения ЛОЖЬ сортировка не требуется). //files3.vunivere.ru/workbase/00/02/24/11/images/image023.jpg
а еще лучше подключенный R к Excel,
хотя лучше вообще все в R подобное делать
А есть способ? Может подскажете?
А то когда надо много работать с большими объемами данных в Excel (прихоть работодателя), использую Python , но с удовольствием бы перешел на R.
для интеграции есть адд-он к Excel: RExcel — http://rcom.univie.ac.at/download.html#RExcel.

А если все делать в R, то есть пакеты и для открытия файлов xls, и сохранения результатов в них же.
но с удовольствием бы перешел на R.

просто интересно, можете обосновать Ваше удовольствие? т.к. наталкиваюсь уже не в первый раз на упоминание о неудобстве (конечно субъективном) работы пользователей с питоном
Никакого неудобства. Очень люблю питон и с удовольствием на нем пишу. Но то, как на R можно обрабатывать ту же статистику, это просто песня :)
А расскажите подробнее, вот я хочу обрабатывать словарь (текстовый файл размером около 2 ГБ), поможет в этом R?
Искать и находить в нем по ключам от 1 до 200.000 значений одновременно, и возвращать для каждого ключа значения.
Ээээ, кхм…
Это хорошо, что сделали типа ВПР, но через ПОИСКПОЗ, хотя в первоначальной статье именно про это в коментариях и говорилось.
Однако…
Функции пита ВПР или ПОИСКПОЗ прменяются в 2-х видах задач:
1. Разовая обработка больших массивов данных в экселе. Как оказала практика, если вы через ОЛЕ выгружаете данные эксель, то лучше выгружать сразу в Аксес. Для статитстической обработки очень больших данных это намного практичнее и быстрее.
Более того, если выгружать в эксель и обрабатывать в нем, то нюансы функции ВПР не так важны, как и скорость — работа разовая, можно 1- сек подождать.

2. Рабочие файлы, в которых ежедневно, ежеднелельно и ежемесячно ведется работа, обрабатываемые данные могут заносится туда выгрузками или вручную (т.е. никаких сортировок).
И функции типа ВПР, ПОИСПОЗ или СУММПРОИЗВ применяются в массовых масштабах для создания реляционной базы.
Данные измеряются не 200 тыс строк, а на порядок меньше, зато указанные функции используются по 5-15 раз в каждой строке, итого они вызываются под 1 млн раз.
Это я к чему? При такое количестве вызоов функций любое использование ВБА подвешивает программу на минуты и часы. По этой простой причине примеются исключительно встроенные фукнции, т.к. скрипты катасрофически тормознутые.
Если у вас 100 вызовов ВБА — это нормально, если 100 тыс. — это беда.
Причем тормозит именно сам механизм ВБа, даже если вы там внутри вызываете встроенные функции.
UFO just landed and posted this here
Index-match сработает неправильно, если захочется найти точное значение в отсортированном массиве. Именно эта ситуация как раз и оптимизируется…
Sign up to leave a comment.

Articles