Comments 19
удалите лишние несущественные колонки. именно они могут брать на себя излишнюю нагрузку.
если есть возможность разбить всю базу из 50 тыс. записей на три-четыре, по 13-16 тыс. в каждой, сделайте так. желательно, конечно, чтобы разбиение происходило после первичной фильтрации и сортировки по первому и ключевому параметру.
а вообще подумайте, вам нужно обрабатывать эту БД?
если есть возможность разбить всю базу из 50 тыс. записей на три-четыре, по 13-16 тыс. в каждой, сделайте так. желательно, конечно, чтобы разбиение происходило после первичной фильтрации и сортировки по первому и ключевому параметру.
а вообще подумайте, вам нужно обрабатывать эту БД?
экспорт в csv, а потом обработка perl/php/python
это хорошо когда данные однородные
здесь данные очень неоднородные, которые надо соотносить с другими данными, которые впоследствие и составят красивую базу со всеми зависимостями и тп, а пока лучших данных для заполнения нет.
здесь данные очень неоднородные, которые надо соотносить с другими данными, которые впоследствие и составят красивую базу со всеми зависимостями и тп, а пока лучших данных для заполнения нет.
опишите задачу подробнее, ибо нет ничего сложного в таблицах сделанных в Excel на одном листе
есть база данных изданий с сайта fapmc.ru (которая нами берется с разрешения ФАПМК)
есть ТОП-списки которые выпускает проект mediastat.ru
и нужно в итоге получить пересечение этих баз (т.е. полное совпадение по названию — минимум; к названию в базе ФАПМК еще добавятся мастер-издание, издательский дом и холдинг (если есть), в топ-списках это все уже есть; но последнее это не самое геморное), самое геморное в этой части это вычислить пересечение этих баз, т.к. названия могут расходиться достаточно сильно вплоть до 5% совпадения. где взять софтину которая бы подсветила вероятные совпадения мне не ведомо (в гугле искала).
есть ТОП-списки которые выпускает проект mediastat.ru
и нужно в итоге получить пересечение этих баз (т.е. полное совпадение по названию — минимум; к названию в базе ФАПМК еще добавятся мастер-издание, издательский дом и холдинг (если есть), в топ-списках это все уже есть; но последнее это не самое геморное), самое геморное в этой части это вычислить пересечение этих баз, т.к. названия могут расходиться достаточно сильно вплоть до 5% совпадения. где взять софтину которая бы подсветила вероятные совпадения мне не ведомо (в гугле искала).
Заплатить китайцам. Им пофиг на размер и что вы там написали. Распарсят всё что угодно.
Кстати блог называется «Я умный». Тут обычно рассказывают что-то умное, а не спрашивают что-то непонятное.
Кстати блог называется «Я умный». Тут обычно рассказывают что-то умное, а не спрашивают что-то непонятное.
предложите куда перенести
очень активный блог с множеством читателей :)
запостила в Я умный, потому что комментаторы могут проявить свои знания в этом топике
уже не суть, т.к. пост уже отхабрили
запостила в Я умный, потому что комментаторы могут проявить свои знания в этом топике
уже не суть, т.к. пост уже отхабрили
Перегнать в БД на мускуле и работать уже с ней, а потом перегнать обратно не катит?
Специально для вас MS Office 2007 имеет формат XLSB — быстрый бинарный формат, который не обладает совместимостью ни с чем на свете (более того: я не уверен даже что гарантируется поддержка в будущих версиях MS Office). Используйте его — и будет вам щастя. Только не нужно класть такие файлы в архив и/или высылать кому-то: может оказаться что лет через 5 его нечем будет открывать…
Sign up to leave a comment.
.xlsx на службе оператора баз данных