Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 19

удалите лишние несущественные колонки. именно они могут брать на себя излишнюю нагрузку.

если есть возможность разбить всю базу из 50 тыс. записей на три-четыре, по 13-16 тыс. в каждой, сделайте так. желательно, конечно, чтобы разбиение происходило после первичной фильтрации и сортировки по первому и ключевому параметру.

а вообще подумайте, вам нужно обрабатывать эту БД?
по поводу разбивки я уже думала, но возможно возникнет путаница, хотя если совсем ничего, то наверное придется
экспорт в csv, а потом обработка perl/php/python
это хорошо когда данные однородные
здесь данные очень неоднородные, которые надо соотносить с другими данными, которые впоследствие и составят красивую базу со всеми зависимостями и тп, а пока лучших данных для заполнения нет.
опишите задачу подробнее, ибо нет ничего сложного в таблицах сделанных в Excel на одном листе
есть база данных изданий с сайта fapmc.ru (которая нами берется с разрешения ФАПМК)
есть ТОП-списки которые выпускает проект mediastat.ru
и нужно в итоге получить пересечение этих баз (т.е. полное совпадение по названию — минимум; к названию в базе ФАПМК еще добавятся мастер-издание, издательский дом и холдинг (если есть), в топ-списках это все уже есть; но последнее это не самое геморное), самое геморное в этой части это вычислить пересечение этих баз, т.к. названия могут расходиться достаточно сильно вплоть до 5% совпадения. где взять софтину которая бы подсветила вероятные совпадения мне не ведомо (в гугле искала).
вам следует воспользоваться моим советом по поводу языков, если что-то не понятно напишите на struchkov сабачка gmail.com или на struchkov_ve сабачка interrao.ru (если срочно) с примером значений строк
Заплатить китайцам. Им пофиг на размер и что вы там написали. Распарсят всё что угодно.
Кстати блог называется «Я умный». Тут обычно рассказывают что-то умное, а не спрашивают что-то непонятное.
предложите куда перенести
очень активный блог с множеством читателей :)
запостила в Я умный, потому что комментаторы могут проявить свои знания в этом топике
уже не суть, т.к. пост уже отхабрили
Он был основан сегодня. К новым блогам в любом случае проявляется повышенное внимание. Кроме того, надо постить по тематике, а не по принципу читаемый блог — не читаемый блог.
Перегнать в БД на мускуле и работать уже с ней, а потом перегнать обратно не катит?
с таким же успехом можно написать макросы на VB или работать со файлом Excel как с БД используя ODBC (или что-то более умное)
Ну если нем мускула, проще в Access и там VB, так, наверное, логичнее.
Специально для вас MS Office 2007 имеет формат XLSB — быстрый бинарный формат, который не обладает совместимостью ни с чем на свете (более того: я не уверен даже что гарантируется поддержка в будущих версиях MS Office). Используйте его — и будет вам щастя. Только не нужно класть такие файлы в архив и/или высылать кому-то: может оказаться что лет через 5 его нечем будет открывать…
оу, мерси, еще на три метра полегчало :) собственно мне только для первичной обработки, потом будет экспорт в csv с comma-разделителем.
НЛО прилетело и опубликовало эту надпись здесь
до сих пор не могу выкачать…
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации