surkova Aug 25 2008 at 08:07

.xlsx на службе оператора баз данных

1 min

751

Lumber room

-4

Comments 19

Dimasgera Aug 25 2008 at 08:19

удалите лишние несущественные колонки. именно они могут брать на себя излишнюю нагрузку.

если есть возможность разбить всю базу из 50 тыс. записей на три-четыре, по 13-16 тыс. в каждой, сделайте так. желательно, конечно, чтобы разбиение происходило после первичной фильтрации и сортировки по первому и ключевому параметру.

а вообще подумайте, вам нужно обрабатывать эту БД?

surkova Aug 25 2008 at 08:35

по поводу разбивки я уже думала, но возможно возникнет путаница, хотя если совсем ничего, то наверное придется

great_boba Aug 25 2008 at 08:27

экспорт в csv, а потом обработка perl/php/python

surkova Aug 25 2008 at 08:37

это хорошо когда данные однородные
здесь данные очень неоднородные, которые надо соотносить с другими данными, которые впоследствие и составят красивую базу со всеми зависимостями и тп, а пока лучших данных для заполнения нет.

great_boba Aug 25 2008 at 08:59

опишите задачу подробнее, ибо нет ничего сложного в таблицах сделанных в Excel на одном листе

surkova Aug 25 2008 at 09:09

есть база данных изданий с сайта fapmc.ru (которая нами берется с разрешения ФАПМК)
есть ТОП-списки которые выпускает проект mediastat.ru
и нужно в итоге получить пересечение этих баз (т.е. полное совпадение по названию — минимум; к названию в базе ФАПМК еще добавятся мастер-издание, издательский дом и холдинг (если есть), в топ-списках это все уже есть; но последнее это не самое геморное), самое геморное в этой части это вычислить пересечение этих баз, т.к. названия могут расходиться достаточно сильно вплоть до 5% совпадения. где взять софтину которая бы подсветила вероятные совпадения мне не ведомо (в гугле искала).

great_boba Aug 25 2008 at 11:24

вам следует воспользоваться моим советом по поводу языков, если что-то не понятно напишите на struchkov сабачка gmail.com или на struchkov_ve сабачка interrao.ru (если срочно) с примером значений строк

Azy Aug 25 2008 at 08:44

Заплатить китайцам. Им пофиг на размер и что вы там написали. Распарсят всё что угодно.
Кстати блог называется «Я умный». Тут обычно рассказывают что-то умное, а не спрашивают что-то непонятное.

surkova Aug 25 2008 at 08:45

предложите куда перенести

stroncium Aug 25 2008 at 08:47

habrahabr.ru/blogs/I_do_not_understand/

surkova Aug 25 2008 at 09:10

очень активный блог с множеством читателей :)
запостила в Я умный, потому что комментаторы могут проявить свои знания в этом топике
уже не суть, т.к. пост уже отхабрили

stroncium Aug 25 2008 at 10:23

Он был основан сегодня. К новым блогам в любом случае проявляется повышенное внимание. Кроме того, надо постить по тематике, а не по принципу читаемый блог — не читаемый блог.

stroncium Aug 25 2008 at 08:46

Перегнать в БД на мускуле и работать уже с ней, а потом перегнать обратно не катит?

great_boba Aug 25 2008 at 09:00

с таким же успехом можно написать макросы на VB или работать со файлом Excel как с БД используя ODBC (или что-то более умное)

romychs Aug 25 2008 at 09:34

Ну если нем мускула, проще в Access и там VB, так, наверное, логичнее.

khim Aug 26 2008 at 08:04

Специально для вас MS Office 2007 имеет формат XLSB — быстрый бинарный формат, который не обладает совместимостью ни с чем на свете (более того: я не уверен даже что гарантируется поддержка в будущих версиях MS Office). Используйте его — и будет вам щастя. Только не нужно класть такие файлы в архив и/или высылать кому-то: может оказаться что лет через 5 его нечем будет открывать…

surkova Aug 26 2008 at 08:08

оу, мерси, еще на три метра полегчало :) собственно мне только для первичной обработки, потом будет экспорт в csv с comma-разделителем.

UFO landed and left these words here

surkova Oct 15 2008 at 18:18

до сих пор не могу выкачать…