shmelev-1987 6 фев 2020 в 01:38

ImportExportDataSql — бесплатный конвертер данных MSSQL

4 мин

17K

Комментарии 25

alexmay 6 фев 2020 в 02:05

Искал подобный инструмент, написал свой на node.js + Delphi, но возможно ваш удобнее.
Подскажите — а можете добавить поддержку ODBC, для использования любых SQL БД?

shmelev-1987 6 фев 2020 в 02:29

У меня есть еще одно подобное приложение, которое может конвертировать данные из одной СУБД в другую СУБД (MySQL, MSSQL, Access, Firebird), там есть поддержка ODBC. Вот ссылка, если интересно: yadi.sk/d/JQRvh2BOT7vqtg
Когда-нибудь перенесу тот функционал в ImportExportDataSql

dbalabanov 6 фев 2020 в 07:45

как обрабатывается присутствие спец символов (табуляция, перевод строки и т.д.) в ячейках при импорте из Excel?

shmelev-1987 6 фев 2020 в 08:56

Я думал как есть так и обрабатывается, без изменений. Оказалось, что табуляция заменяется на пробел, а переход на новую строку заменяется на пустую строку.
Буду исправлять, спасибо за вопрос!

Ananiev_Genrih 6 фев 2020 в 12:25

Уважаемый автор, спасибо во-первых.
Во-вторых вопрос: где то раз в квартал приходится заниматься одной странной хренью — качать с одного гос.сайта гигантский XML (2-3 гига) с чудовищной структурой, которую распарсить в csv без падения может лишь одна утилитка (не важно какая, в итоге csv).
Далее этот csv я должен импортировать через "Import and Export Data (64-bt)" с полной перезаписью в таблицу.
Т.к. длина текстовых полей велика и заголовки полей периодически могут "плавать" написал сам для себя инструкцию чтобы печаль нет так сильно меня брала.
один из хаков по инструкции — согласно совету stack вручную выкручивать длину поля до 8000 символов.
В общем там так себе мастер (хотя раз в квартал терпимо).
Есть ли смысл тратить время на тест Вашего изделия, будет ли оно удобнее для таких задач?

shmelev-1987 6 фев 2020 в 13:53

Я пробовал обрабатывать большие CSV и проблем не возникало. Можно поиграться с количеством записей блоков, чтобы оптимизировать скорость загрузки. Если есть возможность передать мне Ваш CSV файл (хотя бы часть), то я могу попробовать его загрузить в MSSQL и прислать вам готовый настроечный XML-файл, а Вам будет достаточно настроить соединение с БД и нажать кнопку «Выполнить обработку выбранных задач».

McKinseyBA 6 фев 2020 в 15:37

Попробуйте подход описанный в комментарии ниже.

С другой стороны — если всего 1 раз в квартал парсится файл, то можно и костылями решить вопрос.

Dansoid 6 фев 2020 в 22:39

Могу подкинуть другой вариант:
Берется linq2db
Берется любая библиотека которая CSV парсит и потоково возвращает IEnumerable<string[]>, тут я не помощник.

И пишется что-то такое

var csvItems = CSVParser.Parse("filename");

using (var db = new DataConnection(...))
{
    db.BulkCopy(
       csvItems.Select(csv => new DestinationEntity{
          Field1 = int.Parse(csv[0]),
          Field2 = double.Parse(csv[1]),
          LongStr = csv[2],
          ...
       })
    );
}

Гарантирую, что если отключите индексы, данные влетят, даже чай не успеете заварить.
Для баз данных, которые поддерживают такие вставки, и того быстрее. Будут посланы параметризированные запросы и не надо беспокоиться о длине полей.

shmelev-1987 7 фев 2020 в 08:53

А где же цикл обработки построчно и заливка в БД блоками? Если таким образом заливать несколько Гб разом, то транзакция будет переполнять диск и операция будет очень долгой, либо будет System.OutOfMemoryException.
Это проверено личным опытом.
P.S.: Даже системная утилита bcp пишет блоками по 1000 записей, не задумывались почему? Правда bcp фиксирует изменения одной транзакцией и это происходит долго (забивается диск), а ImportExportDataSql фиксирует изменения сразу после записи блока.

Dansoid 7 фев 2020 в 09:12

Вся магия внутри, по умолчанию обрабатываются пачки по 1000 записей, и это конфигурируется. Догадываетесь почему?

Вы пропустили мое описание что данные должны представляться как IEnumerable — это не все записи сразу, ни в коем случае.

shmelev-1987 7 фев 2020 в 09:24

var csvItems = CSVParser.Parse("filename");

Этот код означает чтение всего файла целиком или частями? Если целиком, то будет System.OutOfMemoryException, а если частями то нужно весь код внести в цикл, чтобы записи из файла считывались блоками.

Dansoid 7 фев 2020 в 12:10

Не учить же вас как пользоваться C#. Вот примерная реализация парсера. Пишу на коленке, важен подход.

public IEnumerable<string[]> ParseCsv(string fileName)
{
   using (var file = new System.IO.StreamReader(fileName))
   {
       string line;
       while((line = file.ReadLine()) != null)  
       {  
            yield return line.Split(‘\t’);
       }
    }
}

linq2db внутри считывает из этого энумератора только 1000 записей и запихивает это в BulkCopy (для MSSQL) или готовит компактный SQL с параметрами на всю 1000 записей. Объекты больше не нужны и их подберет GC.
Процесс повторяется пока до конца файла не дойдем. Энумератор диспозится и файл закрывается.

Точно также можно взять данные IEnumerable из одной базы и закинуть в другую. Не важно сколько записей в исходной таблице, хоть миллионы.

shmelev-1987 7 фев 2020 в 15:21

А как linq2db считывает 1000 записей, в отдельном потоке?
Если нет, то тогда linq2db будет ждать, пока не прочитается весь файл и при большом объеме файла приложению может не хватить памяти.

Dansoid 7 фев 2020 в 16:00

Вы не понимаете что такое энумераторы и роль yield return в коде парсера.

Я бы советовал подучить эту часть.
Как только, кто-то начинает энумерацию, создается стейт машина (класс в который превращается ParseCsv метод компилятором) и при вызове метода Next в энумераторе из файла читается одна линия, не больше. Когда файл заканчивается Next вернет false — все мы перебрали все линии.

unchase 6 фев 2020 в 12:37

Нет планов пустить приложение в open-source, чтобы сообщество могло предлагать свои доработки?

shmelev-1987 6 фев 2020 в 14:00

У меня уже есть один проект в open-source на github: программа для заметок, возможно и этот выложу, если будет хоть немного желающих его доработать.

unchase 6 фев 2020 в 17:01

Выкладывайте, хуже не будет)

McKinseyBA 6 фев 2020 в 15:04

С одной стороны прикольный pet-project и Вы явно молодец, что поделились результатом, а не просто статью на Хабр запилили. Лайк и плюс в карму.

Но объективно — велосипед же?) Есть уже написанные проф. среды для визуальной разработки ETL-процедур. Talend вообще бесплатен и функциональность на несколько порядков выше. Разворачивается за 10 минут и еще минут за 10 выкачивает всякие доп.библиотеки. Явно меньше времени, чем на написание вашего тула ушло. А скомпилированный .jar ETL-процедуры можно хоть в cron выполнять, хоть любым win scheduler.

shmelev-1987 6 фев 2020 в 15:21

Благодарю за хороший отзыв!
Согласен, что велосипед, но хочется иметь простой инструмент без установки (портативный), чтобы взял и перенес на другой компьютер без проблем, а в какой-то момент доработал под себя.

rezdm 7 фев 2020 в 15:48

Это ж родной SSIS
docs.microsoft.com/en-us/sql/integration-services/sql-server-integration-services?view=sql-server-ver15

jobgemws 23 сен 2020 в 12:56

Если продукт бесплатный, то предлагаю выложить код и сам проект в GitHub или в GitLab.
Как на это смотрите?

shmelev-1987 23 сен 2020 в 13:47

Сначала нужно сделать английскую версию и написать текст лицензии. После этого, возможно, выложу.

qwertEHOK 24 июн 2021 в 17:38

при импорте данных из экселя в базу не умеет читать заголовки и создавать таблицу для вставки данных

killeralex 25 ноя 2021 в 16:39

https://www.zamzar.com/convert/csv-to-mdb/

Кириллица полегла, но парсил избыточную выжимку с госсайта. Достаточно госсловарей и UID на них

shmelev-1987 26 ноя 2021 в 11:37

Для типа задачи "Сохранить из БД в CSV" выбор кодировки добавлен в ImportExportDataSql версии 5.0.0.57

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

ImportExportDataSql — бесплатный конвертер данных MSSQL

Комментарии 25

Публикации

Истории