Xp0M0u Jul 28 2009 at 07:51

ActiveRecord vs SQL

2 min

7.8K

Ruby on Rails *

+24

Comments 49

UFO landed and left these words here

Xp0M0u Jul 28 2009 at 08:39

То, что ActiveRecord медленнее — это было очевидно. Удивило то, насколько он медленнее.

UFO landed and left these words here

Xp0M0u Jul 28 2009 at 10:18

Добавил результаты в production окружении.

UFO landed and left these words here

kex Jul 28 2009 at 13:00

Мда, вставлять записи по одной при задаче импорта, при том что у Mysql есть все готовое для того чтобы делать пакетные вставки, может только махровый экспериментатор… :))

Ещё при этом завернуть каждый запрос в разные варианты оберток и устроить тестирование :)

CWN Jul 28 2009 at 08:09

А можно еще посмотреть на mysqlimport dev.mysql.com/doc/refman/5.0/en/mysqlimport.html
для импорта CSV файлов

А также на синтаксис Insert — multirow insert (bulk-insert)
dev.mysql.com/doc/refman/5.0/en/insert.html
Который гораздо быстрее одиночных инсертов.

Ventura Jul 28 2009 at 08:40

Поддерживаю, работает намного быстрее. Xp0M0u, проверьте на том же кол-ве записей и приведите время для сравнения.
А вместо mysqlimport можно использовать команду LOAD DATA INFILE суть та же, только имейте ввиду, что у многих хостеров она не разрешена.

Xp0M0u Jul 28 2009 at 10:20

Добавил тест с bulk-insert.

Данные из CSV было необходимо определенным образом обработать перед заливкой в базу, поэтому напрямую брать из CSV и лить в MySQL — не получится.

Ventura Jul 28 2009 at 11:17

Все равно для больших файлов лучше использовать mysqlimport или LOAD DATA, потому что у вас сначала файл читается в память, а потом передается в MySQL.
Само собой, csv-файл должен быть доступен для MySQL (один физ. сервер либо NFS и права доступа).

Alex_EXEcuter Jul 29 2009 at 06:38

а залить в отдельную таблицу, над ней сделать действия и перенести в нужное место никак?

keymone Jul 28 2009 at 08:43

конечно что активрекорд медленнее.

но я не вижу у вас в sql.execute никаких валидаторов, сериализаторов, связей и других плюшек какие можно прописать в модель благодаря актив рекорду и не волноватся за правильность данных в цвс файле.

kutanov Jul 28 2009 at 11:04

тут даже в другом проблема.
изначально автор насоздовал over 9000 объектов и по отдельности их сохранял — это тактика северного пушного зверя
к концу автор исправился, правильно создать массив хэшей, сделать из него sql и ActiveRecord::Base.connection.execute(sql)

kutanov Jul 28 2009 at 11:24

кстати валидацию можно выключить

egorinsk Jul 28 2009 at 14:47

ORM должны поддерживать массовые операции.

remal Jul 28 2009 at 10:27

Импортировать CSV файл из 5к строк за 30 секунд — нормально. Главное грамотно GUI сделать.

Имхо, единственный случай, где надо это оптимизировать — постоянные частые процедуры импорта. Когда 30 секунд раз в час (к примеру) уже дают о себе знать. Но и даже тут я бы лучше подумал как уменьшить входные данные, чем оптимизировать код.

Xp0M0u Jul 28 2009 at 10:29

5к строк — только в тестовом коде. В реале строк больше 100к и ждать приходилось дольше 5 минут.

Xp0M0u Jul 28 2009 at 10:32

Уточню — в CSV файле строк около 3000, но на основе этих данных, по разным табличкам разносится более 100к записей.

leonard Jul 28 2009 at 12:34

Ой-ой-ой. Это нормально?)

remal Jul 28 2009 at 14:47

100к строк в файле импорта? Простите, а что импортить надо? Может, проблемы не в импорте, а все же во входных данных?

CWN Jul 28 2009 at 11:32

5k строк за 30 секунд это совсем ненормально на современном оборудовании, даже при красивом GUI.
У меня дампы на 150-200Мб в мускул грузятся за 10-15 секунд, на стареньком P4 именно за счет bulk-insert. Тот же самый дамп, но в старой нотации — один инсерт-одна запись будет грузиться минимум пару часов.

trak Jul 28 2009 at 11:36

О, я уже успел у автора про «булки» спросить напрасно.

remal Jul 28 2009 at 14:41

На самом деле вопрос не в нормальности. Вопрос в том, стоит ли тратить время и ухудшать читаемость программы, увеличивать кол-во рисков и т.п. ради оптимизации процесса, который совсем не факт, что надо оптимизировать.

CWN Jul 28 2009 at 15:47

Вы клиенту текст программы даете почитать? Читаемость программы это следствие корпоративных стандартов оформления кода и профессионализма разработчика, а не использования прослоек.

Увеличение количества рисков это прямое следствие от усложнения программы, в данном случае шансов нарваться на непредвиденную ситуацию с прослойкой больше, чем с нативным функционалом БД с которой работаете. Да в принципе этот топик и показывает такую непредвиденную ситуацию.

Да и неиспользование оптимальных отработанных алгоритмов, в угоду мифической читаемости программы и красоты GUI, это движение в сторону получения на выходе кашки в красовой обертки.

ЗЫ. Мне это напоминает 1С бухгалтерию, когда 1Сники в захлеб рассказывают какая у них там большая база, целых 4Gb, и как быстро у них там проводка генерится — аж целых 5 секунд. И впадают в ступор, когда моя маленькая база в 120+Gb, выдает за теже 5 секунд аналитику по десятку миллионов строк.

remal Jul 28 2009 at 20:38

Введением абстракций читаемость не повысить? Фреймворки не упрощают разработку?

Корпоративные стандарты тут вообще ни причем. Если разработчики пишут быдлокод, никакие стандарты не помогут.

Увеличением кол-ва рисков будет использовать SQL вместо хорошего ORM. Рефакторинг (или любые изменения функциональностей) кучи SQL запросов — ад. Опыт уже имеется.

Про 1С… Вопрос: насколько часто надо делать эту самую статистику? Раз в час? Раз в минуту? Или все же раз в неделю максимум? Насколько конечным пользователям мешает выполнение алгоритма в 10 раз дольше? Логично предположить, что их пользователи не особо жалуются, раз ситуация до сих пор такая. Так зачем 1С тратить лишние ресурсы на то, что и так работает?

Так вот, я пишу программы так, чтобы их могли легко прочесть и легко менять. ORM фреймворки значительно упрощают это. Любую же оптимизацию я начинаю делать только после очень хорошего исследования ее надобности.

Когда на половине проекта заказчик попросит изменения, которые поменяют структуру половины таблиц и ваша IDE не сделает автоматический рефакторинг кастомного SQL кода, вот тогда и начнется настоящий геморрой.

Оптимальным же в этой задаче, имхо, будет:
— Понять насколько *действительно* актуален прирост производительности. Делается ли он в угоду пользователям или только для удовлетворения собственных амбиций.
— Подумать как можно оптимизировать входные данные (актуально для данной задачи)
— Сделать изменения в ORM
— …

Понимаю, я — никто и мысли свои выражать не умею. Почитайте «Совершенный код» Макконнелла, раздел про оптимизацию программ — там об этом написано лучше.

ЗЫ: Я сам очень люблю удовлетворять свои амбиции и тратить ресурсы не оптимально. Но очень часто понимание того, что это имеет мало общего с заработком денег, отрезвляет.

CWN Jul 29 2009 at 05:34

Я уже отмечал в предыдущем посте, абстракции и фреймворки это палка о двух концах, с одной стороны мы ускоряем (не упрощаем, а именно ускоряем) выход рабочего кода, но при этом ловим все баги фреймворка и «псевдогибкость» абстракций пытающихся описать неописуемое.
В моей работе время от времени возникают ситуации, когда непредвиденное поведение программы связано со сторонней библиотекой или фреймворком. Так что цена «удобства» разработки — вычитка чужого кода.

А быдлокод можно написать и с фреймворками, и с абстракциями, они эту проблему ни в коем разе не решают.

Про 1С. Пользователи то как раз и жалуются, я постоянно вижу как бухгалтерия сидит ночами и выходными, только чтобы успеть в отведенные временные рамки по закрытию отчетного периода, и немалую часть времени занимает ожидание чего же там «додумает» 1С.

Насчет Макконела — рассуждения в книге здравые, и я не собираюсь их оспаривать. Оптимизация ради оптимизации — всегда зло. Другое дело, что тот же Макконел замечает, что «написание эффективного кода — это уже признак серьезного программиста».

Но мы несколько отвлеклись, данный топик как раз показывает случай когда оптимизация нужна по условиям задачи и не решается красивой высокоуровневой абстракцией.
По поводу работы с БД кстати рекомендую Тома Кайта почитать, Oracle Experts, в русском переводе «Оракл для профессионалов». Книга конечно прежде всего про оракл, но общие вводные главы содержат много примеров как надо и как ненадо работать с БД, чтобы она не стала узким местом.

remal Jul 29 2009 at 09:16

Спасибо за книгу, обязательно почитаю.

trak Jul 28 2009 at 11:35

А там у вас в рубях и mysql нет BULK операций что-ли?

kutanov Jul 28 2009 at 11:37

автор попробуй с ar :validate => false

mironov_anton Jul 28 2009 at 13:31

И без TestObject.new(item). Что-то типа:

require 'ar-extensions/adapters/mysql'
require 'ar-extensions/import/mysql'
…
TestObject.import [:field1, :field2, :field3, :field4, :field5], array_of_values, :validate => false

AmdY Jul 28 2009 at 12:04

можно ещё ускорить, сделав длинные инсерты, вставляющие за раз несколько записей, а так же можно использовать prepared statement
но нафег? целостность данных, валидация в подобных операциях гораздо важнее скорости, модель это больше нежели просто вставка.

trak Jul 28 2009 at 12:17

У приличных RDBMS и при BULK-операциях есть все необходимое для обеспечения целостности данных и отлова исключений. Думаю, что и в MySQL не дураки далеко сидят.

AmdY Jul 28 2009 at 13:18

имелось ввиду целостность модели, которая является не только записью в одной таблице, но и вероятно связанные записи в других таблицах, связанные файлы, специализированные сетеры. конечно, есть тригеры, но в коде гораздо больше возможностей.

Xp0M0u Jul 28 2009 at 12:20

Я это прекрасно понимаю, поэтому я и написал «в тех участках кода, где не нужны его широкие возможности и важно быстродействие». Часто требуется только экранировать спец символы перед инсертом.

AmdY Jul 28 2009 at 13:24

prepared не только экранирует, но и говорит базе, жди ещё запросов, соответственно последующие запросы будут выполняться шустрее, в зависимости от дб.
:( эх, проклятые пять минут.

Fragster Jul 28 2009 at 12:18

в инсерте в одном запросе можно вставлять много строк (insert table (columns) values (values), (values),(values),(values),(values),...) так даже быстрее, чем в транзакции…
(я просто счас лог аналайзер и сервер статистики пишу — ulog и squid логи парсю — там этих инсертов — очень много, пришлось изучать...)

Fragster Jul 28 2009 at 12:20

А еще можно сделать insert from outfile (если в нем только нужные данные) — с csv, подходящего формата прокатывает.

Fragster Jul 28 2009 at 12:25

в смысле сделать временную таблицу, загнать в нее
LOAD DATA INFILE 'file_name.txt' INTO TABLE tbl_name
и потом INSERT… SELECT

myx Jul 28 2009 at 12:43

Ну вот, еще один человек узнал, что ORM медленнее, чем запись в базу через SQL.

qwertysx Jul 28 2009 at 12:55

День прожит незря

Bakti9rov Jul 29 2009 at 05:51

Да долбо×бы

egorinsk Jul 28 2009 at 13:24

Слушайте, а неужели все ORM'ы могут только обрабатывать по одной записи за раз? Неужели они не позволяют работать с набором записей одним запросом? Всякие bulk-delete не считаются, тк они не вызывают onDelete и не удаляют связанные записи.

Нафиг тогда вам сдался такой такой ОРМ?

DmitriKadykov Jul 28 2009 at 13:35

Да ну? Не эксперт по RОR'у, но почти уверен что его ORM не настолько уж убог.

kutanov Jul 28 2009 at 14:37

Ну ORM системы бывают разные, некоторые поумнее, некоторые покондовее. Но суть в том, что это не волшебная таблетка от всего. Если вам не хочется, чтобы было много запросов — вы просто реализуте часть логики работы с бд в вашей модели, используя для этого наследование и другие возможности языка, для этого в том же ActiveRecord есть все необходимое для регулирования уровня абстракции взаимодействия с бд. На этапе проектирования и первичной реализации это бывает не так существенно, а потом все эти моменты легко совершенствуются. Как-то так.

dapi Jul 28 2009 at 19:17

Не плохо былобы еще DataMapper пробенчмаркерить.

Bakti9rov Jul 29 2009 at 05:59

в чем вы хотите убедить? в том, что надо писать голыми SQL? тогда вообще выкиньте этот AR, используйте Ruby-DBI.

Xp0M0u Jul 29 2009 at 10:00

«я ни в коем случае не призываю отказаться от его использования, но в тех участках кода, где не нужны его широкие возможности и важно быстродействие, лучше использовать обычные SQL-запросы.»
Вы дочитали пост до конца?

Screamer Jul 29 2009 at 07:55

ActiveRecord с транзакцией не пробовал?

Alexander_N Aug 24 2009 at 12:12

Тут все говорят о mysql, складывается такое впечатление, что mysql это единственный сервер для баз данных.
Самому писать sql-запросы нельзя, проблемы возникнут при переходе на другой бд-сервер (mysql > postgresql …).
Ваше приложение становится зависимым от конкретного типа бд, и лучше этого избегать.