Joshua Jul 8 2010 at 16:27

О, эти планы запросов

2 min

80K

SQL *

+50

142

Comments 142

Nc_Soft Jul 8 2010 at 16:36

sphinx

widowmaker Jul 8 2010 at 16:36

причем тут сфинкс, где тут полнотекстовый поиск?

Nc_Soft Jul 8 2010 at 16:41

он отлично подходит не только для фултекста, но и для фильтрации и сортировки.

UFO landed and left these words here

Nc_Soft Jul 8 2010 at 16:56

он спрашивает как уменьшить время в 10 раз

deniamnet Jul 8 2010 at 19:36

кажется, вы изрядно тупите

Nc_Soft Jul 8 2010 at 19:46

Как обычно 3 способа решения проблемы со скоростью:
1. оптимизировать запрос (ниже там с иннер джоин предложили вариант, автор не отписался какое время выполнения стало)
2. увеличить ресурсы: больше памяти, круче железо
3. использовать другое ПО

я просто предложил третий вариант

deniamnet Jul 8 2010 at 19:49

извините, если резко ответил в предыдущем комменте, но у автора поста вопрос не стоял в том, что «подскажите, какой ПО мне нужно использовать, чтобы уменьшить время выполнения этого запроса?»
он спросил: «как, используя текущее ПО, мне изменить _запрос_, чтобы он выполнялся быстрее
sphinx — крутая штука, несомненно, но не стоит уж из пушки по воробьям-то)

onk Jul 9 2010 at 07:45

третий вариант былбы использовать oracle вместо mssql
а так это совершенно разные задачи

UFO landed and left these words here

widowmaker Jul 8 2010 at 16:39

Поле CityId проиндексировано?

Joshua Jul 8 2010 at 16:43

О, да!

widowmaker Jul 8 2010 at 16:44

Я специализируюсь на MySQL, MSSQL видел только пару раз.

Irker Jul 8 2010 at 19:20

пардон еще за один такой же вопрос. А Cities.Name проиндексирован?

homm Jul 8 2010 at 20:16

А вы читать умеете?

Индексы на поля Cites.Id, Cites.Name, People.CityId – в наличии.

Irker Jul 9 2010 at 04:08

Умею, пост был отредактирован.

homm Jul 9 2010 at 06:05

Видел этот пост еще когда он был первым списке новых, эта информация уже была.

anarleen Jul 8 2010 at 16:41

А я думал, в статье и будет рассказано, как это сделать.

anarleen Jul 8 2010 at 16:43

Кстати, если важно, чтобы такие запросы выполнялиссь быстро, можно попробовать OLAP.
Или я ошибаюсь?

yozheg Jul 8 2010 at 20:10

В данном случае OLAP неприменим, так как речь, я полагаю, идет не о неком модуле статистики, а о прикладной задаче, которая должна работать с актуальными на текущий момент данными

Joshua Jul 8 2010 at 16:45

Уже несколько раз сталкивался с такой задачей, и каждый раз писал велосипед. Последняя надежда на Хабр.
Сейчас решаю именно так, что сам пишу такие подзапросы.

xtender Jul 8 2010 at 16:49

Почему не join'ите наоборот города right join persons?

Joshua Jul 8 2010 at 16:53

Потому что будет тоже самое. На всякий случай, только что это проверил )

xtender Jul 8 2010 at 16:59

Да я про смысловую нагрузку — ведь ищете именно по городу…

TheShock Jul 8 2010 at 20:17

смысловая нагрузка — он ищет ЧЕЛОВЕКА. Он может приджоинить города и приджоинить воинские части и найти всех людей из Алматы, которые служили в морфлоте

widowmaker Jul 8 2010 at 16:53

Во первых мне непонятно почему Left Join, вероятно именно из-за него оптимизатор не срабатывает, ибо понимает что c.Name может быть NULL, поэтому сканирует все 10млн записей для корректной сортировки. Inner Join не решает проблему?

Joshua Jul 8 2010 at 16:54

Да, Inner решает. Действительно, не дописал, что есть Null. Сейчас поправлю.

holem Jul 8 2010 at 18:45

NULL же не мешает делать выборку по Inner Join. Или нужны записи People, у которых CityId = NULL?

lair Jul 9 2010 at 05:04

Логично, что нужны. «Правильного» решения для них нет.

«Неправильное» — это генерить отдельную вьюху, которая будет делать денормализацию (и подставлять пустые строки там, где null), и всю ее покрывать индексами. Тогда просядет все редактирование, но зато вот такие выборки будут летать.

holem Jul 9 2010 at 05:30

Ничего логичного, в задаче про это ничего не сказано. Можно UNION попробовать для двух селектов (один выбирает NULL'ы, второй делает Inner).

lair Jul 9 2010 at 07:52

Во-первых, замучаешься строить union для всех таблиц в звезде (общий случай). Во-вторых, запросы поверх юниона делать неудобно и медленно.

holem Jul 9 2010 at 08:18

Вы сейчас думаете о том как этом можно применить к общему случаю. Я понимаю, что это с одной стороны правильно, но задача стоит другая — нужно оптимизировать конкретный запрос. Поэтому все рассуждения поверх этого оторваны от задачи и к решению не имеют отношения. Главное — идея понятна (надеюсь) и в этом направлении есть возможность экспериментировать.

lair Jul 9 2010 at 08:26

Я об этом думаю, потому что об этом думает автор: «Задача вполне реальная. Есть таблица с основной сущностью, от нее по принципу «звезда» отходит множество измерений. Пользователю нужно ее отобразить в гриде, предоставив сортировку по полям. „

braindamaged Jul 8 2010 at 17:11

Никакой магии: 6 сек, как минимум, потому, что top 100 применяется ко всему результирущему набору.
Т.е. сначала сделается leftjoin 100млн * 10, затем отсортируется, затем от всего этого возьмется первые 100, остальные будут отброшены. Сервер оптимизирует как может, но все равно данных хватает на 6 секунд

braindamaged Jul 8 2010 at 17:19

Попробуйте примерно так

with Data (
select t.*, ROW_NUMBER() over(ORDER BY Name DESC) as RN from
(select p.Name, c.Name as City from People p
left join Cities c on c.Id=p.CityId
order by c.Name) as t
)
select * from Data
where RN < 100;

Извлекает ровно 100, а не все и не 100тыс

stdrone Jul 8 2010 at 17:50

Кажется будет тоже самое.
Сначала произойдёт соединение, потом отсортирует, а потом только выберет 100 первых по сортировке.

Joshua Jul 9 2010 at 08:09

Немного подправил (в подзапросах с order обязательно должен быть TOP), и проверил. Выдает те-же 6 сек.
План запроса говорит, что сперва отрабатывает полностью и независимо внутренний подзапрос.

widowmaker Jul 8 2010 at 17:23

Прошу прощения, но откуда 1 млрд. записей, там ведь left а не cross join?

braindamaged Jul 8 2010 at 17:25

Да, конечно, вы правы, там 100млн. Сорри, вечер после работы )

stdrone Jul 8 2010 at 17:53

Вроде как с подобным бороться радикальными способами — не создавать nullable полей.
Во всех таблицах на которые есть ссылки создается запись с ID 0, а потом в связанных таблицах используется 0 вместо null, при этом индексы начинают работать.

XuMiX Jul 8 2010 at 17:59

насколько я помню, в нашей таблице поле, на которое джоинится — NOT NULL и все равно такая беда

Joshua Jul 8 2010 at 18:30

И главное, не понятно: почему наличие Null и LeftJoin изменяет ситуацию? Ну добавили еще одно значение, и поместили его в начало отсортированного списка.

widowmaker Jul 8 2010 at 18:08

Возможен ли следующий запрос в MSSQL?

select top 100 p.Name, c.Name as City from People p

left join (select * FROM Cities order by Name) c on c.Id=p.CityId

widowmaker Jul 8 2010 at 18:10

Мдя, туплю…

adminimus Jul 8 2010 at 19:47

а почему не "...order by p.CityId "? Вам обязательно нужна сортировка по алфавиту?

yozheg Jul 8 2010 at 20:22

А какой вообще смысл в сортировке по ключу?

adminimus Jul 8 2010 at 20:48

иначе мне кажется сервер сделает сортировку по p.Id, что не соответсвтует желаемому

Valery35 Jul 8 2010 at 19:53

А если View сделать и из нее Top 100 выбирать?
Не помню, к сожалению, можно ли во View еще и индекс делать.

UFO landed and left these words here

Valery35 Jul 8 2010 at 20:00

Ага. Ключ без проблем создается (от жителя взять).
Тогда с индексом мухой выбираться должно.

Vile55 Jul 8 2010 at 19:54

Сейчас, догенерирую тестовые данные и посмотрим…

Krovosos Jul 8 2010 at 20:02

Не очень понятен смысл такой выборки. Поэтому и решение предложить трудно. Сформулируйте задачу.

yozheg Jul 8 2010 at 20:06

Что тут непонятного? Нужно выбрать данные из таблицы, отсортированные по полю из другой таблице, связанной по форейн кею. Имхо ооочень распространенная задача.

Krovosos Jul 8 2010 at 20:14

Если речь об общем случае, то нужно тупо денормализовать базу и внести поле city_name в таблицу people.

Иначе, сервер будет всегда шастать по всей таблице people и состыковывать каждую ее запись с каждой внешней и только потом сортировать и отбрасывать. Индекс нифига не поможет.

ЗЫ Одноименное поле («name») — это зло.
ЗЫЫ Название таблицы во множественном числе (People, Cities) — это зло в квадрате.
ЗЫЫЫ Ключевое поле таблицы («id») без имени таблицы — это зло в кубе.

TheShock Jul 8 2010 at 20:20

ваши ЗЫ непонятны, неаргументированны и 99%, что неправильны

yozheg Jul 8 2010 at 20:21

Да, денормализация в данном случае поможет, а если нужно сортировать + еще вытягивать n полей по лефт джойнам?

Krovosos Jul 8 2010 at 20:28

Так вытягивайте, кто мешает?

Вытягивание не будет занимать много времени, запись ищется по ключу.

Главное, что индекс по внесенному полю отменил полный перебор записей в основной (большой) таблицы. Все остальные операции по сравнению с этим перебором блекнут…

vittore Jul 9 2010 at 03:35

вот нельзя денормализовать так просто
город пусть он втащит, но большинство сущностей именно сущности а не одно поле.
у меня например надо было сделать грид, в котором отображаются кроме полей собственно документа, еще именна статуса, назначенные пользователи ит д. и они могут быть как назначены так и не назначены, а грид сортировать надо, причем по каждой колонке

XuMiX Jul 8 2010 at 20:21

все ваше зло — ничто, и более того — добро, если пользуешься ОРМ.
Вы же пользуетесь ORM, правда?:)

Krovosos Jul 8 2010 at 20:25

ORM — это зло в периоде! Нужен немного другой подход.

Мои рекомендации выстраданы во множестве проектов…

Barttos Jul 8 2010 at 20:26

У вас nickname в тему.

Krovosos Jul 8 2010 at 20:22

ЗЫЫЫ Называть таблицы и поля с заглавной буквы — это тоже зло.

И, кстати, если не ошибаюсь, при сортировке по возрастанию MS SQL загоняет NULL в конец (как будто они больше всех), что возможно не следует логике приложения.

То есть при сортировке по возрастанию, в каком-то смысле логично получить вначале людей, вообще не привязанных к городу…

Monca Jul 9 2010 at 02:43

есть nulls first, nulls last при oreder by

CrazyViper Jul 9 2010 at 06:49

MS SQL при сортировке по возрастанию записывает NULL в начало выборки, якобы это минимальное значение.

utk Jul 8 2010 at 20:25

А почему одноименное имя — зло? Имхо, City.Name вполне нормально и очевидно читается.

Число мы тоже стараемся использовать единственное, согласен.

А вот ключевое имя — да, стремимся имя таблицы выключать: CityID. В тоже время не вижу страшного в случае сокращенного написания («ID») в случае чрезмерно длинного названия таблицы: если DriverDocumentID — это нормально, то DriverrToDriverDocumentID — уже перебор (пример условный, конечно).

Krovosos Jul 8 2010 at 20:33

Не хочется долго распространятся, приведу идеальный (для меня) вариант:

CREATE TABLE city (
city_id,
city_name
)

CREATE TABLE user (
usr_id,
usr_name,
home_city REFERENCES city
)

И теперь не нужны точки и нет пересечений имен:

SELECT usr_id, usr_name, city_name FROM user
LEFT JOIN city ON home_city = city_id

utk Jul 8 2010 at 20:39

Ну не знаю… По моему, порожденные свойства в классах будут выглядеть не ахти. user.usr_name — брр. Хотя понятно, что в ORM'е все можно переименовать, но все-таки.

Хотя понятно, что на вкус и на цвет товарищей нет, и главное — чтобы вся команда придерживалась единого стиля.

Krovosos Jul 8 2010 at 20:43

Вы хотите сказать, что ORM строит имя именно так?.. Это ужасно тогда. Вот почему:

CREATE TABLE city (
city_id,
city_name
)

CREATE TABLE user (
usr_id,
usr_name,
home_city REFERENCES city,
current_city REFERENCES city
)

SELECT usr_id, usr_name, city_name FROM user
LEFT JOIN city ON home_city = city_id
LEFT JOIN city ON current_city = city_id

Как теперь отличить имя города-происхождения от имени текущего города?.. По логике ORM это всегда «city.city_name» получается?

ЗЫ В моей библиотеке это будет: home_city_name и current_city_name

utk Jul 8 2010 at 20:49

Там надо отталкиваться от того, что сама логика работы с ORM'ом основывается на работе с объектами, а не с результатами выполнения запросов. Так что нет ничего страшного в том, что в двух разных объектах имеются одинаковые поля.

Так что будет City.Name, User.Name, или User.City.Name если мы обращаемся к названию города текущего пользователя.

VolCh Jul 9 2010 at 04:06

>Так что нет ничего страшного в том, что в двух разных объектах имеются одинаковые поля.

А зачастую это ещё и дюже удобно:

for city in [User.HomeCity, User.CurrentCity]
print city.id, city.name

utk Jul 8 2010 at 20:50

Ну и, соответственно, в вашем примере — User.HomeCity.Name, User.CurrentCity.Name.

LoneCat Jul 8 2010 at 22:36

Не, ну навскидку:

CREATE TABLE supir_pupir_prefix_cities (
  id,
  name
)

CREATE TABLE supir_pupir_prefix_users (
  id,
  name,
  home_city REFERENCES supir_pupir_prefix_cities,
  current_city REFERENCES supir_pupir_prefix_cities
)

SELECT
  user.id,
  user.name,
  home_city.name,
  current_city.name
FROM supir_pupir_prefix_users AS user
LEFT JOIN supir_pupir_prefix_cities AS home_city ON user.home_city = home_city.id
LEFT JOIN supir_pupir_prefix_cities AS current_city ON user.current_city = current_city.id

Nazarii Jul 8 2010 at 20:50

Я считаю, что нужно home_city изменить на city_id.
Для меня важно не пересечение имен, а наглядность соотвествия.

Valery35 Jul 8 2010 at 21:39

Или city_fk
home_city выглядит как связывание по значению, не по абстрактному ключу.

Goodkat Jul 8 2010 at 22:10

когда имена таблицы и полей не больше четырёх символов, то это красиво и логично смотрится :)
а если имена таблиц состоят из трёх-четырёх длинных слов, то имена полей будут состоять уже из семи-восьми слов? :)
TABLE process_customer(
process_customer_process_id,

)

LoneCat Jul 8 2010 at 22:32

Во, я ждал аргументации :) Не нужны точки — это по вашему весомый аргумент? :)

SELECT
  user_id,
  user_name,
  city_name
FROM user
LEFT JOIN city ON home_city = city_id

SELECT
  user.id,
  user.name,
  city.name
FROM user
LEFT JOIN city ON home_city = city.id

Однако-же

SELECT user_name FROM user WHERE user_id = 5

SELECT name FROM user WHERE id = 5

Остальные правила я так понимаю произрастают из этого.

Goodkat Jul 8 2010 at 21:59

ыыы… а какая разница, как названы таблицы и поля? :)
да хоть циферьками, всё равно обращение к ним из кода идёт по именованым константам или переменным, и только в одном месте.

tenshi Jul 9 2010 at 07:30

использование атомов ( tenshi.habrahabr.ru/blog/97670/ ) позволяет не заморачиваться с инфраструктурой именованных констант и находить места использования каждого поля простым поиском по исходникам.

Krovosos Jul 8 2010 at 20:09

«select * from People p
left join Cities c on c.Id=p.CityId
where p.CityId
in (select top 1 id from Cities order by Name)
order by c.[Name] „

Что-то я вообще не понимаю такой оптимизации…
Зачем отобранных людей из данного одного города сортировать по имени этого города?
Оно же будет одинаковым у всех выбранных записей…

HiltoN Jul 8 2010 at 20:14

Покажите, пожалуйста, план выполнения запроса и список всех индексов по данным таблицам.

HiltoN Jul 8 2010 at 20:16

Я имел ввиду план который можно прочитать, а то на картинке ничего не прочитать.

TheShock Jul 8 2010 at 20:21

Вот так прочитаете: habreffect.ru/files/1d8/c797be1a8/Plan.png

homm Jul 8 2010 at 20:29

На картинке все прочитать. Просто картинки имеют max-width: 100%.

Fiery_Fenix Jul 8 2010 at 20:14

Добавьте дополнительное условие в первый WHERE, например AND CityId IS NOT NULL. Условие должно быть обязательно по индексированному полю!
Не знаю как работает оптимизатор запросов в MSSQL, но в PostgreSQL, на больших таблицах, такой «финт ушами» позволяет уменьшить время выполнения запроса на 3 порядка.

widowmaker Jul 8 2010 at 20:23

Не проще ли тогда заменить Left Join на Inner Join??? Но автору, как я понял, надо именно с NULLами, поэтому метод не катит…

TheShock Jul 8 2010 at 20:25

может тогда (People InnerJoin Cities) UNION (People WHEW CityID IS NULL)?

widowmaker Jul 8 2010 at 20:36

NULL теоретически должен изди первым…
Только надо убедится что сортировка будет выполнятся до юниона а лимит после. Например, в MySQL SELECT field FROM t1 UNION SELECT field FROM t2 ORDER BY field LIMIT 100 выберет 100 записаей, но листаться и объединятся будут все, т.к. ORDER сработает после UNION, незнаю решат ли проблему скобочки, можно попробовать сделать что-то типа SELECT field FROM t1 UNION SELECT * FROM ( SELECT field FROM t2 ORDER BY field) tt LIMIT 100

GreyCat Jul 8 2010 at 20:51

Результат сравнения NULL _теоретически_ (по стандарту) с чем бы то ли было — Unknown, т.о. порядок их вмешания в общую кучу неопределен. Конкретно для MSSQL можно даже включить режим соответствия стандарту через SET ANSI NULL.

Другое дело, что да, большинство серверов плюют на стандарт и дают некую стабильность такой сортировки, что приводит к таким вот решениям :(

Fiery_Fenix Jul 8 2010 at 20:37

Какой там джойн без разницы… Главное применить дополнительный фильтр по индексированному полю.
В чем суть запросов как у автора: поскольку нет дополнительных полей фильтрации, оптимизатор выбирает самую простую методику — full join + sequence scan по обоим таблица. А поскольку sequence scan очень не быстрая операция (еще бы, поднять с жесткого диска таблицу в 10 млн. записей), то и запрос получается очень медленным. При дополнительном фильтре получает index scan по большой таблице и, соответственно, join результатов с меньшей таблицей, отсюда и скорость выполнения (индекс зачастую помещается полностью в память, как и результат таких join-ов).

Vile55 Jul 8 2010 at 20:22

вот такая штука получилась:
Таблички
— CREATE TABLE [dbo].[Cities] (
[Id] uniqueidentifier NOT NULL PRIMARY KEY,
[Name] nvarchar(50) NOT NULL,
)
ON [PRIMARY]
GO
CREATE TABLE [dbo].[People] (
[Id] uniqueidentifier NOT NULL PRIMARY KEY,
[Name] nvarchar(50) NOT NULL,
[CityId] UNIQUEIDENTIFIER FOREIGN KEY REFERENCES dbo.Cities (id)
)
ON [PRIMARY]
GO
— Запрос:
— SELECT TOP 100 People.NAME, dbo.Cities.[Name]
FROM dbo.Cities JOIN people ON cities.Id = people.cityid
ORDER BY dbo.Cities.[Name]
— (100 row(s) affected)
SQL Server Execution Times:
CPU time = 16 ms, elapsed time = 5 ms.
-----

XuMiX Jul 8 2010 at 20:26

а если CityId будет NULL?

Vile55 Jul 8 2010 at 20:28

А в какое место выборки при сортировке по городу вставлять «бомжей» тогда? :)

XuMiX Jul 8 2010 at 20:29

Туда же, куда вставляется NULL при любой другой сортировке

Vile55 Jul 8 2010 at 20:30

тогда я предлагаю выбрать их отдельно, присоединить юнионом и поместить в нужную позицию.

XuMiX Jul 8 2010 at 20:32

нужно подумать и попробовать) а потом еще протолкнуть через Linq:)

GreyCat Jul 8 2010 at 20:49

Вы ведь в курсе, что по стандарту результат сравнения NULL с любыми другими операндами — Unknown? Т.е. даже NULL = NULL — это Unknown, а уж NULL < 'строка' — подавно.

Сделано это на самом деле не потому, что люди, писавшие стандарт такие вредные, а именно для того, чтобы избежать такого abuse, которое хочет устроить автор топика. Вот везде логично предлагают делать явный UNION и пропихивать эти дополнительные строчки именно в то место топпинга, в котором они нужны.

HiltoN Jul 8 2010 at 20:57

select * from emp order by sal desc NULLS FIRST;
select * from emp order by sal desc NULLS LAST;

Это Oracle. В MsSql не уверен, но тоже думаю, что проблем с сортировкой нет.

GreyCat Jul 8 2010 at 21:02

В MSSQL там прибит определенный порядок, в противоречии со спецификацией. Эту «приятную особенность» можно даже выключить (через SET ANSI NULLS), но так почти никто не делает.

Вопрос в том, что это хак — со всеми вытекающими последствиями. Тот, кто им пользуется, должен быть готов к тому, что в том числе будет такой план выполнения запроса, что всё будет медленно и печально.

HiltoN Jul 8 2010 at 20:31

Сделать ещё
UNION SELECT TOP 100 People.NAME, NULL
FROM people WHERE people.cityid IS NULL

и из этого всего выбрать TOP100.

Как идея? :)

XuMiX Jul 8 2010 at 20:33

Надо пробовать:)

Vile55 Jul 8 2010 at 20:26

build_your_web Jul 8 2010 at 20:29

у вас точно 10 млн people?

Vile55 Jul 8 2010 at 20:36

SET STATISTICS TIME ON;
SELECT COUNT(*) FROM dbo.Cities;
SELECT COUNT(*) FROM people;
SELECT TOP 100 People.NAME, dbo.Cities.[Name]
FROM people RIGHT JOIN dbo.Cities ON dbo.Cities.Id = people.cityid
ORDER BY dbo.Cities.NAME desc;

— SQL Server parse and compile time:
CPU time = 0 ms, elapsed time = 0 ms.

SQL Server Execution Times:
CPU time = 0 ms, elapsed time = 0 ms.
SQL Server parse and compile time:
CPU time = 5 ms, elapsed time = 5 ms.

SQL Server Execution Times:
CPU time = 0 ms, elapsed time = 0 ms.

— 100

(1 row(s) affected)

(1 row(s) affected)

SQL Server Execution Times:
CPU time = 0 ms, elapsed time = 1 ms.

— 10000000

(1 row(s) affected)

(1 row(s) affected)

SQL Server Execution Times:
CPU time = 1875 ms, elapsed time = 952 ms.
NAME Name
— — Annette Wallace149
Holly059 Wallace149
<<>>
Mike8 Wallace149

(100 row(s) affected)

(1 row(s) affected)

SQL Server Execution Times:
CPU time = 0 ms, elapsed time = 150 ms.
SQL Server parse and compile time:
CPU time = 0 ms, elapsed time = 0 ms.

SQL Server Execution Times:
CPU time = 0 ms, elapsed time = 0 ms.

Vile55 Jul 8 2010 at 20:38

Ой. А тут я не прав.

UFO landed and left these words here

ugene Jul 8 2010 at 20:30

В Вашем плане наибольшую стоимость имеет сортировка.
Предлагаю сделать кластеризованный индекс по CityId в таблице People. В таблице City города пересортировать чтобы первый по алфавитому порядку имели бы меньший Id.
В запросе выбирать первые 100 записей из People а затем join-ить с City чтобы получить наименование городов.
Имхо, это должно помочь оптимизатору с сортировкой.

andrikos Jul 8 2010 at 20:55

интересно а расплодившиеся на хабре ms евангелисты почтут за честь помочь с проблемкой или в обычной манере продолжат ездить по ушам?

paulousky Jul 8 2010 at 21:32

ночь на дворе, а на урале тем более
завтра утром встанут, прочитают и ответят

zoxa Jul 8 2010 at 21:06

Извеняюсь я мускульный человек, а можно сделать запрос на запрос?

SELECT TOP 100 *
FROM (

select * from People p
left join Cities c on c.Id=p.CityId
where p.CityId
in (select top 1 id from Cities order by Name)
order by c.[Name]

) all_people

П.С. В Мускуле всречался с похожей проблемой, выходил из неё именно селектором на селектор

HiltoN Jul 8 2010 at 21:16

Думаю, что можно. Но приведенный запрос справедлив лишь для истинно равномерного распределения. Если бы автор был уверен в том, что данные действительно всегда равномерно распределены, то он использовал бы подобный запрос. В общем случае, автор надеется что сервер поймёт какое распределение у данных и воспользуется этим. А если через секунду распределение измениться, а план выполнения запроса уже закешировался? Серверу дороже каждый раз переоценивать распределение всех данных, чем сформировать универсальный план.

Joshua Jul 9 2010 at 07:23

Да, именно это автору и нужно! )
И автор готов рискнуть тем, что за секунду такое распределение не изменится. Ведь именно для этих целей и придумали статистику, не правда ли?
Пусть сервер строит запросы по статистике а я клятвенно обещаю ее раз в сутки честно пересчитывать.

lair Jul 9 2010 at 07:58

Только, наверное, раз в секунду пересчитывать, а не раз в сутки, вот в чем беда.

TravisBickle Jul 8 2010 at 21:26

Положите город в таблицу с людьми прямо текстом ;-) Лучшее решение. Ну или используйте foreign key'и.

angry_elf Jul 8 2010 at 21:54

> Нужно выбрать первых 100 записей People, отсортированных по Cites.

Что это за выборка? В чем ее смысл? Сто Аайрон Аайронсонов из Алма-аты?

Или это чисто теоретическая задача?

Joshua Jul 8 2010 at 22:10

Задача вполне реальная. Есть таблица с основной сущностью, от нее по принципу «звезда» отходит множество измерений. Пользователю нужно ее отобразить в гриде, предоставив сортировку по полям.

Начиная с некоторого размера основной таблицы сортировка сводится к тому, что выбирается окно с одинаковыми (крайними) значениями, (вроде «Алматы») но при этом система начинает жутко тормозить.

ibnteo Jul 8 2010 at 22:44

Сделайте денормализацию вашей базы данных, добавьте в таблицу People поле CityName.

XuMiX Jul 9 2010 at 04:33

а если таких полей десяток?

Monca Jul 9 2010 at 02:49

Мдас, ну не получается селектом, напиши процедуру, ведь MSSQL это умеет.

garex Jul 9 2010 at 03:24

Поле City.Name для Person`а не проиндексировано, именно поэтому на sort уходит 99%.

Его конечно и невозможно проиндексировать, но можно изъе… ся. Будем надеяться, что у нас один язык (русский к примеру или английский), т.е. не i18n.

При создании таблицы Cities и прочих тупеньких справочников а ля Id, Name, вставляем данные, упорядочив их по Name`у. Таким образом Id`шники будут тоже упорядочены.

При изменении таблицы будет конечно гемор, но на эту тему можно написать какую-нить процу, которая будет хитро всё обновлять во всех местах.

А уже в самом запросе делаем любые join`ы, но order by идёт по Person.CityId.

Вот когда в SQL`ях можно будет создвать индексы на поля в других таблицах — проблема убежит. Хотя м.б. кто-то уже так умеет.

XuMiX Jul 9 2010 at 04:35

Id — Guid. Не так то просто его поп орядку расположить при вставке

garex Jul 9 2010 at 04:39

А, вижу.

Для данного подхода guid излишен — для таких малых справочников integer`а хватит.

Хотя я тут ещё вариант подумал — «типа» денормализация, как выше товарищ предлагал.

Сделать view`шку, в которой заджойнить City.Name, и уже в этой вьюшке его проиндексировать. По-мойму в SQL-сервере это возможно.

XuMiX Jul 9 2010 at 04:43

guid здесь не излишен — идентификатор создается на клиенте, а серверов несколько. как будете бороться с колизиями?

chaliy Jul 9 2010 at 06:33

Почитайте про sequential guid. Некоторые ОРМы их потдерживают. Например НХибирнейт.

Joshua Jul 9 2010 at 07:19

В таблице в реальности есть множество свойств. А ID можно отсортировать только по одному из них.

garex Jul 9 2010 at 07:23

Тогда думаю надо двигаться в сторону «денормализации» и создать indexed view типа VPeople, в котором будет CityName и по которой будет индекс.

NickyX3 Jul 9 2010 at 03:46

Я хз че тут понаворочено, но замечаю, что избавляемся от LEFT JOIN где только можно.
Всегда можно быстро выгребсти отсортированный список городов (а можно еще до кучи закешить города->количество_пиплов), взять первый, а потом выгрести из пиплов столько сколько нужно вторым запросом по этому городу.

lair Jul 9 2010 at 04:41

«Интересно, что ДАЖЕ ЕСЛИ поле City было бы NotNull но использовался LeftJoin – то запрос тормозит. „
Как верно написали выше, Left Join автоматически приводит к выводу всей таблицы. Поэтому вы всегда сначала выбираете весь people, а потом всегда его пересортировываете.

Поэтому — медленно.

Dinja Jul 9 2010 at 05:09

первоначальный запрос выберет 100 записей людей из первого города, если не найдет доберет оставшихся из второго города и так далее.

так как привязка к городу обязательна, нет смысла в outer join-ах.

если это не подходит, можно, сосчитав count(*) ом количество людей по городам, сделать select from people where cityid in(… )

количество вернувшихся записей — можно отсекать в коде. в вернувшемся курсоре проходить по нужному кол-ву записей, потом курсор закрывать. это должно быть быстрее, чем top c fullscan-ом вдогонку.

PS я сначала написал, а потом только прочитал предыдущий комментарий :)

schmooser Jul 9 2010 at 05:52

Народ, а почему никто не смотрит на план выполнения запроса? Он же не просто так приведен.
Смотрим — насколько я понимаю (не спец в SQLServer), он делает Full Scan Cities, затем по индексу приджойнивает таблицу People.
А нам, по идее, — нужно сделать наоборот — один раз пройтись по People, при этом джойня (по индексу) таблицу Cities, затем отсортировать и выбрать 100 первых.

В оракле было бы так:

select person, city from
(select /*+ ordered use_nl(p c) index(c cities$cityid) */ 
rownum r, p.name person, c.name city
from person p left join cities c on p.cityid = c.cityid
order by c.name)
where r <= 100

p.s.: сущности именуются в именительном падеже (City, а не Cities)

schmooser Jul 9 2010 at 05:53

Вообще, есть правило — при джойне таблиц, различающихся в несколько раз, один проход надо проводить по большой таблице. Тогда будет быстро.

maxcom Jul 9 2010 at 07:29

СУБД должна сама делать такой выбор, на то у нее статистика есть

lair Jul 9 2010 at 08:05

«насколько я понимаю (не спец в SQLServer), он делает Full Scan Cities, затем по индексу приджойнивает таблицу People.»
А вы неправильно понимаете. Он одновременно читает две таблицы полностью, потом делает джойн. Почему он читает Cities целиком? Потому что у него есть статистика, которая говорит, что будут задействованы все значения, а не только часть — поэтому выгоднее прочитать сто строк в память.

" один раз пройтись по People, при этом джойня (по индексу) таблицу Cities, затем отсортировать и выбрать 100 первых."
Вот он так и делает, только Cities берет не по индексу с диска, а из памяти (что эффективнее).

«сущности именуются в именительном падеже (City, а не Cities)»
А не надо путать падеж и число. И соглашений об именовании таблиц в базе, как бы, больше одной.

schmooser Jul 9 2010 at 16:28

А, тут же не nested_loops, а hash join. Тогда да — один раз прочитать то, один раз другое, и джойн по хешу.

«Потому что у него есть статистика, которая говорит, что будут задействованы все значения, а не только часть — поэтому выгоднее прочитать сто строк в память.» — сто каких строк он будет читать? Сто первых строк из Cities? Сомневаюсь.

lair Jul 9 2010 at 16:34

«сто каких строк он будет читать? Сто первых строк из Cities? Сомневаюсь. „
Все строки из cities — их там всего сто.

schmooser Jul 9 2010 at 16:37

а, точно. Тогда да.

katechka Jul 9 2010 at 10:11

как насчет group by?

XuMiX Jul 9 2010 at 10:14

а точнее?

katechka Jul 9 2010 at 10:22

вместо order в конце сделать group by по городам. а вообще постараться уйти от джойнов. возможно просто select distinct. у нас же нет условия уникальности на выходе…

schmooser Jul 9 2010 at 16:28

как уйти от джойнов, если таблицы связаны?

schmooser Jul 9 2010 at 16:44

Если честно, то предложенное решение очень костылявое — в исходном запросе order by nulls last и order by nulls first дадут разные результаты.

А если NULLы не нужны — зачем заморачиваться с left join'aми — inner join и будет быстро работать.

select top 100
 p.name person, c.name city
from person p, cities c 
where p.cityid = c.cityid
order by c.name

Ruzin Jul 11 2010 at 10:32

Чуть ниже есть еще один мой длинный комментарий, однако, увидев этот пост, хочу к нему тоже добавиться ;)
По, идее, такой запрос решит проблему «бомжей»:

select top 100
	person
	, city
from 
	(
		select top 100
			p.name person
			, c.name city
		from
			person p
			, cities c 
		where
			p.cityid = c.cityid
		order by
			city
			, person
	)
	union (
		select top 100
			p.name person
			, null city
		from
			person p
		where
			p.cityid is null
		order by
			person
	)
order by
	city
	, person

Ruzin Jul 11 2010 at 10:26

Ниже много букв:

Решать такую задачу чисто на языке SQL — нерационально (особенно, учитывая факт, что оптимизатор SQL не справляется).
Однако из чисто академических интересов, попробуем решить задачу, подсказав оптимизатору последовательность запросов.

Общий план таков:
1) считаем кол-во жителей в каждом городе
2) отбираем минимально достаточное количество городов, в алфавитном порядке так,
чтобы суммарное количество в них было как раз больше 100, но при удалении хоть
одного города меньше 100
3) из полученного списка городов, отбираем всех жителей и выводим первые 100

Стадия 1. Посчитаем количество жителей в каждом городе.

create table tmp as
select
    Cities.Id
    , Cities.Name
    , cnt.people
from    
    (
        select 
            CityId
            , count(Name) people
        from 
            People
        group by
            CityId
    ) as cnt
    join Cities on (Cities.Id = cnt.CityId)

Стадия 2. отбираем минимально достаточное количество городов

create table enough as
select
    t2.Id as Id
    , max(t2.Name) as Name
    , sum(t1.people)+t2.people as people
from
    tmp t1,
    join tmp t2 on (t1.Name < t2.Name)
group by
    t2.Id
having
    sum(t1.people) < 100

Стадия 3. выводим жителей

select
        top 100 p.Name PersonName
        , c.Name CityName
from
        People p
        join enough c on p.CityId = c.Id
order by
        c.Name
        , p.Name

Несколько замечаний:
* Создание временных табилц можно не делать, но тогда вместо из названия в тех местах, где они используются надо подставить сами запросы — SQL получится многоэтажным :)
* Все выше написанное — теория — проверить не могу — нет MSSQL'я
* Если в таблице enough нет 100 жителей, то придется еще такую структуру добавить:

select
    top 100 Name PersonName
    , Name CityName
from
    (select *** запрос на Стадии 3 (см.выше) ***) 
    union (select top 100 Name as PersonName, null as CityName from People where IdCity is null)
order by
        CityName
        , PersonName

P.S. может у кого-то хватит терпения проверить? ;-) А если даст положительный результат — объединить все запросы в один, еще раз проверить, постануть его сюда и отчитаться…