Как мы в ЦИАН цифровизируем рынок недвижимости / Комментарии / Хабр

Блог компании Циан 4 октября 2019

Как мы в ЦИАН цифровизируем рынок недвижимости

Привет, Хабр! Меня зовут Алексей Чеканов, я технический директор ЦИАН. Разработка определяет успехи нашего проекта, и чем дальше, тем заметнее. Чтобы расти, нам нужно больше IT-специалистов — и для решения нетривиальных задач, и для поддержки существующих сервисов. Ниже я расскажу, как устроен отдел разработки в ЦИАН, чем он занимается и что ждет того, кто к нам попадет.

Подробности – под катом

+34

Комментарии 43

one-two 4 окт 2019 в 18:01

Слоган над космонавтом — норм)

semindm 4 окт 2019 в 19:19

Получается, Ваше приложение состоит из 2-х монолитов и ряда микросервисов? и все они между собой взаимодействуют через RabbitMQ?

FuriCuri 4 окт 2019 в 20:01

Http вызовы + сообщения очередей — это основные каналы взаимодействия, да. И в обоих каналах приложения должны придерживаться объявленного контракта (request/response схемы или model события). У нас также есть система (пока она работает только для api вызовов), которая валидирует при выкладке, что не произошло breaking change в принимаемых api или вызываемых среди всех монолитов и микросервисов (мы умеем по коду автоматически найти схемы request / response приложения).

jreznot 4 окт 2019 в 20:02

У них на PyCon было подробнее рассказано pycon.ru/2018/program/content/mazaev

maxim_ge 4 окт 2019 в 22:49

>В платформе логирование идет в кластер ELK. В сутки ~4 Тб логов и ~3.8 млрд. записей.

Можно поподробнее про это? 8k RPS => 700 млн. записей в день, откуда берется 3.8 млрд и что делаете с такими объемистыми логами?

Aleksey_Chekanov 4 окт 2019 в 23:34

Думаю подробнее расскажем в отдельной статье. Вкратце, логируем не только акцесслоги, но и события в микросервисов, цепочки вызовов, ошибки, ворнинги и т.д. Все это позволяет мониторить и отлаживать систему. Также на базе этих логов строим siem систему

ziv2012 5 окт 2019 в 11:46

Интересно: как можно разобраться в 4Тб логов, и на сколько нужно логировать так подробно?

FuriCuri 5 окт 2019 в 12:08

Да, можно и больше — это не «rocket science». Filebeat -> Kafka -> Logstash -> Elastic. Логируем мы также логи приложений уровня info и выше + всякие события с других систем: к примеру, в mssql настроены extended events на тяжёлые запросы, чтобы если кто-то нагнул БД, то мы бы смогли ретроспективно посмотреть кто это был.

InChaos 11 окт 2019 в 11:17

Нормальная практика это не смотреть постфактум — кто нагнул, а передавать запрос еще до внедрения спецу по SQL, который разберет его, разложит по полочкам, в какой ситуации и как он будет работать. По своему опыту в 90% разработчики бэкенда такой треш в запросах к базе ваяют, что волосы дыбом встают.

FuriCuri 11 окт 2019 в 12:55

Не смотря на то, что я согласен, что специально обученный человек смог бы такое замечать, к сожалению, это так не работает, когда у вас столько выкладок в день как у нас. Для «масштабирования» процесса вам просто придётся держать штат таких людей и заставлять их заниматься одним и тем же каждый день. Это приводит к тому, что либо у вас будут джуны на таком сидеть (и качество инициативы сомнительное), либо текучка нормальных спецов (потому что тупеешь, если твоя работа только в постоянно смотреть пулрики).

Мы сейчас идём другим путём — хотим, чтобы у каждого микросервиса был, скажем, свой микрокластер postrgre или elastic (на контейнерах, чтобы не получать оверхед от виртуалок). Тогда мы сможем ограничить негативное влияние одного микросервиса на другие.

Мы всегда исходим из того, что накосячить могут все и очень разным способом и под каждый способ накосячить невозможно держать отдельного человека, поэтому более стратегически правильно научиться минимизировать взаимовлияние (изоляция + деградация) и время простоя компонент (алерты + автоматизация).

Orange11Sky 4 окт 2019 в 23:08

А почему у компании такое токсичное название — это как-то помогает продавать недвижимость?

Mashagold 4 окт 2019 в 23:35

:) ЦИАН — это аббревиатура Центральное Информационное Агентство Недвижимости. Наследие истории.

Sky4eg 5 окт 2019 в 22:47

Тоже всегда интересовал вопрос почему cian, оказывается все так просто :)

Mashagold 6 окт 2019 в 19:41

да :)

CactusKnight 5 окт 2019 в 01:00

Цифровизация — это, конечно, хорошо. Но почему при поиске квартир с активированным фильтром «тип дома: кирпич, монолит» ЦИАН иногда подкидывает квартиры в панельных домах, у которых это даже написано в разделе «О доме»?

A114n 5 окт 2019 в 09:18

Потому что у Циана есть спонсоры, которым разрешено добавлять на сайт «заманухи». В первую очередь Инком, но может быть есть и другие.

Отсюда квартиры в панельных домах при поиске кирпичных, отсюда квартиры с газовыми плитами в электрифицированных домах и так далее. Важно, чтобы вы увидели «замануху», а цифровизация это вторично.

FuriCuri 5 окт 2019 в 12:19

Возможно, это реклама (как в поисковиках, когда вот вы искали обои, а вам также предлагают перфораторы). А, возможно, это баг — у нас достаточно серьёзно относятся к разбору вопроов и отзывов пользователей — попробуйте описать проблему через обратную связь.

Dekmabot 5 окт 2019 в 02:16

8k rps и 300 серверов… Куда столько? Допустим с десяток фронтов, бэки, очереди, базы, реплики, статика, логи… но куда 300?

igurylev 5 окт 2019 в 09:13

Может по физическому серверу на каждый микросервис + резервирование?
Тогда вполне можно понять.
Никто ж не писал, что на каждом из серверов топовое железо — может 2/3 на Атомах?

FuriCuri 5 окт 2019 в 12:17

8к RPS это только «входящие». К примеру, для того, чтобы показать вам (залогиненному пользователю) результаты поиска нужно выполнить гораздо больше запросов в разные микросервисы — показать вам вашу «шапку» с вашим балансом, отметить «сердечком» в результатах поиска те, которые вы отметили ранее, посмотреть доступны ли вам чатики для этих объявлений, да и просто проранжировать под вас выдачу. Там ещё куча всего «под капотом», что отличает обыный список от выдачи современного информационного ресурса. Так что внутри это далеко не 8к RPS :)

Dekmabot 5 окт 2019 в 12:29

По структуре внутренних запросов отлично понимаю, работал с недвижкой в нгс.
Возможно C# накладывает свой отпечаток, ну и да, если много микросервисов, то много и накладных расходов.
Хорошо быть богатой компанией, а если бюджетов на железо нет, приходится заниматься оптимизацией))

FuriCuri 5 окт 2019 в 12:51

Мы как раз считаем себя не из тех, кто может просто «заливать железом». Так было бы гораздо проще всё в облаках купить и не морочить себе голову. Но реальность такова, что даже самый дешёвый облачный хостинг будет стоить минимум в два раза дороже того, что мы смогли отстроить.
Поэтому, да — занимаемся оптимизацией. Наверное, не так, как если бы у нас было 10 серверов, но всё же активно с этим работаем.
И, пожалуй, самое «тяжёлое» по железу это не C#, а machine learning (ибо big data и все дела) и, как ни странно, frontend (nodejs server side rendering) — там много CPU bound операций (парзинг json, рендеринг html), на которые приходится достаточно большой RPS. Но шарп мы тоже активно переводим на .NET Core (и вот скоро приступим к переводу на .NET Core 3).

Dekmabot 5 окт 2019 в 13:47

Про облака согласен, дорого, и местами теряется контроль.

nivorbud 5 окт 2019 в 14:12

>>> оценка и аналитика — оценка реальной стоимости продажи квартиры и инвестиционной

Как я понимаю, используете некие математические модели. Но по любому нужно иметь доступ к информации о реальных продажах. У вас есть такой источник?

Aleksey_Chekanov 5 окт 2019 в 14:31

да, есть информация по достаточно большому числу сделок, об которые мы валидируем модель

nivorbud 5 окт 2019 в 14:50

На Циане вроде калькулятор оценки квартир был. Он еще есть? Если есть, то вы там матмодель, валидированную по реальным ценам используете? Т. е. цену калькулятор дает не по рекламным хотелкам, а прогнозирует реальную (с некой погрешностью, разумеется)?

Aleksey_Chekanov 5 окт 2019 в 15:00

Есть, и более того мы недавно зарелизили новую версию, где теперь показывается и точность оценки и расхождение между реальными сделками и рекламными ценами. Последние как правило выше реальных.

nivorbud 5 окт 2019 в 15:36

Спасибо. Коррекция модели по реальным ценам — это важно. Но большинство риэлторов, похоже, не в курсе об этой коррекции и считают, что подобные калькуляторы тупо отражают лишь рекламные хотелки.

FuriCuri 5 окт 2019 в 15:39

Они всё знают ;) Просто так удобнее обосновывать ту цену, которую им нужно, чтобы вы считали правильной.

nivorbud 5 окт 2019 в 15:53

Сейчас проверил по вашему калькулятору квартиры, по которым знаю реальные продажные цены (правда трехлетней давности). Да, цену калькулятор дает весьма точную, близкую к реальной. Правда, в конце прошлого года был аномальный всплеск, но его имхо и нет смысла учитывать.

>>> Они всё знают ;)

Одно дело — просто знать, а другое дело — понимать, как это реально работает. Если бы я был далек от высшей математики, то тоже не доверял бы таким калькуляторам.

technik 8 окт 2019 в 01:17

А как вы проверяете юридическую чистоту квартиры? И вообще есть ли модерация объявлений?

Dronopotamus 8 окт 2019 в 16:51

>И вообще есть ли модерация объявлений?

А куда же без неё. Мы очень активно боремся за чистоту контента, выявляем различные виды нарушений. Начиная от банальных непреднамеренных ошибок в параметрах объявления, заканчивая намеренным размещением «заманух» (несуществующих привлекательных объявлений с целью получить звонки) и даже «лохотронов» (несуществующих объявлений, размещаемых с целью кинуть пользователей на деньги). Для чего мы разрабатываем различные инструменты (статические алгоритмы, модели ML, интеграции с внешними сервисами), которыми пользуются наши сотрудники-модераторы.

Для более глубокого погружения в тему выявления видимых нарушений можно посмотреть наш доклад на PyData в прошлом году: www.youtube.com/watch?v=VAGV7aqani4

ElvenSailor 8 окт 2019 в 17:00

Настраивали систему антиботов и сами себя забанили.

lol! просто и со вкусом :)
Кстати, а сильно ли мешают боты, и стоило ли оно того?

FuriCuri 8 окт 2019 в 18:16

Да, прилично. Трафик от ботов, по предварительной оценке, может доходить до 50%. Мы не для них тут сервера покупаем.

НЛО прилетело и опубликовало эту надпись здесь

Aleksey_Chekanov 11 окт 2019 в 13:15

Да, деляться на IOS и Android. Внутри технологии поделены по продуктовым командам и живут жизнью продуктовой команды. Но так же есть гильдии IOS и Android, где обсуждают технологические вопросы и развитие платформы.

НЛО прилетело и опубликовало эту надпись здесь

restylane 18 окт 2019 в 14:15

Почему на ЦИАНе не отображаются авы пользователей? Я загрузил котика, а все видят серый силуэт. Так квартиру не продашь :(

rkfddf 18 окт 2019 в 14:15

На мой взгляд штаты, инфраструктура и задачи чрезвычайно раздуты. Ну просто нет такого количества клиентов, это какой то искусственно раздутый трафик и искусственно созданные задачи.
1,2 миллиона уникальных клиентов в день? — для недвижимости это бред.

НЛО прилетело и опубликовало эту надпись здесь

Oval 21 окт 2019 в 14:13

Под таким громким названием поста, зашел почитать как внедрили интеграцию с Госуслугами-Росреестром (минимум логин — максимум получение информации об объектах недвижимости) и отсеяли агентов от реальных собственников недвижимости и не увидел этого.

3aBulon 23 окт 2019 в 14:09

Первый кто победит агентов по недвижимости захватит рынок реальных покупателей

rkfddf 23 окт 2019 в 22:50

В Китае сильно продвинулись в этом направлении, только врятли вам это понравится.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий