All streams
Search
Write a publication
Pull to refresh
17
0
Утюгов Александр @ALIron

Архитектор

Send message
Ну почему же один. Ваш и конкурентов=) это минимум.
Наверняка есть умельцы кто еще не вышел на большой рынок, а работает локально
Если не затруднит вывод в личку киньте после тестов. В своё время проводил сравнение IQ, HF, и двух решений которые не выжили на рынке.
Интересно как изменилась ситуация за 5 лет.
1. Фактическая база — тот же ФИАС и различные почтовые и прочие базы для набора критической массы. Как в интервью сказал один из разработчик такой системы «после 80-90 % каждый следующий процент требует ровно столько усилий сколько было приложено до этого».
+
Есть же еще, т.н. «обратная ошибка», т.е. адрес разобран и помечен как правильный, а он не верно был разобран и указывает совершенно другую точку в пространстве.

20-30% это кто ж так разбирает? еще и за деньги.
ИМХО в лидерах сейчас post-address.ru/ и dadata.ru/
C обоими знаком, но не одних не работаю.
Некоторые интеграторы пишут свои модули на различных Data Quality решениях, но пока до 90% добрались единици
Сейчас средний уровень коммерческих сервисов 95-99% от возможного разбора.
Обрабатывают даже ситуации "… зеленая дверь налево, звонить три раза, спросить разведчика Исаева"
1. Согласитесь, тема не так проста как выглядит на первый взгляд. Если долго всматриваться там видны и нейронки и генетические алгоритмы=)
2. Относительно цен. Качество — цена не имеет корреляции. Те кто делают дешевле чаще всего выезжают на объемах.
Относительно сроков реализации — производительно для такой задачи.
3. Заказчик странно относится к данным. Видимо постановка такая была от «бизнеса»
Ну почему же?
Уважающие себя сервисы предоставляют демо версии и демо аккаунты. Некоторые даже пишут парсеры демо страниц и через них строят разбор адреса. =)
Можно сравнить свой разбор и предлагаемый.
Двойственное ощущение от таких статей.
1. Автор поучился, изучил предметную область и явно разобрался. LevelUP =)
2. С другой стороны поступил как программист. Зная о наличии сервисов высоким уровнем качества по 10 копеек за запись потратил не один день на написание своего кода с выходом ~70%
3. Странно отношение к адресу как просто в тексту, по сути это или адрес доставки корреспонденции или разрез аналитики. Доставка и корреспонденция стоит денег (70% аналитика — не аналитика=))
4. с точки зрения экономики просто умножите объем своей базы на 10 копеек и спросите стоило ли оно того при таком уровне разбора?

Результат работы программиста не код, а решенная задача.
Только вот что то затягивают они появление этого нечто.
А вот проблемы с консистентностью данных из-за изменений уже поимели не раз.
КЛАДР расширяем.
К фасетному коду дописать справа 2-3 знака не составит труда. Видел такую бету вполне рабочая без кардинальной смены хранения.
Сделать КЛАДР код «до дома» даже «до квартиры» задача в этой структуре не сложная.
Я покажусь большим ретроградом если скажу что?:
1. Денормализация базы в НСИ есть странное решение.
2. Те же изменения можно было бы реализовать в старой структуре.
3. Методологическая подготовка у ФИАС на порядок хуже КЛАДРовской.
4. Кардинальных движений с момента пуска КЛАДРа в бой так и не произошло.
Не то что бы «Всё плохо», но гордится ФНС особо нечем в данной реализации.
КЛАДР — да, то был прорыв, а это даже не эволюция, так бантики современные. =)
Типовая задача дедуб(п)ликации неструктурированных каталогов.
На объеме в 10Кзаписей еще применим такой или подобный подход, а дальше (от 100к уникальных записей) задачи Data Quality и MDM систем.

Задачу поддержки решения смотрели?
Замена картинки поставщиком? записи разъедутся обратно или как то будет поддерживаться связка «Ваза с рисунком 'узор треугольный'» =«Ваза А-563»?
Точность объединения?
Возможности ошибочных объединений? когда «Пила двуручная Дружба = Забор из досок обрезный
Записи формируются динамически по новым прайсам или статикой?
Знаком с такими людьми.
Работают в узкой нише, но то что они делают поражает.

При мне их софт на ноутбуке на 3 порядка обогнал кластер из 6 серверов =)
Результат работы был в разы лучше на ноуте.
Вендор был в шоке=)

Крутые перцы не оптимизируют код, они докупают железо.

нюню=)
Рождается новый жанр. ИТ-боевик.
Bullet time вместо пуль будет показывать экран терминала и набираемые команды. :)
Она в паблике была. Только в официальной версии и не так драматично, без подробностей.

Вообще если копнуть тот же синус, то за каждой из историй «технологических сбоев в системе и простоев» стоит не меньшая драматургия событий со своими интригами, переживаниями смертями процессов и целых ферм:)
Конечно. Но стал мудр:) и проницателен. Так как дзен ему объяснили:)
Админ хорор:)
В принципе снять не долго. Главное найти дата центр:)

А на счет питания у энергетиков — стандартная тема. Разделение не всегда приводит к правильным последствиям.
почему не запустился генератор я не знаю.
скорее всего забили на тестовые пуски, а может слили дизель с резерва, там вариантов много.
итог один
Рассказали как то историю падения одного Датацентра.
Стоял большой корпоративны федеральный ДатаЦентр.
Весь из себя Т4 (самый надежный) по всем стандартам выполненный и с железом на полмлрддолларей внутри.

В здание заведены два луча питания от независимых источников.

Полностью обеспечено резервное питание на аккумуляторах (20-90минут в зависимости от важности сервера), а так же дизель генератор на три дня работы и резервный чуть поменьше.
И было все хорошо.
И ДатаЦент был плечом геокластераразных распределенных систем.

И тут одному человеку показалось что не нужно в этом нежилом здании электричество и вырубил он ОБА луча питания.
И был это человек из ХХХЭнерго.

Вид из здания:
Мигнул свет. Стало тише. Включилось резервное питание.
В машинных залах противно запищали упсы.
Вот сейчас зарычит дизель и все… можно спокойно бить ХХХЭнерго.
Вот сейчас…
……
Блин…

Прошиб озноб и стало жарко.
Жарко… Кондиционеры… Они же не питаются от упсов (проектировщикам надо по голове, а лучше головой и желательно об угол)
Значит времени до перегрева 15 минут.

А потом … даже подумать страшно.

И тут все забегали. Вспоминая порядок действийпо инструкции №1 (полная ж##а с питанием)
Побежали проверять генераторы. Ведущий – мертвый и незаводится.

Резервный! Не помним как заводить и что делать.

В это время в машинном зале админы лихорадочно укладывают сервера.
Берегут ключевую систему, а она самая горячая…
10 минут. Критическая температура – лег первым апликейшен.
Всё спасать больше нечего сервисы легли. ShotDown.

Становиться тише. 15 минут

Эффект домино нарастает. Сервера падают с температурой. В зале 70 градусов. Двери открывать нельзя (пыль из 3000-5000 радиаторов выгребать никто не хочет) да и не спасет.

Становиться совсем тихо.

Все. ДатаЦентр мертв.

Ведущий дежурный администратор садиться на пол в машинном зале обхватывает голову руками сидит минуту, достает сигарету и закуривает.
Уже похрен, пожарка тоже без питания. =)

Резерв аккумуляторов исчерпан. Здание погружается во тьму.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity