Articles / Bookmarks / Profile of aborouhin / Habr

How to become an author

Александр Бороухин @aborouhin

User

Profile Publications Comments 2.2KBookmarks 126

0617 Dec 12 2019 at 18:03

Как без боли, без капчи и бесплатно привести выписки из ФГИС ЕГРН к человекочитаемому(*) виду

3 min

14K

Visual Basic for Applications*

Моя зона ответственности — абонентский отдел РСО, полторы сотни тысяч лицевых счетов в трёх районах области. Для бэкграунда расскажу, как я получаю выписки.

Начинал работать с Росреестром, что называется, в лоб: открыл Запрос посредством доступа к ФГИС ЕГРН, ввёл ключ, заполнил форму поиска, нажал «Найти», выбрал объект типа «жилой дом» или «квартира», заказал выписку, скачал электронный документ, преобразовал его в человекочитаемый(*) формат, сохранил. Всё просто, но не без нюансов.

Читать дальше →

+9

zoldaten Jul 15 2019 at 10:39

Получить выписку ЕГРН из Росреестра с помощью python, минуя api

9 min

37K

Не первое знакомство с порталом Росреестра

Любой юрист когда-либо обращался с запросом в Росреестр (Федеральная служба государственной регистрации, кадастра и картографии). Времена, когда для запроса надо было бежать в отделение Росреестра и подавать запрос на бумаге уходят в прошлое. Росреестр запустил несколько онлайн сервисов, которые можно использовать не выходя из дома. К этим сервисам относится и запрос выписки из Единого государственного реестра недвижимости. Официальный сайт для начала работы.

Всем, кто уже успел поработать с сайтом, известно, что для получения выписки из ЕГРН, в которой будет содержаться информация не только об общих характеристиках объекта, но и о правообладателе данного объекта, необходимо зайти в личный кабинет Росреестра.

Возможно, это удобный способ получения одной или нескольких выписок. Однако, что делать, если необходим пакет выписок ЕГРН? Допустим, вы работаете с недвижимостью или владеете рядом объектов, общее число которых более 10. По общему правилу получать выписку из ЕГРН надо не реже 1 раза в год, чтобы успеть вовремя отреагировать в юридической плоскости на нежелательные изменения в Росреестре, если они возникнут помимо вашей воли.

Читать дальше →

+4

AloneCoder Dec 11 2019 at 18:14

Индексируем миллиарды текстовых векторов

9 min

8.5K

VK corporate blogNatural Language Processing*Algorithms*System Analysis and Design*Search engines*

Translation

При извлечении информации часто возникает задача поиска подобных фрагментов текста. В контексте поиска запрос может быть сгенерирован пользователем (например, текст, который пользователь вводит в поисковом движке) или самой системой. Часто нам нужно сопоставлять входящий запрос с уже проиндексированными запросами. В этой статье мы рассмотрим, как можно построить систему, решающую эту задачу применительно к миллиардам запросов без траты целого состояния на серверную инфраструктуру.

Читать дальше →

+52

DEADStop Dec 5 2019 at 17:00

Как проверить паспорт на действительность

6 min

208K

HFLabs corporate blogCRM systems*Algorithms*Information Security*Website development*

Реквизиты паспорта — не просто набор цифр, в них закодирован вагон информации. Если правильно расшифровывать и сопоставлять реквизиты, подозрительные документы мгновенно всплывут на поверхность. Продукты HFLabs уже 14 лет проверяют клиентские данные в банках, страховых, телекомах и другом крупном бизнесе. Расскажу, как мы распознаем ошибки в российских паспортах.

Читать дальше →

+130

Leader-bot Dec 1 2019 at 19:04

Визуализация и анализ структуры сообществ с помощью графов

12 min

13K

Leader-ID corporate blogCommunity management*Social networks and communitiesData visualization*Data Mining*

Графы — классный инструмент для визуализации больших объемов данных и связей между отдельными элементами. Мы использовали его для оценки связанности наших сообществ и понимания взаимодействия между разными группами и тематическими направлениями.

В итоге мы нашли людей-суперконнекторов, узнали, чем отличаются сообщества в разных городах России, а также выяснили, что предпринимателей среди тех, кому за 50, в два с половиной раза больше, чем в среднем по всем участникам наших сообществ.

Читать дальше →

+24

Moryshka Nov 20 2019 at 20:28

DeepPavlov для разработчиков: #2 настройка и деплоймент

4 min

8.7K

Московский физико-технический институт (МФТИ) corporate blogOpen source*Python*Artificial IntelligenceMachine learning*

Все статьи цикла:

1. DeepPavlov для разработчиков: #1 инструменты NLP и создания чат-ботов
2. DeepPavlov для разработчиков: #2 настройка и деплоймент

Всем привет! В первой статье из нашего цикла мы узнали, что такое DeepPavlov, какие модели библиотеки готовы к использованию без предварительного обучения и как запустить REST серверы с ними. Перед тем, как приступить к обучению моделей, мы расскажем о различных возможностях деплоймента моделей DeepPavlov и некоторых особенностях настройки библиотеки.

Договоримся, что все скрипты запуска библиотеки выполняются в environment Python с установленной библиотекой DeepPavlov (про установку см. первую статью, про virtualenv можно прочитать здесь). Примеры из этой статьи не требуют знания синтаксиса Python.

Читать дальше →

+17

rishat_edison Nov 14 2019 at 00:26

Как проектировать большие и сложные веб-таблицы

13 min

38K

Edison corporate blogInterfaces*DesignUsability*Accessibility*

Translation

Представьте, что вы разрабатываете систему для исследования данных. Или приложение для управления энергией. Или дашборд для продавцов кукурузой. Может быть, вы разрабатываете что-то подобное прямо сейчас. Во всех упомянутых случаях люди будут ожидать таблиц. Не те модные из вдохновляющих сайтов, а выглядящие как Excel монстры с сотнями ячеек и сложным взаимодействием.

В этом случае дизайнер сталкивается со многими проблемами. Например, сопоставление дизайна с существующими фронт-енд фреймворками или борьба с «неудобными» данными, которые разрушают макет. Мы преодолеем эти проблемы с помощью следующих шагов: систематизируем потребности, станем атомарными и определим взаимодействие.

Читать дальше →

+28

snakers4 Nov 5 2019 at 10:28

Огромный открытый датасет русской речи версия 1.0

2 min

19K

Open source*SoundMachine learning*Open data*

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.

Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать дальше →

+36

Enfriz Oct 16 2019 at 12:02

Распознаём дату и время в естественной речи

10 min

15K

.NET*C#*Natural Language Processing*Algorithms*Voice user interfaces*

Задача

Привет, Хабр! Увлёкся я навыками для Алисы и стал думать, какую пользу они бы могли принести. На площадке много разных прикольных игр (в том числе мои), но вот захотелось сделать рабочий инструмент, который действительно нужен в голосовом исполнении, а не просто копирует существующего чат-бота с кнопками.

Голос актуален тогда, когда либо руки заняты, либо нужно выполнять много последовательных операций, особенно на экране телефона. Так возникла идея навыка, который по одной команде выделяет из текста указание на дату и время и добавляет событие с этим текстом в Google Calendar. Например, если пользователь скажет Послезавтра в 11 вечера будет красивый закат, то в календарь на послезавтра в 23:00 уходит строка Будет красивый закат.

Под катом описание алгоритма работы библиотеки Hors: распознавателя даты и времени в естественной русской речи. Хорс — это славянский бог солнца.

Github | NuGet

+46

pysinakaterina Oct 9 2019 at 11:32

Обнаружение пересекающихся сообществ в Instagram для определения интересов пользователей

8 min

17K

OKKAM Group corporate blogSocial networks and communitiesDisplay advertising*Machine learning*Big Data*

Сколько может рассказать о человеке профиль в соцсети? Фотографии, посты, комментарии, подписки – непаханное поле для анализа. Сегодня поговорим о том, как мы определяем интересы пользователей на основе их подписок в сети Instagram.

Источник

Читать дальше →

+19

iggisv9t Sep 4 2019 at 14:04

Визуализация больших графов для самых маленьких

12 min

58K

Open Data Science corporate blogData Mining*Data visualization*Artificial IntelligenceMachine learning*

Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.

Читать дальше →

+93

MihhaCF Sep 2 2019 at 18:31

Граф Скоринг де ля Фер или исследование на тему кредитного скоринга, в рамках расширения кругозора. Ч.3

6 min

3K

Big Data*Data Mining*Python*Machine learning*Finance in IT

Часть третья, в которой Атос выпал в осадок, а Граф де ля Фер мудрит с алгоритмами.

UPD Часть первая здесь
UPD Часть вторая здесь

AntipovSN and MihhaCF

Вступление от авторов:

Добрый день! Сегодня мы продолжаем цикл статей, посвященных скорингу и использованию в оном теории графов. С первой и второй статьей Вы можете познакомиться соответственно здесь и здесь. Настоятельно рекомендуем, иначе, данная статья может показаться бессмысленным экспериментом с алгоритмами.

Все шуточные аллегории, вставки и прочее, призваны немного разгрузить повествование и не позволить ему свалиться в нудную лекцию. Всем, кому не зайдет наш юмор, заранее приносим извинения

Цель данной статьи: не более, чем за 30 минут, описать алгоритм построения графа и рассчитать скоринговый балл для НПАО «Один за всех».

Термины и определения:

Алгоритм поиска в глубину (DFS, Depth-first search) — Стратегия поиска в глубину, как и следует из названия, состоит в том, чтобы идти «вглубь» графа, насколько это возможно. Алгоритм поиска описывается рекурсивно: перебираем все исходящие из рассматриваемой вершины рёбра. Если ребро ведёт в вершину, которая не была рассмотрена ранее, то запускаем алгоритм от этой нерассмотренной вершины, а после возвращаемся и продолжаем перебирать рёбра. Возврат происходит в том случае, если в рассматриваемой вершине не осталось рёбер, которые ведут в нерассмотренную вершину. Если после завершения алгоритма не все вершины были рассмотрены, то необходимо запустить алгоритм от одной из нерассмотренных вершин

Читать дальше →

+5

constantin_01 Aug 25 2019 at 21:47

Синтаксический разбор предложения русского языка

6 min

25K

Algorithms*Python*Natural Language Processing*

В данной статье описывается процесс синтаксического анализа предложения русского языка с использованием контекстно-свободной грамматики и алгоритма LR-анализа.

Обработка естественного языка — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков.

В общем, процесс анализа предложения естественного языка выглядит следующим образом: (1) разбиение предложения на синтаксические единицы — слова и словосочетания; (2) определение грамматических параметров каждой единицы; (3) определение синтаксической связи между единицами. На выходе — абстрактное дерево разбора.

Читать дальше →

+32

DEADStop Jun 22 2018 at 14:03

Боремся с ошибками и «костылями» в ЕГРЮЛ — госреестре юридических лиц

6 min

11K

HFLabs corporate blogSystem Analysis and Design*Open data*Development for e-commerce*

На прошлой неделе мы выпустили статью про устройство ЕГРЮЛ — госреестра с данными 10 миллионов компаний. Тот материал рассказывает о базовых вещах, поэтому начать лучше с него.

Здесь же мы раскроем богатую и благодатную тему — проблемы ЕГРЮЛа, которые не дают нашим разработчикам заскучать.

Продолжаем разговор

+21

cobiot Feb 4 2016 at 16:18

Создание архитектуры программы или как проектировать табуретку

25 min

693K

System Analysis and Design*Designing and refactoring*Website development*

Взявшись за написание небольшого, но реального и растущего проекта, мы «на собственной шкуре» убедились, насколько важно то, чтобы программа не только хорошо работала, но и была хорошо организована. Не верьте, что продуманная архитектура нужна только большим проектам (просто для больших проектов «смертельность» отсутствия архитектуры очевидна). Сложность, как правило, растет гораздо быстрее размеров программы. И если не позаботиться об этом заранее, то довольно быстро наступает момент, когда ты перестаешь ее контролировать. Правильная архитектура экономит очень много сил, времени и денег. А нередко вообще определяет то, выживет ваш проект или нет. И даже если речь идет всего лишь о «построении табуретки» все равно вначале очень полезно ее спроектировать.

К моему удивлению оказалось, что на вроде бы актуальный вопрос: «Как построить хорошую/красивую архитектуру ПО?» — не так легко найти ответ. Не смотря на то, что есть много книг и статей, посвященных и шаблонам проектирования и принципам проектирования, например, принципам SOLID (кратко описаны тут, подробно и с примерами можно посмотреть тут, тут и тут) и тому, как правильно оформлять код, все равно оставалось чувство, что чего-то важного не хватает. Это было похоже на то, как если бы вам дали множество замечательных и полезных инструментов, но забыли главное — объяснить, а как же «проектировать табуретку».

Хотелось разобраться, что вообще в себя включает процесс создания архитектуры программы, какие задачи при этом решаются, какие критерии используются (чтобы правила и принципы перестали быть всего лишь догмами, а стали бы понятны их логика и назначение). Тогда будет понятнее и какие инструменты лучше использовать в том или ином случае.

Данная статья является попыткой ответить на эти вопросы хотя бы в первом приближении.

Читать дальше →

+82

azathot Oct 11 2018 at 18:08

Целостность данных в микросервисной архитектуре — как её обеспечить без распределенных транзакций и жёсткой связности

9 min

63K

AvitoTech corporate blogWebsite development*Microservices*IT Infrastructure*Big Data*

Всем привет. Как вы, возможно, знаете, раньше я все больше писал и рассказывал про хранилища, Vertica, хранилища больших данных и прочие аналитические вещи. Сейчас в область моей ответственности упали и все остальные базы, не только аналитические, но и OLTP (PostgreSQL), и NOSQL (MongoDB, Redis, Tarantool).

Эта ситуация позволила мне взглянуть на организацию, имеющую несколько баз данных, как на организацию, имеющую одну распределенную гетерогенную (разнородную) базу. Единую распределенную гетерогенную базу, состоящую из кучи PostgreSQL, Redis-ов и Монг… И, возможно, из одной-двух баз Vertica.

Работа этой единой распределенной базы порождает кучу интересных задач. Прежде всего, с точки зрения бизнеса важно, чтобы с данными, движущимися по такой базе, все было нормально. Я специально не использую здесь термин целостность, consistency, т.к. термин это сложный, и в разных нюансах рассмотрения СУБД (ACID и CAP теорема) он имеет разный смысл.

Ситуация с распределенной базой обостряется, если компания пытается перейти на микросервисную архитектуру. Под катом я рассказываю, как обеспечить целостность данных в микросервисной архитектуре без распределенных транзакций и жесткой связности. (А в самом конце объясняю, почему выбрал для статьи такую иллюстрацию).

+75

gladkovs Oct 10 2018 at 07:23

Дома ФИАС в среде PostgreSQL

34 min

19K

Предыдущая статья с описанием адресов ФИАС и функций для работы с ними в среде PostgreSQL вызвала интерес у небольшой части читателей.

Поэтому имеет смысл описать аналогичные функции на языке PL/pgSQL для работы со списком домов ФИАС, загруженным в базу данных под управлением PostgreSQL.

В первой половине статьи изложены комментарии к реализации функций. Во второй- исходные тексты функций, а также скрипты для создания таблицы с записями домов ФИАС, а также загрузки данных в эту таблицу из файла в формате CSV. Тем из читателей, кого интересуют только исходные тексты, предлагаем сразу перейти к Приложению.

Читать дальше →

+12

IvanPonomarev Sep 3 2018 at 01:19

Выгружаем данные в Excel. Цивилизованно

9 min

69K

ERP-systems*Java*Open source*Programming*

Tutorial

Есть в IT-отрасли задачи, которые на фоне успехов в big data, machine learning, blockchain и прочих модных течений выглядят совершенно непривлекательно, но на протяжении десятков лет не перестают быть актуальными для целой армии разработчиков. Речь пойдёт о старой как мир задаче формирования и выгрузки Excel-документов, с которой сталкивался каждый, кто когда-либо писал приложения для бизнеса.

При чём тут ксилофон?!

+23

nataxan Aug 9 2014 at 17:00

Как использовать Томита-парсер в своих проектах. Практический курс

19 min

44K

Яндекс corporate blogNatural Language Processing*Open source*

Tutorial

Привет, меня зовут Наталья, я работаю в Яндексе разработчиком в группе извлечения фактов. Весной мы рассказали о том, что такое Томита-парсер и для чего он используется в Яндексе. А уже этой осенью исходники парсера будут выложены в открытый доступ.

В предыдущем посте мы пообещали рассказать, как пользоваться парсером и о синтаксисе его внутреннего языка. Именно этому и посвящен мой сегодняшний рассказ.

Прочитав этот пост, вы узнаете, как составляются словари и грамматики для Томиты, а также, как извлекать с их помощью факты из текстов на естественном языке. Та же информация доступна в формате небольшого видеокурса.

Читать дальше →

+69

DEADStop Feb 27 2018 at 14:14

Как устроены адресные подсказки «Дадаты»

6 min

17K

HFLabs corporate blogSearch engines*High performance*System Analysis and Design*Website development*

«Дадата» с 2014 года пилит «Подсказки». Они помогают быстро и без ошибок вводить контактные данные: адреса, реквизиты банков и компаний, емейлы — вот это все.

Штука устроена затейливо, и мы решили о ней рассказать. Возьмем подсказки по адресам, потому что они самые сложные.

Справочники и индексация

«Подсказки» знают, что подсказывать, потому что у них есть гигантские справочники. Хоть статья эта о подсказках по адресам, для пользы дела перечислю и другие справочники «Дадаты».

Читать дальше →

+37

6