Как стать автором
Обновить
1.68

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Открытый банкинг в России: обязательное внедрение, стандарты и наш новый мониторинговый бот

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров645

Привет! Меня зовут Антон, я руковожу проектом Everypay.io – финтех-платформой, которая предоставляет инфраструктуру и данные для разработки персонализированных финансовых услуг через открытые банковские API. Наша задача – помочь бизнесу и разработчикам легко интегрироваться с банковскими системами, ускоряя запуск инновационных решений и снижая издержки на разработку.

В этой статье я поделюсь, почему наша команда постоянно следит за обновлениями спецификаций открытого банкинга, какие изменения готовит Центробанк РФ, а также расскажу о нашем новом боте, который автоматически мониторит свежие изменения и уведомляет нас буквально в течение часа.

Читать далее

Новости

Генерация табличных данных с помощью языковых моделей: делаем правильно

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров1.9K

В мире анализа данных и машинного обучения качественные табулированные данные играют ключевую роль. Однако далеко не всегда у специалистов есть доступ к реальным данным из-за конфиденциальности или их полного отсутствия в структурированном виде. В таких случаях на помощь приходят языковые модели, способные генерировать структурированные таблицы с синтетическими данными.

Читать далее

Практическое применение открытых API: трансформация студенческого проекта в бизнес-решение по оценке контрагентов

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.8K

Как студенческое исследование по оценке репутации контрагентов с использованием открытых данных переросло в ИТ-решение представителя среднего бизнеса.

История моей ИТ-инициативы началась с университетского проекта по управлению рисками, выполненного на кафедре «Бизнес-информатика» Финансового университета. Совмещая приятное с полезным, одновременно с учебным проектом занимался оценкой благонадежности контрагентов и рисков сотрудничества с ними в реальном бизнесе.

В рамках университетского исследования изучены взаимосвязи между различными корпоративными данными, включая факторы риска, и результатами сотрудничества с контрагентами. В исследованиях выявил взаимозависимость репутационных рисков с банкротствами аффилированных лиц, политическими взглядами учредителей и судебной активностью, при этом благонадёжность определяется устойчивым развитием, участием в госзакупках и политических кампаниях.

Руководству были представлены результаты исследования взаимосвязей между репутацией и благонадёжностью контрагентов. На основе проведённого исследования было принято решение внедрить ИТ-решение по автоматизации анализа и визуализации данных с использованием открытых данных из источников, таких как ФНС, Право.ру и СКБ Контур, доступных через открытые API. Так, функционал этих инструментов начал применяться в реальном бизнесе для оценки благонадёжности контрагентов.

Читать далее

Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах

Время на прочтение14 мин
Количество просмотров1.5K

Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?

Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.

Читать далее

Истории

Применение OSINT-техник в сфере юриспруденции

Время на прочтение2 мин
Количество просмотров915

На удивление юристы работают не только с законодательством, бывает, что ответа на вопрос клиента или руководителя просто нет среди законов и кейсов. Тогда юрист превращается в OSINT-исследователя, потому что его работа в том, чтобы найти ответ на вопрос.

— Например, открытые данные помогают проверить контрагента, избежать нарушений законов или найти нужные доказательства для иска. Да и ресерч правовых баз можно отнести к поиску по открытым данным.

Читать далее

Обзор недавно выпущенной модели Evo для анализа геномных данных

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.4K

Давайте представим, что вы начинающий или опытный биоинформатик, или "простой смертный", который хочет углубиться в анализ биологических данных. Спойлер: биоинформатики тоже смертные! Зачастую, не у каждого хватает ценного времени на проверку огромных последовательностей геномных данных, будь то поиск различных мутаций или прогнозирование структуры белков на основе последовательности аминокислот.

Но не переживайте, в этом вам поможет искусственный интеллект! Да, тот самый ИИ, который чуть ли не через каждую минуту обещает изменить мир и избавить нас от всех проблем — от покупки продуктов до поиска идеальных генетических маркеров для рака. Так вот, давайте разберемся, как ИИ может помочь нам, бедным исследователям, быстро и эффективно работать с данными, которые, казалось бы, невозможно обработать, даже за целую жизнь.

Читать далее

Коронавирус: долгожданное извержение правды

Время на прочтение5 мин
Количество просмотров37K

Комитет Палаты представителей США опубликовал 520-страничный отчёт по COVID-19. И это, конечно, нега для людей, на которых в период пандемии навесили ярлык ковид-диссидента. Тобишь для таких как я. Итак, прямые цитаты из анонса на сайте американского правительства...

Про мандаты на маски: «не было убедительных доказательств того, что маски эффективно защищают американцев от COVID-19. Должностные лица органов здравоохранения наперебой рассказывали об эффективности масок, не предоставляя американцам научных данных, что вызвало массовый рост общественного недоверия».

Про социальную изоляцию:  «рекомендация по социальной дистанции "6 футов друг от друга", из-за которой по всей стране закрывались школы и малые предприятия, была произвольной и не основанной на научных данных. Во время дачи показаний за закрытыми дверями доктор Фаучи заявил, что руководство "как бы просто появилось"».

Про запретительные меры: «длительные локдауны нанесли неизмеримый ущерб не только американской экономике, но и психическому, а также физическому здоровью американцев, особенно негативно сказавшись на молодых гражданах. Вместо того чтобы уделять первостепенное внимание защите наиболее уязвимых слоев населения, политика федеральных властей и властей штатов вынудила миллионы американцев отказаться от важнейших элементов здоровой и финансово обеспеченной жизни».

Про цензуру: «представители органов здравоохранения распространяли дезинформацию, используя противоречивые сообщения, поспешные реакции и отсутствие прозрачности. Администрация Байдена даже использовала недемократические и, скорее всего, неконституционные методы — в том числе заставляла компании социальных сетей цензурировать определенный контент COVID-19 — для борьбы с тем, что она считала дезинформацией».

Читать далее

Когда «тихая» ДНК громче гена: как избыточная ДНК регулирует экспрессию, ничего не делая

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.5K

Мир биоинформатики полон загадок: что такое избыточная ДНК, почему она занимает половину генома, и как это вообще работает? Кому-то может показаться, что некодирующая ДНК — это просто «балласт», но на деле это, как если бы в вашем коде была сложная инфраструктура, которая отвечает за оптимизацию и поддержание всей системы.

Сегодня мы с вами разберёмся, как эта загадочная некодирующая ДНК умудряется контролировать экспрессию генов, ничего при этом не кодируя. А чтобы вы не заскучали, добавим капельку Python, ведь кода много не бывает!

Читать далее

Качественные данные для среднего бизнеса: почему без промышленной платформы интеграции не обойтись?

Время на прочтение5 мин
Количество просмотров388

Качество данных и его значение для среднего бизнеса. Что такое качество данных? Почему качество данных так важно для среднего бизнеса? Кто относится к среднему бизнесу в России? Основные риски низкого качества данных. Основные рекомендации по выбору решений.

Читать далее

Универсальный классификатор НСИ- правда или фантастика?

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров970

Управление НСИ — оптимизация рабочих процессов. Основные задачи НСИ. Прикладные задачи. Классификация номенклатуры. Методы классификации НСИ. Основные критерии.

Читать далее

Индекс цифровой эволюции как способ измерения уровня цифровизации экономики в разных странах

Время на прочтение6 мин
Количество просмотров2K

Одним из таких способов стал подсчет индекса цифровой эволюции (Digital Evolution Index), созданного Школой права и дипломатии им. Флетчера (Университет Тафтса, США) совместно с Mastercard. На основании полученных данных страны мира были разделены на четыре траекторных зоны и проранжированы от большего значения индекса цифровой эволюции к меньшему. Различные рейтинги могут формировать мнение людей и выступать мощным оружием в информационных войнах, поэтому важно понимать, кто, как и для чего составляет эти рейтинги.

Читать далее

Эволюция платежных систем: полный технический мануал по цифровому рублю

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров5.8K

Структурированная техническая и юридическая информация про "Цифровой рубль".
Вся документация в одном месте.

3 уровня вложенности данных:
менеджер, разработчик, эксперт.

Никакой воды - только факты.
Никаких "сказок" из СМИ.

Читать далее

Где эта улица, где этот дом?.. Какие несостыковки и почему можно найти в ГАР и других адресных сервисах

Время на прочтение5 мин
Количество просмотров1.2K

Привет, Хабр! Мы в HFLabs не унываем продолжаем исследовать тему российских адресов. Уже рассказывали о том, почему нельзя просто взять и выгрузить список городов из Государственного адресного реестра (ГАР), и разбирались, что представляет собой нормативка по адресам. 

А сегодня я расскажу, как один и тот же объект может иметь различные написания адреса. Такие разночтения заставляют делать ручной разбор адресов, а в некоторых случаях и вовсе рушат аналитику. Дальше будет о том, в чём причина и что с этим делать. 

Читать далее

Ближайшие события

Проблема преобразований муниципалитетов для аналитиков: как мы упорядочили хаос

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров3.2K

Анализ данных на уровне муниципалитетов осложняется преобразованиями структуры территориальных единиц: меняются не только границы, но и типы муниципалитетов, названия, код ОКТМО. Это нужно учитывать в ходе исследований и при использовании информации, например, при работе с Базой данных показателей муниципальных образований Росстата. Открытых машиночитаемых данных о таких преобразованиях нет.

Меня зовут Артём Кушлевич, я геоаналитик из команды СберИндекса. В этой статье расскажу, о каких нюансах муниципальных данных нужно знать аналитикам, как мы сделали пространственный слой муниципалитетов с историей версий и разработали справочник преобразований, который можно использовать для построения непрерывных временных рядов. Эта информация может помочь:

— геоаналитикам, заинтересованным в данных о границах муниципальных образований;

— исследователям, которые работают с муниципальными данными (в первую очередь с Базой данных показателей муниципальных образований Росстата (БДПМО));

— при проектировании БДПМО 2.0.

Читать далее

Оголяем «данные» и что из этого вышло

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.1K

Однажды я задался целью создать устройство, которое измеряло бы качество воздуха — не просто как-то, а с высокой точностью. Проект по разработке устройства привел к созданию NeboAir — недорогого датчика, который претендует на высокую точность. В этом материале я расскажу об испытаниях в реальных условиях и о том, что получилось в итоге.

Читать далее

OSINT: расследование выброса спор сибирской язвы

Время на прочтение8 мин
Количество просмотров3.2K

Узнать истину, пролить свет на таинственные прошлые события и разгадать сложные загадки – вот что вдохновляет OSINT-исследователей. Одним из таких загадочных событий является выброс спор сибирской язвы в Свердловске. 

— Этот инфекционный всплеск привел к смерти множества невинных жизней, оставив за собой множество неотвеченных вопросов. Однако, благодаря методам OSINT у нас есть возможность проникнуть в мир детективных расследований и разгадать тайну...

Читать далее

Что представляет собой нормативная база по адресам в России: краткий обзор

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.8K

Эта история началась с того, что мы обнаружили, что типа «литера» нет в нормативке типов домовых частей. Но, согласно справочнику ГАР, у многих домов в Питере литеры есть. Мы решили спросить у ФНС, как так получилось. 

И ФНС нам ответила (что именно — читайте в статье). А дальше мы решили разобраться, какие ещё нормативные документы по адресам существуют и чем они могут быть полезны.

Читать далее

LIBRA: Long Input Benchmark for Russian Analysis

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.4K

Мы разработали бенчмарк LIBRA, который включает в себя 21 адаптированный набор данных для тщательного изучения способности LLM понимать длинный контекст. Помимо самих данных для оценки, мы опубликовали кодовую базу и лидерборд для сравнения моделей.

Читать далее

Быстрая оценка эффекта рекламы/события на ключевые показатели: Python + Causal Impact

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров4K

Приветствую, меня зовут Владислав Поляков, я аналитик данных в Сбербанке. Сегодня я хочу поделиться, пожалуй, самым простым и быстрым способом оценки эффекта рекламы/события на ключевые показатели. Способ заключается в использовании библиотеки pycausalimpact для Python. Документация к библиотеке.

Вводные:

Данные: Данные ЦБ РФ по ключевой ставке и объему выданных кредитов с 2013 года.

Что будем оценивать?: Как повышение ключевой ставки повлияло на объем выданных кредитов.

Как будем оценивать?: С помощью библиотеки pycausalimpact для Python

Читать далее

Парсинг Telegram-канала: Извлечение id комментаторов. Python + Telethon

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров9K

Список подписчиков тг‑канала часто представляет собою священную тайну и просто так никто не станет делиться паствой трафиком. Поэтому получить конкретный список людей сложно, но вот комментаторов под постами никто не скрывает (возможно ли это?).

В статье приведён и разобран (полный и рабочий) скрипт, позволяющий автоматизированно собирать простую статистику о тг‑канале: список id комментаторов с соответствующими количествами комментариев от каждого.

Читать далее
1
23 ...