Обновить
72.79

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Универсальный классификатор НСИ- правда или фантастика?

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров3.4K

Управление НСИ — оптимизация рабочих процессов. Основные задачи НСИ. Прикладные задачи. Классификация номенклатуры. Методы классификации НСИ. Основные критерии.

Читать далее

Индекс цифровой эволюции как способ измерения уровня цифровизации экономики в разных странах

Время на прочтение6 мин
Количество просмотров2.6K

Одним из таких способов стал подсчет индекса цифровой эволюции (Digital Evolution Index), созданного Школой права и дипломатии им. Флетчера (Университет Тафтса, США) совместно с Mastercard. На основании полученных данных страны мира были разделены на четыре траекторных зоны и проранжированы от большего значения индекса цифровой эволюции к меньшему. Различные рейтинги могут формировать мнение людей и выступать мощным оружием в информационных войнах, поэтому важно понимать, кто, как и для чего составляет эти рейтинги.

Читать далее

Эволюция платежных систем: полный технический мануал по цифровому рублю

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров6.5K

Структурированная техническая и юридическая информация про "Цифровой рубль".
Вся документация в одном месте.

3 уровня вложенности данных:
менеджер, разработчик, эксперт.

Никакой воды - только факты.
Никаких "сказок" из СМИ.

Читать далее

Где эта улица, где этот дом?.. Какие несостыковки и почему можно найти в ГАР и других адресных сервисах

Время на прочтение5 мин
Количество просмотров1.6K

Привет, Хабр! Мы в HFLabs не унываем продолжаем исследовать тему российских адресов. Уже рассказывали о том, почему нельзя просто взять и выгрузить список городов из Государственного адресного реестра (ГАР), и разбирались, что представляет собой нормативка по адресам. 

А сегодня я расскажу, как один и тот же объект может иметь различные написания адреса. Такие разночтения заставляют делать ручной разбор адресов, а в некоторых случаях и вовсе рушат аналитику. Дальше будет о том, в чём причина и что с этим делать. 

Читать далее

Проблема преобразований муниципалитетов для аналитиков: как мы упорядочили хаос

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров4.5K

Анализ данных на уровне муниципалитетов осложняется преобразованиями структуры территориальных единиц: меняются не только границы, но и типы муниципалитетов, названия, код ОКТМО. Это нужно учитывать в ходе исследований и при использовании информации, например, при работе с Базой данных показателей муниципальных образований Росстата. Открытых машиночитаемых данных о таких преобразованиях нет.

Меня зовут Артём Кушлевич, я геоаналитик из команды СберИндекса. В этой статье расскажу, о каких нюансах муниципальных данных нужно знать аналитикам, как мы сделали пространственный слой муниципалитетов с историей версий и разработали справочник преобразований, который можно использовать для построения непрерывных временных рядов. Эта информация может помочь:

— геоаналитикам, заинтересованным в данных о границах муниципальных образований;

— исследователям, которые работают с муниципальными данными (в первую очередь с Базой данных показателей муниципальных образований Росстата (БДПМО));

— при проектировании БДПМО 2.0.

Читать далее

Оголяем «данные» и что из этого вышло

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.3K

Однажды я задался целью создать устройство, которое измеряло бы качество воздуха — не просто как-то, а с высокой точностью. Проект по разработке устройства привел к созданию NeboAir — недорогого датчика, который претендует на высокую точность. В этом материале я расскажу об испытаниях в реальных условиях и о том, что получилось в итоге.

Читать далее

OSINT: расследование выброса спор сибирской язвы

Время на прочтение8 мин
Количество просмотров3.9K

Узнать истину, пролить свет на таинственные прошлые события и разгадать сложные загадки – вот что вдохновляет OSINT-исследователей. Одним из таких загадочных событий является выброс спор сибирской язвы в Свердловске. 

— Этот инфекционный всплеск привел к смерти множества невинных жизней, оставив за собой множество неотвеченных вопросов. Однако, благодаря методам OSINT у нас есть возможность проникнуть в мир детективных расследований и разгадать тайну...

Читать далее

Что представляет собой нормативная база по адресам в России: краткий обзор

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.1K

Эта история началась с того, что мы обнаружили, что типа «литера» нет в нормативке типов домовых частей. Но, согласно справочнику ГАР, у многих домов в Питере литеры есть. Мы решили спросить у ФНС, как так получилось. 

И ФНС нам ответила (что именно — читайте в статье). А дальше мы решили разобраться, какие ещё нормативные документы по адресам существуют и чем они могут быть полезны.

Читать далее

LIBRA: Long Input Benchmark for Russian Analysis

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.9K

Мы разработали бенчмарк LIBRA, который включает в себя 21 адаптированный набор данных для тщательного изучения способности LLM понимать длинный контекст. Помимо самих данных для оценки, мы опубликовали кодовую базу и лидерборд для сравнения моделей.

Читать далее

Быстрая оценка эффекта рекламы/события на ключевые показатели: Python + Causal Impact

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров7.7K

Приветствую, меня зовут Владислав Поляков, я аналитик данных в Сбербанке. Сегодня я хочу поделиться, пожалуй, самым простым и быстрым способом оценки эффекта рекламы/события на ключевые показатели. Способ заключается в использовании библиотеки pycausalimpact для Python. Документация к библиотеке.

Вводные:

Данные: Данные ЦБ РФ по ключевой ставке и объему выданных кредитов с 2013 года.

Что будем оценивать?: Как повышение ключевой ставки повлияло на объем выданных кредитов.

Как будем оценивать?: С помощью библиотеки pycausalimpact для Python

Читать далее

Парсинг Telegram-канала: Извлечение id комментаторов. Python + Telethon

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров12K

Список подписчиков тг‑канала часто представляет собою священную тайну и просто так никто не станет делиться паствой трафиком. Поэтому получить конкретный список людей сложно, но вот комментаторов под постами никто не скрывает (возможно ли это?).

В статье приведён и разобран (полный и рабочий) скрипт, позволяющий автоматизированно собирать простую статистику о тг‑канале: список id комментаторов с соответствующими количествами комментариев от каждого.

Читать далее

50+ источников с исследованиями и статистикой для фактчекинга

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.3K

Подборка сайтов, которая поможет собрать «мясо» для своей статьи и сделать её убедительной, а также проверить факты в чужих публикациях.

Читать далее

Создание цифровой модели рельефа (DEM) по открытым данным

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.5K

Построение цифровой модели рельефа (DEM) с использованием открытого программного обеспечения PyGMTSAR (Python InSAR) является ярким примером технология, которая выглядит настоящей магией. Действительно, для создания спутникового DEM требуется всего один клик. Указанный пример и многие другие интерактивные примеры InSAR с 3D визуализацией доступны на Google Colab, в Docker образах и даже на GitHub Actions на https://InSAR.dev

Читать далее

Ближайшие события

Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров14K

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами.

Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса.

Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи:

1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка.

К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.

Читать далее

Базы данных простыми словами

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров13K

Привет, Хабр!
Это статья больше для начинающих или любознательных, тут я постарался простыми словами объяснить что же такое эта база данных и для чего они используются на проектах.

Читать далее

Почему нельзя взять и просто выгрузить список городов из адресной системы?

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров3.9K

Под словом «город» люди представляют определенный тип населённого пункта. Но у адресных систем своё мнение на этот счёт. Поэтому когда к нам пришёл заказчик и попросил выгрузить список всех городов в РФ, мы сильно напряглись и попросили уточнить, что он имеет в виду. Если думаете, что наш вопрос — странный, значит, вы никогда не имели дела с адресными системами. 

Читать далее

Хабр, GPT, корпоративные блоги и БМЛы: оцениваем глубины ужаса

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров21K

Я не испытываю ненависти ни к корпоративным блогам, как таковым, ни к большим языковым моделям в целом. А вот к мусорному контенту, созданному левой пяткой ради ссылок на сайт или телеграм-канал - испытываю, и еще как. И как раз вот тут встретились два одиночества - ленивые копирайтеры мусоропроизводители и генеративные сети. Получилась, как вы понимаете, вовсе не конфетка.

Долго работая с LLM и GPT, неизбежно начинаешь замечать характерные паттерны, обороты, формулировки, характерные для генеративного контента. Наткнувшись на очередную очевидно генеративную статью и убедившись, что из таких статей у компании состоит весь блог, я решила исследовать это дело подробнее и желательно - автоматически.

За подробностями, результатами, ужасом и даже кодом на VB.NET приглашаю под кат!

Читать далее

Борьба за открытые данные в строительной отрасли. История появления AUTOLISP, SDK, intelliCAD, openDWG, ODA, openCASCADE

Уровень сложностиПростой
Время на прочтение50 мин
Количество просмотров5.3K

Апрель 2024 года ознаменовался особым событием для строительной отрасли: два ведущих производителя CAD (BIM) систем, чьи инструменты используются для создания значительной части документации по строительным проектам, объявили в совместном коммюнике о начале продвижения открытых и совместимых рабочих процессов.

◾️ Но что стоит за этим решением?
◾️ Как сами CAD (BIM) вендоры обрабатывают данные из других CAD (BIM)? 
◾️ Кто первыми открывал проприетарные форматы CAD вендоров?
◾️ Как инструмент LISP, повлиял на создание intelliCAD и альянса OpenDWG?
◾️ Как мировая строительная отрасль зависит от степени открытости форматов данных?◾️ Откуда появились первые открытые альянсы и инициативы в CAD отрасли? 

Эти и многие другие вопросы по теме данных в строительной отрасли мы рассмотрим, опираясь на исторические данные и факты.

Читать далее

История создания API для курса валют

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.2K

В этой статье рассказываю, что побудило меня создать свой API для конвертации валют и получения актуального курса от различных источников. Начиная от анализа потребностей в онлайн-платежах и заканчивая разработкой гибкого и эффективного микросервиса. Демонстрирую вызовы, с которыми столкнулся в процессе разработки, а также описываю функциональности и возможности созданного сервиса. Приглашаю к обсуждению и обмену опытом в этой области.

Читать далее

Чем мы дышим? Почему я бы не доверял Яндекс.Погоде, Google и IQAir

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.9K

Давайте поговорим о воздухе в Хабаровске. Сейчас там серьезная проблема: город занесло дымом от лесных пожаров. Но интересно, какая у нас информация о качестве воздуха?

Читать далее