Как стать автором
Обновить
16.72

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Индекс цифровой эволюции как способ измерения уровня цифровизации экономики в разных странах

Время на прочтение6 мин
Количество просмотров1.7K

Одним из таких способов стал подсчет индекса цифровой эволюции (Digital Evolution Index), созданного Школой права и дипломатии им. Флетчера (Университет Тафтса, США) совместно с Mastercard. На основании полученных данных страны мира были разделены на четыре траекторных зоны и проранжированы от большего значения индекса цифровой эволюции к меньшему. Различные рейтинги могут формировать мнение людей и выступать мощным оружием в информационных войнах, поэтому важно понимать, кто, как и для чего составляет эти рейтинги.

Читать далее
Всего голосов 10: ↑5 и ↓5+3
Комментарии8

Новости

Эволюция платежных систем: полный технический мануал по цифровому рублю

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров4.8K

Структурированная техническая и юридическая информация про "Цифровой рубль".
Вся документация в одном месте.

3 уровня вложенности данных:
менеджер, разработчик, эксперт.

Никакой воды - только факты.
Никаких "сказок" из СМИ.

Читать далее
Всего голосов 13: ↑9 и ↓4+7
Комментарии61

Где эта улица, где этот дом?.. Какие несостыковки и почему можно найти в ГАР и других адресных сервисах

Время на прочтение5 мин
Количество просмотров917

Привет, Хабр! Мы в HFLabs не унываем продолжаем исследовать тему российских адресов. Уже рассказывали о том, почему нельзя просто взять и выгрузить список городов из Государственного адресного реестра (ГАР), и разбирались, что представляет собой нормативка по адресам. 

А сегодня я расскажу, как один и тот же объект может иметь различные написания адреса. Такие разночтения заставляют делать ручной разбор адресов, а в некоторых случаях и вовсе рушат аналитику. Дальше будет о том, в чём причина и что с этим делать. 

Читать далее
Всего голосов 6: ↑6 и ↓0+8
Комментарии2

Проблема преобразований муниципалитетов для аналитиков: как мы упорядочили хаос

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров2.1K

Анализ данных на уровне муниципалитетов осложняется преобразованиями структуры территориальных единиц: меняются не только границы, но и типы муниципалитетов, названия, код ОКТМО. Это нужно учитывать в ходе исследований и при использовании информации, например, при работе с Базой данных показателей муниципальных образований Росстата. Открытых машиночитаемых данных о таких преобразованиях нет.

Меня зовут Артём Кушлевич, я геоаналитик из команды СберИндекса. В этой статье расскажу, о каких нюансах муниципальных данных нужно знать аналитикам, как мы сделали пространственный слой муниципалитетов с историей версий и разработали справочник преобразований, который можно использовать для построения непрерывных временных рядов. Эта информация может помочь:

— геоаналитикам, заинтересованным в данных о границах муниципальных образований;

— исследователям, которые работают с муниципальными данными (в первую очередь с Базой данных показателей муниципальных образований Росстата (БДПМО));

— при проектировании БДПМО 2.0.

Читать далее
Всего голосов 13: ↑12 и ↓1+16
Комментарии8

Истории

Оголяем «данные» и что из этого вышло

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров940

Однажды я задался целью создать устройство, которое измеряло бы качество воздуха — не просто как-то, а с высокой точностью. Проект по разработке устройства привел к созданию NeboAir — недорогого датчика, который претендует на высокую точность. В этом материале я расскажу об испытаниях в реальных условиях и о том, что получилось в итоге.

Читать далее
Всего голосов 11: ↑9 и ↓2+10
Комментарии1

OSINT: расследование выброса спор сибирской язвы

Время на прочтение8 мин
Количество просмотров2.9K

Узнать истину, пролить свет на таинственные прошлые события и разгадать сложные загадки – вот что вдохновляет OSINT-исследователей. Одним из таких загадочных событий является выброс спор сибирской язвы в Свердловске. 

— Этот инфекционный всплеск привел к смерти множества невинных жизней, оставив за собой множество неотвеченных вопросов. Однако, благодаря методам OSINT у нас есть возможность проникнуть в мир детективных расследований и разгадать тайну...

Читать далее
Всего голосов 20: ↑10 и ↓10+4
Комментарии20

Что представляет собой нормативная база по адресам в России: краткий обзор

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.4K

Эта история началась с того, что мы обнаружили, что типа «литера» нет в нормативке типов домовых частей. Но, согласно справочнику ГАР, у многих домов в Питере литеры есть. Мы решили спросить у ФНС, как так получилось. 

И ФНС нам ответила (что именно — читайте в статье). А дальше мы решили разобраться, какие ещё нормативные документы по адресам существуют и чем они могут быть полезны.

Читать далее
Всего голосов 8: ↑7 и ↓1+8
Комментарии11

LIBRA: Long Input Benchmark for Russian Analysis

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4K

Мы разработали бенчмарк LIBRA, который включает в себя 21 адаптированный набор данных для тщательного изучения способности LLM понимать длинный контекст. Помимо самих данных для оценки, мы опубликовали кодовую базу и лидерборд для сравнения моделей.

Читать далее
Всего голосов 26: ↑25 и ↓1+32
Комментарии2

Быстрая оценка эффекта рекламы/события на ключевые показатели: Python + Causal Impact

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров2.4K

Приветствую, меня зовут Владислав Поляков, я аналитик данных в Сбербанке. Сегодня я хочу поделиться, пожалуй, самым простым и быстрым способом оценки эффекта рекламы/события на ключевые показатели. Способ заключается в использовании библиотеки pycausalimpact для Python. Документация к библиотеке.

Вводные:

Данные: Данные ЦБ РФ по ключевой ставке и объему выданных кредитов с 2013 года.

Что будем оценивать?: Как повышение ключевой ставки повлияло на объем выданных кредитов.

Как будем оценивать?: С помощью библиотеки pycausalimpact для Python

Читать далее
Всего голосов 11: ↑9 и ↓2+10
Комментарии1

Парсинг Telegram-канала: Извлечение id комментаторов. Python + Telethon

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров7.3K

Список подписчиков тг‑канала часто представляет собою священную тайну и просто так никто не станет делиться паствой трафиком. Поэтому получить конкретный список людей сложно, но вот комментаторов под постами никто не скрывает (возможно ли это?).

В статье приведён и разобран (полный и рабочий) скрипт, позволяющий автоматизированно собирать простую статистику о тг‑канале: список id комментаторов с соответствующими количествами комментариев от каждого.

Читать далее
Всего голосов 7: ↑5 и ↓2+5
Комментарии2

50+ источников с исследованиями и статистикой для фактчекинга

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.9K

Подборка сайтов, которая поможет собрать «мясо» для своей статьи и сделать её убедительной, а также проверить факты в чужих публикациях.

Читать далее
Всего голосов 7: ↑5 и ↓2+6
Комментарии0

Создание цифровой модели рельефа (DEM) по открытым данным

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.5K

Построение цифровой модели рельефа (DEM) с использованием открытого программного обеспечения PyGMTSAR (Python InSAR) является ярким примером технология, которая выглядит настоящей магией. Действительно, для создания спутникового DEM требуется всего один клик. Указанный пример и многие другие интерактивные примеры InSAR с 3D визуализацией доступны на Google Colab, в Docker образах и даже на GitHub Actions на https://InSAR.dev

Читать далее
Всего голосов 8: ↑8 и ↓0+10
Комментарии2

Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3.7K

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами.

Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса.

Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи:

1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка.

К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.

Читать далее
Всего голосов 6: ↑4 и ↓2+3
Комментарии2

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань

Базы данных простыми словами

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров8K

Привет, Хабр!
Это статья больше для начинающих или любознательных, тут я постарался простыми словами объяснить что же такое эта база данных и для чего они используются на проектах.

Читать далее
Всего голосов 22: ↑6 и ↓16-9
Комментарии7

Почему нельзя взять и просто выгрузить список городов из адресной системы?

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров3.7K

Под словом «город» люди представляют определенный тип населённого пункта. Но у адресных систем своё мнение на этот счёт. Поэтому когда к нам пришёл заказчик и попросил выгрузить список всех городов в РФ, мы сильно напряглись и попросили уточнить, что он имеет в виду. Если думаете, что наш вопрос — странный, значит, вы никогда не имели дела с адресными системами. 

Читать далее
Всего голосов 20: ↑16 и ↓4+21
Комментарии35

Хабр, GPT, корпоративные блоги и БМЛы: оцениваем глубины ужаса

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров19K

Я не испытываю ненависти ни к корпоративным блогам, как таковым, ни к большим языковым моделям в целом. А вот к мусорному контенту, созданному левой пяткой ради ссылок на сайт или телеграм-канал - испытываю, и еще как. И как раз вот тут встретились два одиночества - ленивые копирайтеры мусоропроизводители и генеративные сети. Получилась, как вы понимаете, вовсе не конфетка.

Долго работая с LLM и GPT, неизбежно начинаешь замечать характерные паттерны, обороты, формулировки, характерные для генеративного контента. Наткнувшись на очередную очевидно генеративную статью и убедившись, что из таких статей у компании состоит весь блог, я решила исследовать это дело подробнее и желательно - автоматически.

За подробностями, результатами, ужасом и даже кодом на VB.NET приглашаю под кат!

Читать далее
Всего голосов 225: ↑221 и ↓4+279
Комментарии112

Борьба за открытые данные в строительной отрасли. История появления AUTOLISP, SDK, intelliCAD, openDWG, ODA, openCASCADE

Уровень сложностиПростой
Время на прочтение50 мин
Количество просмотров4.1K

Апрель 2024 года ознаменовался особым событием для строительной отрасли: два ведущих производителя CAD (BIM) систем, чьи инструменты используются для создания значительной части документации по строительным проектам, объявили в совместном коммюнике о начале продвижения открытых и совместимых рабочих процессов.

◾️ Но что стоит за этим решением?
◾️ Как сами CAD (BIM) вендоры обрабатывают данные из других CAD (BIM)? 
◾️ Кто первыми открывал проприетарные форматы CAD вендоров?
◾️ Как инструмент LISP, повлиял на создание intelliCAD и альянса OpenDWG?
◾️ Как мировая строительная отрасль зависит от степени открытости форматов данных?◾️ Откуда появились первые открытые альянсы и инициативы в CAD отрасли? 

Эти и многие другие вопросы по теме данных в строительной отрасли мы рассмотрим, опираясь на исторические данные и факты.

Читать далее
Всего голосов 8: ↑8 и ↓0+10
Комментарии2

История создания API для курса валют

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3K

В этой статье рассказываю, что побудило меня создать свой API для конвертации валют и получения актуального курса от различных источников. Начиная от анализа потребностей в онлайн-платежах и заканчивая разработкой гибкого и эффективного микросервиса. Демонстрирую вызовы, с которыми столкнулся в процессе разработки, а также описываю функциональности и возможности созданного сервиса. Приглашаю к обсуждению и обмену опытом в этой области.

Читать далее
Всего голосов 5: ↑4 и ↓1+6
Комментарии6

Чем мы дышим? Почему я бы не доверял Яндекс.Погоде, Google и IQAir

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.9K

Давайте поговорим о воздухе в Хабаровске. Сейчас там серьезная проблема: город занесло дымом от лесных пожаров. Но интересно, какая у нас информация о качестве воздуха?

Читать далее
Всего голосов 9: ↑8 и ↓1+9
Комментарии10

Обновлённый ЕМИСС: веб-приложение от непрограммиста

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.4K

Меня зовут Александр, я активно исследую экономические данные, строю регрессии, ML-модели. Данные использую разные: перекрёстные, панельные, временные.
По специфике своей работы часто пользуюсь ЕМИСС. ЕМИСС — это кладезь социально-экономических данных, но и одновременно платформа, которая может довести до головных болей и дергающегося глаза, а то и двух сразу.

Поставим себе, например, задачу выяснить, как влияет Х на У. Возьмём в качестве объектов наблюдения — регионы РФ. И тут нас будут ждать сюрпризы. Как быстро, не вырывая волосы из головы, получить две колонки данных за последний год по субъектам? Мы, конечно, можем использовать VLOOKUP/XLOOKUP в экселе и всё такое. Но нам встретятся обязательно двойняшки (тройняшки): «г. Москва» и «Город Москва столица Российской Федерации город федерального значения»; «Кемеровская область - Кузбасс» и «Кемеровская область — Кузбасс». Да, мелочи, но неприятно бороться с этими исключениями вручную.

Читать далее
Всего голосов 7: ↑6 и ↓1+8
Комментарии5
1
23 ...