Все потоки

Открытые данные *

Данные будут свободны!

СтатьиПостыНовостиАвторыКомпании

MarBra 29 ноя 2024 в 11:16

Универсальный классификатор НСИ- правда или фантастика?

Средний

4 мин

3.4K

Хранение данных * Открытые данные * Базы данных *

Из песочницы

Управление НСИ — оптимизация рабочих процессов. Основные задачи НСИ. Прикладные задачи. Классификация номенклатуры. Методы классификации НСИ. Основные критерии.

Читать далее

+3

SI_Net-Research 26 окт 2024 в 14:11

Индекс цифровой эволюции как способ измерения уровня цифровизации экономики в разных странах

6 мин

2.6K

Открытые данные * Сетевые технологии * Финансы в IT

Из песочницы

Одним из таких способов стал подсчет индекса цифровой эволюции (Digital Evolution Index), созданного Школой права и дипломатии им. Флетчера (Университет Тафтса, США) совместно с Mastercard. На основании полученных данных страны мира были разделены на четыре траекторных зоны и проранжированы от большего значения индекса цифровой эволюции к меньшему. Различные рейтинги могут формировать мнение людей и выступать мощным оружием в информационных войнах, поэтому важно понимать, кто, как и для чего составляет эти рейтинги.

Читать далее

+4

FabrLik 24 окт 2024 в 00:35

Эволюция платежных систем: полный технический мануал по цифровому рублю

Сложный

11 мин

6.5K

Финансы в ITАнализ и проектирование систем * Будущее здесьОткрытые данные * Платежные системы *

Мнение

Структурированная техническая и юридическая информация про "Цифровой рубль".
Вся документация в одном месте.

3 уровня вложенности данных:
менеджер, разработчик, эксперт.

Никакой воды - только факты.
Никаких "сказок" из СМИ.

Читать далее

+5

TaniaB 17 окт 2024 в 09:14

Где эта улица, где этот дом?.. Какие несостыковки и почему можно найти в ГАР и других адресных сервисах

5 мин

1.6K

Блог компании HFLabsОткрытые данные * Геоинформационные сервисы *

Привет, Хабр! Мы в HFLabs ~~не унываем~~ продолжаем исследовать тему российских адресов. Уже рассказывали о том, почему нельзя просто взять и выгрузить список городов из Государственного адресного реестра (ГАР), и разбирались, что представляет собой нормативка по адресам.

А сегодня я расскажу, как один и тот же объект может иметь различные написания адреса. Такие разночтения заставляют делать ручной разбор адресов, а в некоторых случаях и вовсе рушат аналитику. Дальше будет о том, в чём причина и что с этим делать.

Читать далее

+5

a_kushlev 11 окт 2024 в 07:51

Проблема преобразований муниципалитетов для аналитиков: как мы упорядочили хаос

Средний

17 мин

4.5K

Блог компании СберОткрытые данные * Хранение данных * Геоинформационные сервисы *

Кейс

Анализ данных на уровне муниципалитетов осложняется преобразованиями структуры территориальных единиц: меняются не только границы, но и типы муниципалитетов, названия, код ОКТМО. Это нужно учитывать в ходе исследований и при использовании информации, например, при работе с Базой данных показателей муниципальных образований Росстата. Открытых машиночитаемых данных о таких преобразованиях нет.

Меня зовут Артём Кушлевич, я геоаналитик из команды СберИндекса. В этой статье расскажу, о каких нюансах муниципальных данных нужно знать аналитикам, как мы сделали пространственный слой муниципалитетов с историей версий и разработали справочник преобразований, который можно использовать для построения непрерывных временных рядов. Эта информация может помочь:

— геоаналитикам, заинтересованным в данных о границах муниципальных образований;

— исследователям, которые работают с муниципальными данными (в первую очередь с Базой данных показателей муниципальных образований Росстата (БДПМО));

— при проектировании БДПМО 2.0.

Читать далее

+13

iamshpeht 8 окт 2024 в 10:02

Оголяем «данные» и что из этого вышло

Средний

4 мин

1.3K

ЭкологияРазвитие стартапаНаучно-популярноеВизуализация данных * Открытые данные *

Кейс

Однажды я задался целью создать устройство, которое измеряло бы качество воздуха — не просто как-то, а с высокой точностью. Проект по разработке устройства привел к созданию NeboAir — недорогого датчика, который претендует на высокую точность. В этом материале я расскажу об испытаниях в реальных условиях и о том, что получилось в итоге.

Читать далее

+8

stein_osint 5 окт 2024 в 09:50

OSINT: расследование выброса спор сибирской язвы

8 мин

3.9K

Геоинформационные сервисы * Контент и копирайтинг * Открытые данные *

Ретроспектива

Узнать истину, пролить свет на таинственные прошлые события и разгадать сложные загадки – вот что вдохновляет OSINT-исследователей. Одним из таких загадочных событий является выброс спор сибирской язвы в Свердловске.

— Этот инфекционный всплеск привел к смерти множества невинных жизней, оставив за собой множество неотвеченных вопросов. Однако, благодаря методам OSINT у нас есть возможность проникнуть в мир детективных расследований и разгадать тайну...

Читать далее

+2

TaniaB 27 авг 2024 в 12:44

Что представляет собой нормативная база по адресам в России: краткий обзор

Простой

6 мин

2.1K

Блог компании HFLabsГеоинформационные сервисы * Открытые данные *

Обзор

Эта история началась с того, что мы обнаружили, что типа «литера» нет в нормативке типов домовых частей. Но, согласно справочнику ГАР, у многих домов в Питере литеры есть. Мы решили спросить у ФНС, как так получилось.

И ФНС нам ответила (что именно — читайте в статье). А дальше мы решили разобраться, какие ещё нормативные документы по адресам существуют и чем они могут быть полезны.

Читать далее

+6

Gscraid 8 авг 2024 в 09:02

LIBRA: Long Input Benchmark for Russian Analysis

Средний

6 мин

4.9K

Блог компании SberDevicesОткрытые данные * Машинное обучение * Искусственный интеллектNatural Language Processing *

Обзор

Мы разработали бенчмарк LIBRA, который включает в себя 21 адаптированный набор данных для тщательного изучения способности LLM понимать длинный контекст. Помимо самих данных для оценки, мы опубликовали кодовую базу и лидерборд для сравнения моделей.

Читать далее

+29

Vladislav_Polyakov 30 июл 2024 в 09:16

Быстрая оценка эффекта рекламы/события на ключевые показатели: Python + Causal Impact

Средний

4 мин

7.7K

Программирование * Открытые данные * Машинное обучение * Визуализация данных * Python *

Из песочницы

Приветствую, меня зовут Владислав Поляков, я аналитик данных в Сбербанке. Сегодня я хочу поделиться, пожалуй, самым простым и быстрым способом оценки эффекта рекламы/события на ключевые показатели. Способ заключается в использовании библиотеки pycausalimpact для Python. Документация к библиотеке.

Вводные:

Данные: Данные ЦБ РФ по ключевой ставке и объему выданных кредитов с 2013 года.

Что будем оценивать?: Как повышение ключевой ставки повлияло на объем выданных кредитов.

Как будем оценивать?: С помощью библиотеки pycausalimpact для Python

Читать далее

+8

RomanBashmakov 17 июл 2024 в 15:25

Парсинг Telegram-канала: Извлечение id комментаторов. Python + Telethon

Простой

10 мин

12K

Мессенджеры * Python * Открытые данные * Социальные сети

Кейс

Список подписчиков тг‑канала часто представляет собою священную тайну и просто так никто не станет делиться ~~паствой~~ трафиком. Поэтому получить конкретный список людей сложно, но вот комментаторов под постами никто не скрывает (возможно ли это?).

В статье приведён и разобран (полный и рабочий) скрипт, позволяющий автоматизированно собирать простую статистику о тг‑канале: список id комментаторов с соответствующими количествами комментариев от каждого.

Читать далее

+5

pamparumba 4 июл 2024 в 14:00

50+ источников с исследованиями и статистикой для фактчекинга

Простой

2 мин

3.3K

Открытые данные * Исследования и прогнозы в IT * Контент и копирайтинг * Статистика в IT

Обзор

Подборка сайтов, которая поможет собрать «мясо» для своей статьи и сделать её убедительной, а также проверить факты в чужих публикациях.

Читать далее

+7

N-Cube 4 июл 2024 в 06:19

Создание цифровой модели рельефа (DEM) по открытым данным

Простой

5 мин

4.5K

Open source * Python * Открытые данные * Научно-популярноеDIY или Сделай сам

Построение цифровой модели рельефа (DEM) с использованием открытого программного обеспечения PyGMTSAR (Python InSAR) является ярким примером технология, которая выглядит настоящей магией. Действительно, для создания спутникового DEM требуется всего один клик. Указанный пример и многие другие интерактивные примеры InSAR с 3D визуализацией доступны на Google Colab, в Docker образах и даже на GitHub Actions на https://InSAR.dev

Читать далее

+9

troitskii 8 июн 2024 в 12:18

Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC

Средний

5 мин

14K

Поисковые технологии * Big Data * Открытые данные * Поисковая оптимизация * Искусственный интеллект

Туториал

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами.

Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса.

Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи:

1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка.

К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.

Читать далее

+3

AntonSenior 6 июн 2024 в 10:48

Базы данных простыми словами

Простой

4 мин

13K

SQL * Базы данных * Визуализация данных * Открытые данные * Хранение данных *

Обзор

Привет, Хабр!
Это статья больше для начинающих или любознательных, тут я постарался простыми словами объяснить что же такое эта база данных и для чего они используются на проектах.

Читать далее

-9

TaniaB 4 июн 2024 в 10:26

Почему нельзя взять и просто выгрузить список городов из адресной системы?

Средний

2 мин

3.9K

Блог компании HFLabsОткрытые данные *

Под словом «город» люди представляют определенный тип населённого пункта. Но у адресных систем своё мнение на этот счёт. Поэтому когда к нам пришёл заказчик и попросил выгрузить список всех городов в РФ, мы сильно напряглись и попросили уточнить, что он имеет в виду. Если думаете, что наш вопрос — странный, значит, вы никогда не имели дела с адресными системами.

Читать далее

+21

Bluewolf 18 мая 2024 в 17:58

Хабр, GPT, корпоративные блоги и БМЛы: оцениваем глубины ужаса

Простой

5 мин

21K

Программирование * .NET * Открытые данные * Контент и копирайтинг * Искусственный интеллект

Аналитика

Я не испытываю ненависти ни к корпоративным блогам, как таковым, ни к большим языковым моделям в целом. А вот к мусорному контенту, созданному левой пяткой ради ссылок на сайт или телеграм-канал - испытываю, и еще как. И как раз вот тут встретились два одиночества - ленивые ~~копирайтеры~~ мусоропроизводители и генеративные сети. Получилась, как вы понимаете, вовсе не конфетка.

Долго работая с LLM и GPT, неизбежно начинаешь замечать характерные паттерны, обороты, формулировки, характерные для генеративного контента. Наткнувшись на очередную очевидно генеративную статью и убедившись, что из таких статей у компании состоит весь блог, я решила исследовать это дело подробнее и желательно - автоматически.

За подробностями, результатами, ужасом и даже кодом на VB.NET приглашаю под кат!

Читать далее

+279

ArtemBoiko 15 мая 2024 в 08:51

Борьба за открытые данные в строительной отрасли. История появления AUTOLISP, SDK, intelliCAD, openDWG, ODA, openCASCADE

Простой

50 мин

5.3K

Open source * CAD/CAM * Открытые данные * Исследования и прогнозы в IT * История IT

Обзор

Апрель 2024 года ознаменовался особым событием для строительной отрасли: два ведущих производителя CAD (BIM) систем, чьи инструменты используются для создания значительной части документации по строительным проектам, объявили в совместном коммюнике о начале продвижения открытых и совместимых рабочих процессов.

◾️ Но что стоит за этим решением?
◾️ Как сами CAD (BIM) вендоры обрабатывают данные из других CAD (BIM)?
◾️ Кто первыми открывал проприетарные форматы CAD вендоров?
◾️ Как инструмент LISP, повлиял на создание intelliCAD и альянса OpenDWG?
◾️ Как мировая строительная отрасль зависит от степени открытости форматов данных?◾️ Откуда появились первые открытые альянсы и инициативы в CAD отрасли?

Эти и многие другие вопросы по теме данных в строительной отрасли мы рассмотрим, опираясь на исторические данные и факты.

Читать далее

+10

gogochikago 11 мая 2024 в 07:15

История создания API для курса валют

Простой

6 мин

4.2K

Веб-разработка * Анализ и проектирование систем * Проектирование API * Открытые данные * Микросервисы *

Кейс

Из песочницы

В этой статье рассказываю, что побудило меня создать свой API для конвертации валют и получения актуального курса от различных источников. Начиная от анализа потребностей в онлайн-платежах и заканчивая разработкой гибкого и эффективного микросервиса. Демонстрирую вызовы, с которыми столкнулся в процессе разработки, а также описываю функциональности и возможности созданного сервиса. Приглашаю к обсуждению и обмену опытом в этой области.

Читать далее

+6

iamshpeht 10 мая 2024 в 08:01

Чем мы дышим? Почему я бы не доверял Яндекс.Погоде, Google и IQAir

Простой

2 мин

3.9K

Открытые данные * Экология

Обзор

Давайте поговорим о воздухе в Хабаровске. Сейчас там серьезная проблема: город занесло дымом от лесных пожаров. Но интересно, какая у нас информация о качестве воздуха?

Читать далее

+10

4

5 6 ...