Открытые данные *

Данные будут свободны!

СтатьиПостыНовостиАвторыКомпании

create_your_view 3 мая 2024 в 14:15

Обновлённый ЕМИСС: веб-приложение от непрограммиста

Простой

5 мин

3.1K

Открытые данные * VueJS * MySQL * Python *

Из песочницы

Меня зовут Александр, я активно исследую экономические данные, строю регрессии, ML-модели. Данные использую разные: перекрёстные, панельные, временные.
По специфике своей работы часто пользуюсь ЕМИСС. ЕМИСС — это кладезь социально-экономических данных, но и одновременно платформа, которая может довести до головных болей и дергающегося глаза, а то и двух сразу.

Поставим себе, например, задачу выяснить, как влияет Х на У. Возьмём в качестве объектов наблюдения — регионы РФ. И тут нас будут ждать сюрпризы. Как быстро, не вырывая волосы из головы, получить две колонки данных за последний год по субъектам? Мы, конечно, можем использовать VLOOKUP/XLOOKUP в экселе и всё такое. Но нам встретятся обязательно двойняшки (тройняшки): «г. Москва» и «Город Москва столица Российской Федерации город федерального значения»; «Кемеровская область - Кузбасс» и «Кемеровская область — Кузбасс». Да, мелочи, но неприятно бороться с этими исключениями вручную.

ArtemBoiko 25 апр 2024 в 06:25

Использование открытых форматов для строительных проектов набирает обороты. Забудьте об использовании API и плагинов

Простой

5 мин

4.9K

Open source * Data Mining * CAD/CAM * Открытые данные * Data Engineering *

Мнение

В 2024 году ни одна крупная компания в мире, работающая с CAD (BIM) данными, не получает доступ к данным из CAD (BIM) программ через API или плагины.

Все крупные компании, работающие с форматами CAD (BIM), работают с определенными SDK, а форматы, содержащие данные о строительных проектах становятся взаимозаменяемы.

snakers4 11 апр 2024 в 03:26

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Простой

2 мин

3.7K

Big Data * Открытые данные * Машинное обучение * ЗвукNatural Language Processing *

Обзор

Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).

Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.

Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).

Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.

Давайте смотреть датасет

+18

zdanevich-vitaly 30 мар 2024 в 03:10

О Wikidata для тех кто вообще не слышал: открытая база данных, сестринский проект Википедии — с ней же и интегрирован

Простой

3 мин

6.6K

Визуализация данных * Открытые данные * Data Mining * Data Engineering * Накопители

Обзор

Здравствуйте, на Хабре не много о Викиданных, хочу рассказать об этом бесплатном открытом интересном и полезном сервисе. Веб интерфейс располагается по адресу https://www.wikidata.org/wiki/Wikidata:Main_Page.

+35

pit_ne_spit 28 мар 2024 в 08:24

Как мы выстроили систему визуализации ошибок с помощью Grafana и снизили время на их отработку с 2 часов до 15 секунд

Простой

4 мин

11K

Открытые данные * Визуализация данных *

Я работаю в DataNewton сервисе для скрининга контрагентов. Данные, которые мы предоставляем, берутся из 43-х официальных источников. Чаще всего это базы данных государственных сервисов. И тут есть проблема: такие сервисы любят менять формат массивов, в которых они отдают данные. Например, недавно один из них без предупреждения поле «name» поменял на «firstname», из-за чего могли полететь многие названия компаний. Но мы быстро увидели это в самодельной панели и предотвратили ошибку, которая для нашего сервиса была бы критической.

Как мы построили визуальное отображение ошибок — рассказываем в статье.

+18

N-Cube 18 мар 2024 в 08:49

Open Source спутниковая интерферометрия PyGMTSAR (Python InSAR)

Простой

3 мин

2.2K

Открытые данные * Облачные вычисления * Научно-популярноеPython * Open source *

С тех пор, как я рассказывал на хабре про мой открытый проект спутниковой интерферометрии PyGMTSAR (Python InSAR библиотека) для обработки и анализа радарных данных спутников Sentinel-1, прошло много времени и сегодня PyGMTSAR представляет собой наиболее мощный инструмент среди всех открытых InSAR. Притом, PyGMTSAR действительно общедоступен, поскольку не требует скачивать огромные данные, устанавливать программное обеспечение и так далее — достаточно просто открыть ссылки на Google Colab в браузере и посмотреть и запустить готовые примеры или адаптировать их для своей территории и области интереса. Предлагаемые Google Colab примеры включают в себя создание отдельных интерферограмм для анализа результатов сейсмических событий (землетрясений) и наводнений, создание рельефа, анализ серий интерферограмм для мониторинга оползней и проседаний грунта. И все эти возможности доступны в один клик онлайн на Google Colab и в Docker контейнерах. Для профессионалов предоставляется полностью программируемая среда для выполнения InSAR задач и интерактивной 3D визуализации, доступная на Google Colab, в Docker контейнерах, на GitHub Action runners, и, конечно, на локальных компьютерах и на облачных хостах.

Читать дальше →

jtjag 12 мар 2024 в 07:00

Как сайты обнаруживают ботов по TLS

Средний

3 мин

8.8K

Сетевые технологии * Открытые данные * Реверс-инжиниринг *

Из песочницы

Порой случается так что несмотря на то что мы в точности повторяем запрос к сайту из своего любимого HTTP клиента в ответ мы получаем ошибку. Но ведь в браузере запрос проходит! В чём же дело? В этой статье мы с этим разберемся!

+21

ldrbmrtv 27 фев 2024 в 09:56

Open Research Knowledge Graph: новый подход к научной коммуникации

Средний

3 мин

1.3K

Семантические сети * Открытые данные * Научно-популярное

Обзор

На сегодняшний день для представления и обмена результатами исследований мы используем методы, которые были разработаны много веков назад. С момента зарождения современной науки (публикации первого научного журнала "Transactions of the Royal Philosophical Society", 1665 г.) мы используем все тот же метод передачи научных знаний – статьи. Немецкая национальная научно-техническая библиотека TIB и исследовательский центр L3S при Университете Лейбница в Ганновере изобретают новый подход к научной коммуникации. Вместо того чтобы представлять исследования в виде статичных PDF файлов, они работают над динамическим графом знаний - Open Research Knowledge Graph, где научные идеи, подходы и методы представлены в структурированном машиночитаемом формате.

Odin_Himself 17 фев 2024 в 13:50

Как мы пытались разместить статью о новом виде спорта на Википедии, а ее украли роботы…

Средний

10 мин

4.8K

Открытые данные * Машинное обучение * Управление продуктом * Хранение данных *

Кейс

Recovery Mode

Здравствуйте, уважаемые читатели!

В этой статье будет проведен разбор одного практического случая - попытки разместить статью на ресурсе Википедия.
Будет дано подробное описание случая и представлены очень важные комментарии от специалиста в данной области.

Присутствует интрига, кульминация и простая развязка =)

finindie 15 фев 2024 в 17:55

Будет ли пенсия у родившихся в восьмидесятых?

Простой

12 мин

84K

Финансы в ITОткрытые данные *

Сразу извиняюсь за большую стену текста. Но тема сложная и важная, так что по-другому никак. В самом конце поста есть выжимка, содержащая суть публикации в 6 предложениях.

+260

987

Savvi 10 фев 2024 в 19:57

Звёзды-родственники: зачем и как мы их ищем, данные + код (Python)

9 мин

3.6K

АстрономияОткрытые данные * Математика * Алгоритмы * Python *

Аналитика

Из песочницы

✏️ Технотекст 2023

В настоящее время, благодаря передовым обсерваториям, космическим телескопам и миссиям, включающим (но не ограничивающимся) Hubble, Kepler, Gaia, возможности для изучения звезд и их скоплений вышли на новый уровень. Технологии позволяют не только проникнуть в глубины космоса, но и наблюдать реальность с невиданной ранее детализацией. Благодаря им и обнаруживаются "звёзды-родственники" (т.е. звёзды, образовавшиеся из одного облака). Эти объекты обладают схожими характеристиками, включая химический состав, возраст и скорость движения.

Выявление звезд общего происхождения имеет важное значение для наших попыток понять устройство мира на глобальном уровне.

В данной статье представлены возможности, которые открываются перед нами при исследовании звёзд общего происхождения, дан код и доступ к алгоритму, который позволит попробовать себя в роли астрофизика. Приведена информация для интерпретации результатов работы программы и предоставлена ссылка на все необходимые для погружения материалы, включая реальные данные аппарата Gaia (Европейское космическое агентство).

Посмотреть наверх

+16

shcham 19 янв 2024 в 18:08

Об импортозамещении MATLAB/Simulink на примере модели динамики авиационного средства поражения

Средний

6 мин

15K

GitHub * Matlab * Математика * Открытые данные *

Туториал

Когда-то давно меня попросили разработать модель динамики полета АСП (авиационного средства поражения) в отечественном ПО, в среде SimInTech, причем разработать не с нуля, а тупо повторив уже созданную ранее модель в Матлабе (с Симулинком), и любезно выложенную в публичный доступ на гитхабе.

Я подумал - почему бы и нет, ведь в Симинтеке есть практически все требуемые блоки, а каких нет, я доработаю по образу и подобию. Без погружения в детали, в конце концов так оно и вышло. Но мне справедливо возразили - а чем докажешь, что твоя модель считает в точности так же, в динамике, как и исходная матлабовская модель?

+44

v1st 14 янв 2024 в 13:30

OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ

Средний

9 мин

5.4K

Data Engineering * ERP-системы * Открытые данные *

Из песочницы

Судя по вакансиям на hh.ru, у некоторых компаний в русскоязычном сегменте наступила стадия принятия необходимости введения должности «Эксперт НСИ», хотя бы в виде функциональной роли.

Аббревиатурой «НСИ» (нормативно‑справочная информация) в компаниях может обозначаться достаточно широкий спектр источников информации, как структурированной (например таблицы единиц измерения или кодов операций в учётных системах и другие нетранзакционные данные), так и неструктурированной (тексты государственных или отраслевых стандартов, корпоративных организационно‑распорядительных документов и т. д.).

Нормализация и классификация записей справочников НСИ, в том числе справочника Номенклатур — одна из типовых функциональных обязанностей, входящих в описание роли «Эксперт НСИ».

Технически справочник НСИ в учётных системах может представляться в виде набора связанных таблиц в базе данных учётной системы, за содержание которых должен бы назначаться ответственный от бизнеса или группа таковых.

alisichkin 12 янв 2024 в 18:38

Кто будет после нас

Простой

3 мин

7.8K

Мессенджеры * Python * Программирование * Открытые данные * Облачные сервисы *

Мнение

Да, наши дети взрослеют, становятся старше и встает вопрос - кем они будут и какие знания мы им можем передать.

решили мы с сыном написть Telegram бот...

ViAndrey 31 дек 2023 в 11:11

Состязание трех Дедов Морозов: новогодние дашборды на Visiology

Простой

2 мин

2.3K

Блог компании VisiologyВизуализация данных * Открытые данные *

Привет, друзья! Сегодня уже 31 декабря, все кто еще не нарезал салат — готовятся к нарезке. :) А мы, тем временем, хотим показать вам несколько новогодних красивостей от Visiology и немного поговорить о том, почему BI — это не только данные, но также искусство и даже самовыражение!

thoughtspile 27 дек 2023 в 08:42

Hippotable — анализ данных прямо в браузере

Простой

5 мин

6.1K

JavaScript * Data Mining * Открытые данные * Статистика в IT

Сегодня я расскажу про hippotable — удобный инструмент для анализа данных. Мне часто нужно поковыряться в датасете среднего размера (1–100 Мб), чтобы ответить на довольно простые вопросы. Ни один из существующих инструментов (bash, google sheets, jupyter + pandas) не показался мне особо подходящим для такой задачи, и я... решил сделать свой! Хотел поделиться результатом, показать пару интересных JS-инструментов для обработки и отображения данных, и рассказать, как дальше планирую развивать продукт. Запрыгивайте, будет интересно.

+15

galimov_a 1 дек 2023 в 06:09

Лучшие патенты России за 2018-2022 года

Средний

17 мин

12K

Патентование * Исследования и прогнозы в IT * Визуализация данных * Открытые данные *

Аналитика

В своей прошлой статье я анализировал разные параметры патентной активности в РФ в 2018–2022 годах. Выяснилось, что очень много патентов на полезные модели ничего не стоят, а вузы создали конвейер по патентованию полезных моделей ради отчетности и показателей.

В этой статье я анализирую наиболее ценные патенты — те, по которым были осуществлены распоряжения правами (заключены лицензионные договоры, сублицензионные договоры, договоры отчуждения или договоры залога). Это объективный индикатор ценности патента, так как если кто‑то платит за него деньги, то, значит, он действительно нужен на рынке. Конечно, есть патенты, которые используют сами правообладатели, и они действительно могут приносить им большую пользу, но выявить их и оценить на практике не представляется возможным, поэтому, вероятно, часть действительно ценных патентов в эту статью не попала.

Код и исходные данные здесь.

Как осуществлялось исследование

Из открытых данных была собрана база всех заявок и выданных по ним патентов, отобраны патенты, по которым осуществлялось распоряжение интеллектуальными правами, обеспеченными этими патентами. Далее этот массив патентов анализировался.

vladischuk 26 окт 2023 в 13:50

Как мы обезличиваем ПДн, сохраняя их смысл и качество. Чтобы тестовый стенд был полезным, будто там данные с прода

Средний

18 мин

6.7K

Блог компании HFLabsХранение данных * Открытые данные * Тестирование IT-систем * Информационная безопасность *

Год назад мы выпустили «Маскировщик» — промышленный софт, который обезличивает персональные данные, сохраняя их качество и смысл. То есть гендерный баланс; социально‑демографическую структуру; родственные связи; страну и оператора в телефоне; валидность паспортов, ИНН, СНИЛС. В общем, «Маскировщик» делает так, чтобы вы тестировали продукты и обучали ML‑модели будто бы на «живых» ПД.

В этой статье пролью свет на методы изменения состава и семантики, которые использует продукт. Для простоты буду называть их «алгоритмами маскирования». Расскажу, по какой логике меняем одни данные другими, какие ограничения и как учитываем.

Разобраться в алгоритмах маскирования

+14

Marfa-Marfa 24 окт 2023 в 10:15

Выявление схожести между произведением искусства из коллекции музея и работами автора методами ML

Простой

13 мин

1.6K

Блог компании OTUSPython * Открытые данные * Машинное обучение * Искусственный интеллект

Кейс

Из песочницы

✏️ Технотекст 2023

Идею работы: «Похоже ли произведение искусства из коллекции музея на работы автора?» я придумала под датасет Музея MoMa. Конечно, хотелось бы установить: оригинал или подделка? Но для ответа на такой категоричный вопрос данных оказалось недостаточно.

У проекта было несколько целей. Разработка модели машинного обучения, способной оценить схожесть произведения искусства из коллекции музея на основе анализа её характеристик и работ автора, её создавшего. Исследование различных моделей машинного обучения для выявления схожести работ, таких как Logistic Regression, Decision Tree, Random Forest, LightGBM, CatBoost. Оценка точности и эффективности моделей, выбор лучшей. Выработка рекомендаций для дальнейшего улучшения системы выявления схожести, чтобы сделать её более точной и полезной для анализа произведений искусства.

snakers4 20 окт 2023 в 05:55

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

Простой

7 мин

25K

Открытые данные * Машинное обучение * IT-компанииNatural Language Processing *

Где-то неделю назад на Хабре увидел тезис другого автора о том, что мол НКРЯ поддерживается на бюджетные средства, но де-факто контролируется компанией Яндекс, которая ведёт себя как собака на сене и де-факто приватизировала корпус и никому его не даёт. Такое же примерно мнение слышал от людей, обозревающих интернет-тематику, мол национализация убытков, приватизация прибылей.

Статья не очень резонансная (и немного на другую тему) и по сути про неё все бы забыли на следующий день, но есть один нюанс. Почему-то разработчики корпуса даже появились в комментариях этой статьи. Я ответил на комментарий. И потом они появились уже в нашем уютном чатике в Телеграме, но уже с критикой моего комментария. Хм, с чего бы это? Два юзера на Хабре согласились с чем-то в комментариях (эка невидаль!), небожители обычно на такое не реагируют.

У меня сейчас довольно мало понимания, что там вообще происходит, но думаю довольно яркая позиция менеджмента и менеджеров высшего звена Яндекса всем вам известна, не будем ее дублировать, чтобы не нарушать правила Хабра (и прошу быть сдержанным в комментариях). Интерес представляют 3 вопроса. Кто там реально на сене? Кто всё-таки может получить доступ к НКРЯ? И последний, дискуссионный вопрос, а как правильно?

Давайте разберемся!

+137

1 2 3 4

6 7 ...

32 33

Открытые данные *

Обновлённый ЕМИСС: веб-приложение от непрограммиста

Использование открытых форматов для строительных проектов набирает обороты. Забудьте об использовании API и плагинов

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

О Wikidata для тех кто вообще не слышал: открытая база данных, сестринский проект Википедии — с ней же и интегрирован

Как мы выстроили систему визуализации ошибок с помощью Grafana и снизили время на их отработку с 2 часов до 15 секунд

Open Source спутниковая интерферометрия PyGMTSAR (Python InSAR)

Как сайты обнаруживают ботов по TLS

Open Research Knowledge Graph: новый подход к научной коммуникации

Как мы пытались разместить статью о новом виде спорта на Википедии, а ее украли роботы…

Будет ли пенсия у родившихся в восьмидесятых?

Звёзды-родственники: зачем и как мы их ищем, данные + код (Python)

Об импортозамещении MATLAB/Simulink на примере модели динамики авиационного средства поражения

OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ

Ближайшие события

Кто будет после нас

Состязание трех Дедов Морозов: новогодние дашборды на Visiology

Hippotable — анализ данных прямо в браузере

Лучшие патенты России за 2018-2022 года

Как мы обезличиваем ПДн, сохраняя их смысл и качество. Чтобы тестовый стенд был полезным, будто там данные с прода

Выявление схожести между произведением искусства из коллекции музея и работами автора методами ML

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

Вклад авторов