Как стать автором
Поиск
Написать публикацию
Обновить
12.1

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Хабр, GPT, корпоративные блоги и БМЛы: оцениваем глубины ужаса

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров21K

Я не испытываю ненависти ни к корпоративным блогам, как таковым, ни к большим языковым моделям в целом. А вот к мусорному контенту, созданному левой пяткой ради ссылок на сайт или телеграм-канал - испытываю, и еще как. И как раз вот тут встретились два одиночества - ленивые копирайтеры мусоропроизводители и генеративные сети. Получилась, как вы понимаете, вовсе не конфетка.

Долго работая с LLM и GPT, неизбежно начинаешь замечать характерные паттерны, обороты, формулировки, характерные для генеративного контента. Наткнувшись на очередную очевидно генеративную статью и убедившись, что из таких статей у компании состоит весь блог, я решила исследовать это дело подробнее и желательно - автоматически.

За подробностями, результатами, ужасом и даже кодом на VB.NET приглашаю под кат!

Читать далее

Борьба за открытые данные в строительной отрасли. История появления AUTOLISP, SDK, intelliCAD, openDWG, ODA, openCASCADE

Уровень сложностиПростой
Время на прочтение50 мин
Количество просмотров5K

Апрель 2024 года ознаменовался особым событием для строительной отрасли: два ведущих производителя CAD (BIM) систем, чьи инструменты используются для создания значительной части документации по строительным проектам, объявили в совместном коммюнике о начале продвижения открытых и совместимых рабочих процессов.

◾️ Но что стоит за этим решением?
◾️ Как сами CAD (BIM) вендоры обрабатывают данные из других CAD (BIM)? 
◾️ Кто первыми открывал проприетарные форматы CAD вендоров?
◾️ Как инструмент LISP, повлиял на создание intelliCAD и альянса OpenDWG?
◾️ Как мировая строительная отрасль зависит от степени открытости форматов данных?◾️ Откуда появились первые открытые альянсы и инициативы в CAD отрасли? 

Эти и многие другие вопросы по теме данных в строительной отрасли мы рассмотрим, опираясь на исторические данные и факты.

Читать далее

История создания API для курса валют

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4K

В этой статье рассказываю, что побудило меня создать свой API для конвертации валют и получения актуального курса от различных источников. Начиная от анализа потребностей в онлайн-платежах и заканчивая разработкой гибкого и эффективного микросервиса. Демонстрирую вызовы, с которыми столкнулся в процессе разработки, а также описываю функциональности и возможности созданного сервиса. Приглашаю к обсуждению и обмену опытом в этой области.

Читать далее

Чем мы дышим? Почему я бы не доверял Яндекс.Погоде, Google и IQAir

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.6K

Давайте поговорим о воздухе в Хабаровске. Сейчас там серьезная проблема: город занесло дымом от лесных пожаров. Но интересно, какая у нас информация о качестве воздуха?

Читать далее

Обновлённый ЕМИСС: веб-приложение от непрограммиста

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.8K

Меня зовут Александр, я активно исследую экономические данные, строю регрессии, ML-модели. Данные использую разные: перекрёстные, панельные, временные.
По специфике своей работы часто пользуюсь ЕМИСС. ЕМИСС — это кладезь социально-экономических данных, но и одновременно платформа, которая может довести до головных болей и дергающегося глаза, а то и двух сразу.

Поставим себе, например, задачу выяснить, как влияет Х на У. Возьмём в качестве объектов наблюдения — регионы РФ. И тут нас будут ждать сюрпризы. Как быстро, не вырывая волосы из головы, получить две колонки данных за последний год по субъектам? Мы, конечно, можем использовать VLOOKUP/XLOOKUP в экселе и всё такое. Но нам встретятся обязательно двойняшки (тройняшки): «г. Москва» и «Город Москва столица Российской Федерации город федерального значения»; «Кемеровская область - Кузбасс» и «Кемеровская область — Кузбасс». Да, мелочи, но неприятно бороться с этими исключениями вручную.

Читать далее

Использование открытых форматов для строительных проектов набирает обороты. Забудьте об использовании API и плагинов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.7K

В 2024 году ни одна крупная компания в мире, работающая с CAD (BIM) данными, не получает доступ к данным из CAD (BIM) программ через API или плагины.

Все крупные компании, работающие с форматами CAD (BIM), работают с определенными SDK, а форматы, содержащие данные о строительных проектах становятся взаимозаменяемы.

Читать далее

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.6K

Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).

Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.

Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).

Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.

Давайте смотреть датасет

О Wikidata для тех кто вообще не слышал: открытая база данных, сестринский проект Википедии — с ней же и интегрирован

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров6.4K

Здравствуйте, на Хабре не много о Викиданных, хочу рассказать об этом бесплатном открытом интересном и полезном сервисе. Веб интерфейс располагается по адресу https://www.wikidata.org/wiki/Wikidata:Main_Page.

Читать далее

Как мы выстроили систему визуализации ошибок с помощью Grafana и снизили время на их отработку с 2 часов до 15 секунд

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров11K

Я работаю в DataNewton сервисе для скрининга контрагентов. Данные, которые мы предоставляем, берутся из 43-х официальных источников. Чаще всего это базы данных государственных сервисов. И тут есть проблема: такие сервисы любят менять формат массивов, в которых они отдают данные. Например, недавно один из них без предупреждения поле «name» поменял на «firstname», из-за чего могли полететь многие названия компаний. Но мы быстро увидели это в самодельной панели и предотвратили ошибку, которая для нашего сервиса была бы критической.

Как мы построили визуальное отображение ошибок — рассказываем в статье.

Читать далее

Open Source спутниковая интерферометрия PyGMTSAR (Python InSAR)

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.1K

С тех пор, как я рассказывал на хабре про мой открытый проект спутниковой интерферометрии PyGMTSAR (Python InSAR библиотека) для обработки и анализа радарных данных спутников Sentinel-1, прошло много времени и сегодня PyGMTSAR представляет собой наиболее мощный инструмент среди всех открытых InSAR. Притом, PyGMTSAR действительно общедоступен, поскольку не требует скачивать огромные данные, устанавливать программное обеспечение и так далее — достаточно просто открыть ссылки на Google Colab в браузере и посмотреть и запустить готовые примеры или адаптировать их для своей территории и области интереса. Предлагаемые Google Colab примеры включают в себя создание отдельных интерферограмм для анализа результатов сейсмических событий (землетрясений) и наводнений, создание рельефа, анализ серий интерферограмм для мониторинга оползней и проседаний грунта. И все эти возможности доступны в один клик онлайн на Google Colab и в Docker контейнерах. Для профессионалов предоставляется полностью программируемая среда для выполнения InSAR задач и интерактивной 3D визуализации, доступная на Google Colab, в Docker контейнерах, на GitHub Action runners, и, конечно, на локальных компьютерах и на облачных хостах.


Читать дальше →

Как сайты обнаруживают ботов по TLS

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров8.5K

Порой случается так что несмотря на то что мы в точности повторяем запрос к сайту из своего любимого HTTP клиента в ответ мы получаем ошибку. Но ведь в браузере запрос проходит! В чём же дело? В этой статье мы с этим разберемся!

Читать далее

Open Research Knowledge Graph: новый подход к научной коммуникации

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.3K

На сегодняшний день для представления и обмена результатами исследований мы используем методы, которые были разработаны много веков назад. С момента зарождения современной науки (публикации первого научного журнала "Transactions of the Royal Philosophical Society", 1665 г.) мы используем все тот же метод передачи научных знаний – статьи. Немецкая национальная научно-техническая библиотека TIB и исследовательский центр L3S при Университете Лейбница в Ганновере изобретают новый подход к научной коммуникации. Вместо того чтобы представлять исследования в виде статичных PDF файлов, они работают над динамическим графом знаний - Open Research Knowledge Graph, где научные идеи, подходы и методы представлены в структурированном машиночитаемом формате.

Читать далее

Как мы пытались разместить статью о новом виде спорта на Википедии, а ее украли роботы…

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров4.7K

Здравствуйте, уважаемые читатели!

В этой статье будет проведен разбор одного практического случая - попытки разместить статью на ресурсе Википедия.
Будет дано подробное описание случая и представлены очень важные комментарии от специалиста в данной области.

Присутствует интрига, кульминация и простая развязка =)

Читать далее

Ближайшие события

Будет ли пенсия у родившихся в восьмидесятых?

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров84K

Сразу извиняюсь за большую стену текста. Но тема сложная и важная, так что по-другому никак. В самом конце поста есть выжимка, содержащая суть публикации в 6 предложениях.

Читать далее

Звёзды-родственники: зачем и как мы их ищем, данные + код (Python)

Время на прочтение9 мин
Количество просмотров3.5K

В настоящее время, благодаря передовым обсерваториям, космическим телескопам и миссиям, включающим (но не ограничивающимся) Hubble, Kepler, Gaia, возможности для изучения звезд и их скоплений вышли на новый уровень. Технологии позволяют не только проникнуть в глубины космоса, но и наблюдать реальность с невиданной ранее детализацией. Благодаря им и обнаруживаются "звёзды-родственники" (т.е. звёзды, образовавшиеся из одного облака). Эти объекты обладают схожими характеристиками, включая химический состав, возраст и скорость движения.

Выявление звезд общего происхождения имеет важное значение для наших попыток понять устройство мира на глобальном уровне.

В данной статье представлены возможности, которые открываются перед нами при исследовании звёзд общего происхождения, дан код и доступ к алгоритму, который позволит попробовать себя в роли астрофизика. Приведена информация для интерпретации результатов работы программы и предоставлена ссылка на все необходимые для погружения материалы, включая реальные данные аппарата Gaia (Европейское космическое агентство).

Посмотреть наверх

Об импортозамещении MATLAB/Simulink на примере модели динамики авиационного средства поражения

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров14K

Когда-то давно меня попросили разработать модель динамики полета АСП (авиационного средства поражения) в отечественном ПО, в среде SimInTech, причем разработать не с нуля, а тупо повторив уже созданную ранее модель в Матлабе (с Симулинком), и любезно выложенную в публичный доступ на гитхабе.

Я подумал - почему бы и нет, ведь в Симинтеке есть практически все требуемые блоки, а каких нет, я доработаю по образу и подобию. Без погружения в детали, в конце концов так оно и вышло. Но мне справедливо возразили - а чем докажешь, что твоя модель считает в точности так же, в динамике, как и исходная матлабовская модель?

Читать далее

OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров5.1K

Судя по вакансиям на hh.ru, у некоторых компаний в русскоязычном сегменте наступила стадия принятия необходимости введения должности «Эксперт НСИ», хотя бы в виде функциональной роли.

Аббревиатурой «НСИ» (нормативно‑справочная информация) в компаниях может обозначаться достаточно широкий спектр источников информации, как структурированной (например таблицы единиц измерения или кодов операций в учётных системах и другие нетранзакционные данные), так и неструктурированной (тексты государственных или отраслевых стандартов, корпоративных организационно‑распорядительных документов и т. д.).

Нормализация и классификация записей справочников НСИ, в том числе справочника Номенклатур — одна из типовых функциональных обязанностей, входящих в описание роли «Эксперт НСИ».

Технически справочник НСИ в учётных системах может представляться в виде набора связанных таблиц в базе данных учётной системы, за содержание которых должен бы назначаться ответственный от бизнеса или группа таковых.

Читать далее

Кто будет после нас

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров7.8K

Да, наши дети взрослеют, становятся старше и встает вопрос - кем они будут и какие знания мы им можем передать.

решили мы с сыном написть Telegram бот...

Состязание трех Дедов Морозов: новогодние дашборды на Visiology

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.3K

Привет, друзья! Сегодня уже 31 декабря, все кто еще не нарезал салат — готовятся к нарезке. :) А мы, тем временем, хотим показать вам несколько новогодних красивостей от Visiology и немного поговорить о том, почему BI — это не только данные, но также искусство и даже самовыражение!

Читать далее

Hippotable — анализ данных прямо в браузере

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров5.9K

Сегодня я расскажу про hippotable — удобный инструмент для анализа данных. Мне часто нужно поковыряться в датасете среднего размера (1–100 Мб), чтобы ответить на довольно простые вопросы. Ни один из существующих инструментов (bash, google sheets, jupyter + pandas) не показался мне особо подходящим для такой задачи, и я... решил сделать свой! Хотел поделиться результатом, показать пару интересных JS-инструментов для обработки и отображения данных, и рассказать, как дальше планирую развивать продукт. Запрыгивайте, будет интересно.

Читать далее