Как стать автором
Обновить
41.71

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Open Source спутниковая интерферометрия PyGMTSAR (Python InSAR)

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 763

С тех пор, как я рассказывал на хабре про мой открытый проект спутниковой интерферометрии PyGMTSAR (Python InSAR библиотека) для обработки и анализа радарных данных спутников Sentinel-1, прошло много времени и сегодня PyGMTSAR представляет собой наиболее мощный инструмент среди всех открытых InSAR. Притом, PyGMTSAR действительно общедоступен, поскольку не требует скачивать огромные данные, устанавливать программное обеспечение и так далее — достаточно просто открыть ссылки на Google Colab в браузере и посмотреть и запустить готовые примеры или адаптировать их для своей территории и области интереса. Предлагаемые Google Colab примеры включают в себя создание отдельных интерферограмм для анализа результатов сейсмических событий (землетрясений) и наводнений, создание рельефа, анализ серий интерферограмм для мониторинга оползней и проседаний грунта. И все эти возможности доступны в один клик онлайн на Google Colab и в Docker контейнерах. Для профессионалов предоставляется полностью программируемая среда для выполнения InSAR задач и интерактивной 3D визуализации, доступная на Google Colab, в Docker контейнерах, на GitHub Action runners, и, конечно, на локальных компьютерах и на облачных хостах.


Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Новости

Как сайты обнаруживают ботов по TLS

Уровень сложности Средний
Время на прочтение 3 мин
Количество просмотров 5K

Порой случается так что несмотря на то что мы в точности повторяем запрос к сайту из своего любимого HTTP клиента в ответ мы получаем ошибку. Но ведь в браузере запрос проходит! В чём же дело? В этой статье мы с этим разберемся!

Читать далее
Всего голосов 22: ↑21 и ↓1 +20
Комментарии 6

Open Research Knowledge Graph: новый подход к научной коммуникации

Уровень сложности Средний
Время на прочтение 3 мин
Количество просмотров 832

На сегодняшний день для представления и обмена результатами исследований мы используем методы, которые были разработаны много веков назад. С момента зарождения современной науки (публикации первого научного журнала "Transactions of the Royal Philosophical Society", 1665 г.) мы используем все тот же метод передачи научных знаний – статьи. Немецкая национальная научно-техническая библиотека TIB и исследовательский центр L3S при Университете Лейбница в Ганновере изобретают новый подход к научной коммуникации. Вместо того чтобы представлять исследования в виде статичных PDF файлов, они работают над динамическим графом знаний - Open Research Knowledge Graph, где научные идеи, подходы и методы представлены в структурированном машиночитаемом формате.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 2

Как мы пытались разместить статью о новом виде спорта на Википедии, а ее украли роботы…

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 4.2K

Здравствуйте, уважаемые читатели!

В этой статье будет проведен разбор одного практического случая - попытки разместить статью на ресурсе Википедия.
Будет дано подробное описание случая и представлены очень важные комментарии от специалиста в данной области.

Присутствует интрига, кульминация и простая развязка =)

Читать далее
Всего голосов 44: ↑24 и ↓20 +4
Комментарии 47

Истории

Будет ли пенсия у родившихся в восьмидесятых?

Уровень сложности Простой
Время на прочтение 12 мин
Количество просмотров 76K

Сразу извиняюсь за большую стену текста. Но тема сложная и важная, так что по-другому никак. В самом конце поста есть выжимка, содержащая суть публикации в 6 предложениях.

Читать далее
Всего голосов 279: ↑271 и ↓8 +263
Комментарии 987

Звёзды-родственники: зачем и как мы их ищем, данные + код (Python)

Время на прочтение 9 мин
Количество просмотров 2.9K

В настоящее время, благодаря передовым обсерваториям, космическим телескопам и миссиям, включающим (но не ограничивающимся) Hubble, Kepler, Gaia, возможности для изучения звезд и их скоплений вышли на новый уровень. Технологии позволяют не только проникнуть в глубины космоса, но и наблюдать реальность с невиданной ранее детализацией. Благодаря им и обнаруживаются "звёзды-родственники" (т.е. звёзды, образовавшиеся из одного облака). Эти объекты обладают схожими характеристиками, включая химический состав, возраст и скорость движения.

Выявление звезд общего происхождения имеет важное значение для наших попыток понять устройство мира на глобальном уровне.

В данной статье представлены возможности, которые открываются перед нами при исследовании звёзд общего происхождения, дан код и доступ к алгоритму, который позволит попробовать себя в роли астрофизика. Приведена информация для интерпретации результатов работы программы и предоставлена ссылка на все необходимые для погружения материалы, включая реальные данные аппарата Gaia (Европейское космическое агентство).

Посмотреть наверх
Всего голосов 16: ↑16 и ↓0 +16
Комментарии 0

Об импортозамещении MATLAB/Simulink на примере модели динамики авиационного средства поражения

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 11K

Когда-то давно меня попросили разработать модель динамики полета АСП (авиационного средства поражения) в отечественном ПО, в среде SimInTech, причем разработать не с нуля, а тупо повторив уже созданную ранее модель в Матлабе (с Симулинком), и любезно выложенную в публичный доступ на гитхабе.

Я подумал - почему бы и нет, ведь в Симинтеке есть практически все требуемые блоки, а каких нет, я доработаю по образу и подобию. Без погружения в детали, в конце концов так оно и вышло. Но мне справедливо возразили - а чем докажешь, что твоя модель считает в точности так же, в динамике, как и исходная матлабовская модель?

Читать далее
Всего голосов 82: ↑63 и ↓19 +44
Комментарии 44

OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 2.8K

Судя по вакансиям на hh.ru, у некоторых компаний в русскоязычном сегменте наступила стадия принятия необходимости введения должности «Эксперт НСИ», хотя бы в виде функциональной роли.

Аббревиатурой «НСИ» (нормативно‑справочная информация) в компаниях может обозначаться достаточно широкий спектр источников информации, как структурированной (например таблицы единиц измерения или кодов операций в учётных системах и другие нетранзакционные данные), так и неструктурированной (тексты государственных или отраслевых стандартов, корпоративных организационно‑распорядительных документов и т. д.).

Нормализация и классификация записей справочников НСИ, в том числе справочника Номенклатур — одна из типовых функциональных обязанностей, входящих в описание роли «Эксперт НСИ».

Технически справочник НСИ в учётных системах может представляться в виде набора связанных таблиц в базе данных учётной системы, за содержание которых должен бы назначаться ответственный от бизнеса или группа таковых.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 8

Кто будет после нас

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 7.6K

Да, наши дети взрослеют, становятся старше и встает вопрос - кем они будут и какие знания мы им можем передать.

решили мы с сыном написть Telegram бот...
Всего голосов 26: ↑15 и ↓11 +4
Комментарии 16

Состязание трех Дедов Морозов: новогодние дашборды на Visiology

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 2K

Привет, друзья! Сегодня уже 31 декабря, все кто еще не нарезал салат — готовятся к нарезке. :) А мы, тем временем, хотим показать вам несколько новогодних красивостей от Visiology и немного поговорить о том, почему BI — это не только данные, но также искусство и даже самовыражение!

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Комментарии 1

Hippotable — анализ данных прямо в браузере

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 4.7K

Сегодня я расскажу про hippotable — удобный инструмент для анализа данных. Мне часто нужно поковыряться в датасете среднего размера (1–100 Мб), чтобы ответить на довольно простые вопросы. Ни один из существующих инструментов (bash, google sheets, jupyter + pandas) не показался мне особо подходящим для такой задачи, и я... решил сделать свой! Хотел поделиться результатом, показать пару интересных JS-инструментов для обработки и отображения данных, и рассказать, как дальше планирую развивать продукт. Запрыгивайте, будет интересно.

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 13

Лучшие патенты России за 2018-2022 года

Уровень сложности Средний
Время на прочтение 17 мин
Количество просмотров 2.6K

В своей прошлой статье я анализировал разные параметры патентной активности в РФ в 2018–2022 годах. Выяснилось, что очень много патентов на полезные модели ничего не стоят, а вузы создали конвейер по патентованию полезных моделей ради отчетности и показателей.

В этой статье я анализирую наиболее ценные патенты — те, по которым были осуществлены распоряжения правами (заключены лицензионные договоры, сублицензионные договоры, договоры отчуждения или договоры залога). Это объективный индикатор ценности патента, так как если кто‑то платит за него деньги, то, значит, он действительно нужен на рынке. Конечно, есть патенты, которые используют сами правообладатели, и они действительно могут приносить им большую пользу, но выявить их и оценить на практике не представляется возможным, поэтому, вероятно, часть действительно ценных патентов в эту статью не попала.

Код и исходные данные здесь.

Как осуществлялось исследование

Из открытых данных  была собрана база всех заявок и выданных по ним патентов, отобраны патенты, по которым осуществлялось распоряжение интеллектуальными правами, обеспеченными этими патентами. Далее этот массив патентов анализировался.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Комментарии 17

Как мы обезличиваем ПДн, сохраняя их смысл и качество. Чтобы тестовый стенд был полезным, будто там данные с прода

Уровень сложности Средний
Время на прочтение 18 мин
Количество просмотров 3.9K

Год назад мы выпустили «Маскировщик» — промышленный софт, который обезличивает персональные данные, сохраняя их качество и смысл. То есть гендерный баланс; социально‑демографическую структуру; родственные связи; страну и оператора в телефоне; валидность паспортов, ИНН, СНИЛС. В общем, «Маскировщик» делает так, чтобы вы тестировали продукты и обучали ML‑модели будто бы на «живых» ПД.

В этой статье пролью свет на методы изменения состава и семантики, которые использует продукт. Для простоты буду называть их «алгоритмами маскирования». Расскажу, по какой логике меняем одни данные другими, какие ограничения и как учитываем.

Разобраться в алгоритмах маскирования
Всего голосов 14: ↑14 и ↓0 +14
Комментарии 7

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн

Выявление схожести между произведением искусства из коллекции музея и работами автора методами ML

Уровень сложности Простой
Время на прочтение 13 мин
Количество просмотров 1.3K

Идею работы: «Похоже ли произведение искусства из коллекции музея на работы автора?» я придумала под датасет Музея MoMa. Конечно, хотелось бы установить: оригинал или подделка? Но для ответа на такой категоричный вопрос данных оказалось недостаточно.

У проекта было несколько целей. Разработка модели машинного обучения, способной оценить схожесть произведения искусства из коллекции музея на основе анализа её характеристик и работ автора, её создавшего. Исследование различных моделей машинного обучения для выявления схожести работ, таких как Logistic Regression, Decision Tree, Random Forest, LightGBM, CatBoost. Оценка точности и эффективности моделей, выбор лучшей. Выработка рекомендаций для дальнейшего улучшения системы выявления схожести, чтобы сделать её более точной и полезной для анализа произведений искусства.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Комментарии 5

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 23K

Где-то неделю назад на Хабре увидел тезис другого автора о том, что мол НКРЯ поддерживается на бюджетные средства, но де-факто контролируется компанией Яндекс, которая ведёт себя как собака на сене и де-факто приватизировала корпус и никому его не даёт. Такое же примерно мнение слышал от людей, обозревающих интернет-тематику, мол национализация убытков, приватизация прибылей.

Статья не очень резонансная (и немного на другую тему) и по сути про неё все бы забыли на следующий день, но есть один нюанс. Почему-то разработчики корпуса даже появились в комментариях этой статьи. Я ответил на комментарий. И потом они появились уже в нашем уютном чатике в Телеграме, но уже с критикой моего комментария. Хм, с чего бы это? Два юзера на Хабре согласились с чем-то в комментариях (эка невидаль!), небожители обычно на такое не реагируют.

У меня сейчас довольно мало понимания, что там вообще происходит, но думаю довольно яркая позиция менеджмента и менеджеров высшего звена Яндекса всем вам известна, не будем ее дублировать, чтобы не нарушать правила Хабра (и прошу быть сдержанным в комментариях). Интерес представляют 3 вопроса. Кто там реально на сене? Кто всё-таки может получить доступ к НКРЯ? И последний, дискуссионный вопрос, а как правильно?

Давайте разберемся!
Всего голосов 154: ↑147 и ↓7 +140
Комментарии 70

40 лет GNU

Время на прочтение 10 мин
Количество просмотров 9.2K

Операционные системы имеют основополагающее значение для Интернета, каким мы его знаем сегодня, поскольку в настоящее время они обеспечивают работу миллионов серверов, компьютеров и других встроенных вычислительных устройств. Отдельное почётное место среди этого занимает ОС Linux (или GNU/Linux), используемая миллиардами человек во всём мире.

GNUUnix-подобная ОС с открытым исходным кодом, созданная 40 лет назад в 1983 году Ричардом Столлманом. GNU поддерживается Фондом свободного программного обеспечения (FSF), который первоначально был основан вокруг этого проекта, хотя позже он расширился и стал поддерживать другие проекты свободного ПО.

Если посмотреть на зарождение движения за свободное ПО — оно начинается с GNU. Система GNU — это не просто наиболее широко используемая ОС, основанная на свободном ПО. GNU также лежит в основе философии, которая направляла движение за свободное ПО на протяжении сорока лет.

А всё началось с плохо работающего принтера…
Читать дальше →
Всего голосов 55: ↑54 и ↓1 +53
Комментарии 19

Компьютерные решения больше не запатентовать

Уровень сложности Простой
Время на прочтение 23 мин
Количество просмотров 23K

Я патентный поверенный занимаюсь тем, что помогаю изобретателям получить патентную защиту их разработок (изобретений и полезных моделей).

В последнее время Роспатент начал, на мой взгляд, неправомерно выдавать отказы по разработкам, которые основаны на использовании компьютеров и прочей вычислительной техники.

Неправомерность, по моему мнению, основана на том, что если нормативные документы не поменялись, то в одностороннем порядке вдруг изменять критерии оценки недопустимо. Да, Роспатент сам устанавливает правила выдачи патентов, но это не значит, что ему можно их нарушать. Чтобы все было честно и прозрачно следовало бы изменить нормативные документы, но дело в том, что он хочет отказывать в выдаче только по одному типу решений, ради этого переписать правовую базу не получится.

С отказами в выдаче патентов столкнулся не только я, но и многие мои коллеги. Мне стало интересно, как изменился процент выдач патентов на компьютерные решения статистически, чтобы понять масштаб проблемы.

Забегая вперед скажу, что в результате анализа я нашел гораздо более интересные для мало знакомого с патентованием читателя кейсы.

Дальше я тезисно буду описывать, что делал и как, чтобы получить необходимые мне данные и какие интересные закономерности и факты нашел.

Читать далее
Всего голосов 77: ↑69 и ↓8 +61
Комментарии 63

Wi-Fi без Интернета на рейсе Southwest

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 14K

Недавний полет я провел, пытаясь выяснить, что можно сделать, подключившись к Wi-Fi на борту самолета, но без доступа к Интернету.

Читать далее
Всего голосов 26: ↑24 и ↓2 +22
Комментарии 23

Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации

Время на прочтение 6 мин
Количество просмотров 9.7K

Сегодня мы хотим поделиться новостью для всех, кто занимается анализом данных в области лингвистики и машинного обучения. Яндекс выкладывает в открытый доступ крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. Это 500 тысяч отзывов со всей России с января по июль 2023 года.

В этой статье я расскажу, чем полезны отзывы с точки зрения исследований, в чём особенность этого датасета, а также покажу примеры задач, которые можно решать с его помощью.

Читать далее
Всего голосов 38: ↑38 и ↓0 +38
Комментарии 14

Электоральная статистика выборов губернатора Московской области 2023 года

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 3.7K

По итогам голосования 8-10 сентября 2023 года Андрей Воробьев сохранил за собой должность губернатора Московской области. Официально опубликованный результат выборов следующие: 83.56% Воробьев А.Ю., 4.82% Жигарев К.С., 6.37% Наумов А.А., 4.06% Никитин А.Ю.

Попытаемся оценить электоральную статистику голосования, визуализировать ее, поискать аномалии.

На сайте ЦИК РФ по-прежнему присутствуют препоны для копирования первичных данных по участкам, поэтому эти данные взяты из телеграм-канала Бориса Надеждина.

Для начала рассмотрим диаграммы зависимости результатов победителя и суммы результатов проигравших от явки.

Читать далее
Всего голосов 11: ↑8 и ↓3 +5
Комментарии 20

Вклад авторов