Как стать автором
Поиск
Написать публикацию
Обновить
12.1

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Лучшие патенты России за 2018-2022 года

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров12K

В своей прошлой статье я анализировал разные параметры патентной активности в РФ в 2018–2022 годах. Выяснилось, что очень много патентов на полезные модели ничего не стоят, а вузы создали конвейер по патентованию полезных моделей ради отчетности и показателей.

В этой статье я анализирую наиболее ценные патенты — те, по которым были осуществлены распоряжения правами (заключены лицензионные договоры, сублицензионные договоры, договоры отчуждения или договоры залога). Это объективный индикатор ценности патента, так как если кто‑то платит за него деньги, то, значит, он действительно нужен на рынке. Конечно, есть патенты, которые используют сами правообладатели, и они действительно могут приносить им большую пользу, но выявить их и оценить на практике не представляется возможным, поэтому, вероятно, часть действительно ценных патентов в эту статью не попала.

Код и исходные данные здесь.

Как осуществлялось исследование

Из открытых данных  была собрана база всех заявок и выданных по ним патентов, отобраны патенты, по которым осуществлялось распоряжение интеллектуальными правами, обеспеченными этими патентами. Далее этот массив патентов анализировался.

Читать далее

Как мы обезличиваем ПДн, сохраняя их смысл и качество. Чтобы тестовый стенд был полезным, будто там данные с прода

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров6.4K

Год назад мы выпустили «Маскировщик» — промышленный софт, который обезличивает персональные данные, сохраняя их качество и смысл. То есть гендерный баланс; социально‑демографическую структуру; родственные связи; страну и оператора в телефоне; валидность паспортов, ИНН, СНИЛС. В общем, «Маскировщик» делает так, чтобы вы тестировали продукты и обучали ML‑модели будто бы на «живых» ПД.

В этой статье пролью свет на методы изменения состава и семантики, которые использует продукт. Для простоты буду называть их «алгоритмами маскирования». Расскажу, по какой логике меняем одни данные другими, какие ограничения и как учитываем.

Разобраться в алгоритмах маскирования

Выявление схожести между произведением искусства из коллекции музея и работами автора методами ML

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров1.6K

Идею работы: «Похоже ли произведение искусства из коллекции музея на работы автора?» я придумала под датасет Музея MoMa. Конечно, хотелось бы установить: оригинал или подделка? Но для ответа на такой категоричный вопрос данных оказалось недостаточно.

У проекта было несколько целей. Разработка модели машинного обучения, способной оценить схожесть произведения искусства из коллекции музея на основе анализа её характеристик и работ автора, её создавшего. Исследование различных моделей машинного обучения для выявления схожести работ, таких как Logistic Regression, Decision Tree, Random Forest, LightGBM, CatBoost. Оценка точности и эффективности моделей, выбор лучшей. Выработка рекомендаций для дальнейшего улучшения системы выявления схожести, чтобы сделать её более точной и полезной для анализа произведений искусства.

Читать далее

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров25K

Где-то неделю назад на Хабре увидел тезис другого автора о том, что мол НКРЯ поддерживается на бюджетные средства, но де-факто контролируется компанией Яндекс, которая ведёт себя как собака на сене и де-факто приватизировала корпус и никому его не даёт. Такое же примерно мнение слышал от людей, обозревающих интернет-тематику, мол национализация убытков, приватизация прибылей.

Статья не очень резонансная (и немного на другую тему) и по сути про неё все бы забыли на следующий день, но есть один нюанс. Почему-то разработчики корпуса даже появились в комментариях этой статьи. Я ответил на комментарий. И потом они появились уже в нашем уютном чатике в Телеграме, но уже с критикой моего комментария. Хм, с чего бы это? Два юзера на Хабре согласились с чем-то в комментариях (эка невидаль!), небожители обычно на такое не реагируют.

У меня сейчас довольно мало понимания, что там вообще происходит, но думаю довольно яркая позиция менеджмента и менеджеров высшего звена Яндекса всем вам известна, не будем ее дублировать, чтобы не нарушать правила Хабра (и прошу быть сдержанным в комментариях). Интерес представляют 3 вопроса. Кто там реально на сене? Кто всё-таки может получить доступ к НКРЯ? И последний, дискуссионный вопрос, а как правильно?

Давайте разберемся!

40 лет GNU

Время на прочтение10 мин
Количество просмотров11K

Операционные системы имеют основополагающее значение для Интернета, каким мы его знаем сегодня, поскольку в настоящее время они обеспечивают работу миллионов серверов, компьютеров и других встроенных вычислительных устройств. Отдельное почётное место среди этого занимает ОС Linux (или GNU/Linux), используемая миллиардами человек во всём мире.

GNUUnix-подобная ОС с открытым исходным кодом, созданная 40 лет назад в 1983 году Ричардом Столлманом. GNU поддерживается Фондом свободного программного обеспечения (FSF), который первоначально был основан вокруг этого проекта, хотя позже он расширился и стал поддерживать другие проекты свободного ПО.

Если посмотреть на зарождение движения за свободное ПО — оно начинается с GNU. Система GNU — это не просто наиболее широко используемая ОС, основанная на свободном ПО. GNU также лежит в основе философии, которая направляла движение за свободное ПО на протяжении сорока лет.

А всё началось с плохо работающего принтера…
Читать дальше →

Компьютерные решения больше не запатентовать

Уровень сложностиПростой
Время на прочтение23 мин
Количество просмотров23K

Я патентный поверенный занимаюсь тем, что помогаю изобретателям получить патентную защиту их разработок (изобретений и полезных моделей).

В последнее время Роспатент начал, на мой взгляд, неправомерно выдавать отказы по разработкам, которые основаны на использовании компьютеров и прочей вычислительной техники.

Неправомерность, по моему мнению, основана на том, что если нормативные документы не поменялись, то в одностороннем порядке вдруг изменять критерии оценки недопустимо. Да, Роспатент сам устанавливает правила выдачи патентов, но это не значит, что ему можно их нарушать. Чтобы все было честно и прозрачно следовало бы изменить нормативные документы, но дело в том, что он хочет отказывать в выдаче только по одному типу решений, ради этого переписать правовую базу не получится.

С отказами в выдаче патентов столкнулся не только я, но и многие мои коллеги. Мне стало интересно, как изменился процент выдач патентов на компьютерные решения статистически, чтобы понять масштаб проблемы.

Забегая вперед скажу, что в результате анализа я нашел гораздо более интересные для мало знакомого с патентованием читателя кейсы.

Дальше я тезисно буду описывать, что делал и как, чтобы получить необходимые мне данные и какие интересные закономерности и факты нашел.

Читать далее

Wi-Fi без Интернета на рейсе Southwest

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров14K

Недавний полет я провел, пытаясь выяснить, что можно сделать, подключившись к Wi-Fi на борту самолета, но без доступа к Интернету.

Читать далее

Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации

Время на прочтение6 мин
Количество просмотров12K

Сегодня мы хотим поделиться новостью для всех, кто занимается анализом данных в области лингвистики и машинного обучения. Яндекс выкладывает в открытый доступ крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. Это 500 тысяч отзывов со всей России с января по июль 2023 года.

В этой статье я расскажу, чем полезны отзывы с точки зрения исследований, в чём особенность этого датасета, а также покажу примеры задач, которые можно решать с его помощью.

Читать далее

Электоральная статистика выборов губернатора Московской области 2023 года

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров4K

По итогам голосования 8-10 сентября 2023 года Андрей Воробьев сохранил за собой должность губернатора Московской области. Официально опубликованный результат выборов следующие: 83.56% Воробьев А.Ю., 4.82% Жигарев К.С., 6.37% Наумов А.А., 4.06% Никитин А.Ю.

Попытаемся оценить электоральную статистику голосования, визуализировать ее, поискать аномалии.

На сайте ЦИК РФ по-прежнему присутствуют препоны для копирования первичных данных по участкам, поэтому эти данные взяты из телеграм-канала Бориса Надеждина.

Для начала рассмотрим диаграммы зависимости результатов победителя и суммы результатов проигравших от явки.

Читать далее

Анализируем хоккеистов с помощью Python. Часть 1 — о том, как тесен мир

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.5K

Привет, Хабр! Эта статья посвящена исследованию о том, насколько тесен мир хоккея.

Меня зовут Рашит Гафаров, я начинающий дата-инженер и выпускник Яндекс Практикума. Мы с наставницей Юлией Муртазиной и ещё пятью студентами проанализировали с помощью Pytnon связи между хоккеистами в КХЛ.

За референс взяли расчёт числа Эрдёша-Бэйкона — шуточное расстояние между математиками или актёрами.

Читать далее

Почему мой любимый API — это файл zip на сайте Европейского центрального банка

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров31K

Когда был максимальный курс доллара к евро?

Вот небольшая программа, вычисляющая это:

curl -s https://www.ecb.europa.eu/stats/eurofxref/eurofxref-hist.zip \ | gunzip \ | sqlite3 -csv ':memory:' '.import /dev/stdin stdin' \ "select Date from stdin order by USD asc limit 1;"

Результат: 2000-10-26. (Можете попробовать запустить её самостоятельно.)

Читать далее

Занимательные картинки электоральной статистики на выборах в Государственную Думу 2021 года по 118 ОИК

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров4.7K

В первой и второй предыдущих статьях на данную тему мы рассматривали аномалии выборной статистики по 125 избирательному округу по партийным спискам на выборах в Государственную Думу 2021 года, теперь сместимся по Подмосковью северо-западнее и рассмотрим электоральные аномалии по результатов выборов по 118 одномандатному избирательному округу.

В связи с отсутствие нормальной возможности копировать первичные данные УИК с сайта ЦИК РФ, данные взяты из телеграм-канала t.me/RUElectionData.

Для начала Вашему вниманию итоги выборов по одномандатному округу.

Читать далее

Аномалии электоральной статистики на выборах в Государственную Думу 2021 года по 125 ОИК, КОИБ or not КОИБ

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров8.5K

В статье 2021 года мы пронаблюдали аномалии результатам выборов в Государственную думы 2021 года подмосковному 125 избирательному округу. На некоторых избирательных участках прослеживались аномалии явки, аномалии темпа голосования в последние часы выборов, причем часто эти аномалии коррелировали с очень хорошими результатами партии Единая Россия.

Недавно в телеграмм канале общественного деятеля Бориса Надеждина был опубликован перечень подмосковных избирательных участков оборудованных Комплексом обрабо́тки избирательных бюллетеней (КОИБ). В связи с появлением новых исходных данных возникло желание сравнить результаты выборов 2021 на участках, оборудованных КОИБ и не оборудованных.

Вот что получилось.

Читать далее

Ближайшие события

Reinforcement Learning from Human Feedback: когда одной математики мало

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров4.6K

Сотни людей собрались на конференции ICML на туториале про обучение с подкреплением на основе отзывов (reinforcement learning from human feedback, RLHF). Докладчик спросил, кто хочет размечать данные. Пять, быть может, десять человек подняло руки. И это никого не удивило.

Что было дальше?

Основы парсинга на Python: от Requests до Selenium

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров164K

Бывают ситуации, когда нужно автоматизировать сбор и анализ данных из разных источников. Например, если хочется мониторить курс рубля в режиме реального времени. Для решения подобных задач применяют парсинг.

В этой статье кратко рассказываем, как парсить данные веб-сайтов с помощью Python. Пособие подойдет новичкам и продолжающим — сохраняйте статью в закладки и задавайте вопросы в комментариях. Подробности под катом!
Читать дальше →

Как дела у IT-бизнеса в России

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров10K

В 2022 году из России ушли мировые IT-лидеры, ограничив использование своих программных продуктов. Порядка 100 тыс. работников отрасли покинули Россию.
Как это сказалось на финансовых результатах IT-отрасли?

Читать далее

Анализ данных по метеорологическим станциям с помощью Pandas

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров12K

В статье будет рассмотрено решение задачи анализа открытых метеорологических данных сервиса meteo.ru Федеральной службы по гидрометеорологии и мониторингу окружающей среды. Анализ будет произведен в Jupyter Notebook при помощи Python библиотеки Pandas, а также будут сделаны выводы относительно того какие изменения произошли в климате за последние 50 лет в нашей стране. Вы узнаете еще одну страшную правду о глобальном потеплении…

Узнать правду

Скрепинг данных с Chat GPT

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров4.1K

Всем привет! 

Хочу поделиться своим опытом программирования с помощью чат GTP. У меня была коммерческая задача - нужно было собрать контактную информация с сайта yelp.com по выборке рестораны и бары. Это была часть процесса лидогенерации. Парсер должен был состоять из двух частей: Первый — собрать URL-адреса всех компаний, которые появляются в результатах поиска. 

Затем он просматривает каждую страницу и собирает данные, как название компании, веб-сайт, описание, адрес, контактную информацию и вертикаль.

Скажу сразу, я не разработчик, писать парсеры и скреперы не умею. Прошла базовый курс JavaScript, но честно говоря, мой 12-летний сын, знает об этом больше, чем я :) 

Просить помощи программистов было сложно, нужно было быстро, а вы сами знаете, какие у них очереди в разработке. Поэтому в большинстве случаев я прибегаю к старому доброму ручному “copy - paste”. 

Но сейчас я решила попробовать что-то новое. Я посмотрела кучу видеороликов на YouTube о парсинге веб-страниц и по рекомендации решила попробовать двух поставщиков готовых платформенных решений:

Читать далее

Получаем сертификат ЦРУ перебирая архивы

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров5.5K

Когда-то давно передо мной стояла задача по поиску файлов на ресурсах, которые могли уже не работать или определённые данные с них были удалены. Тогда для этой цели я использовал веб архивы Common Crawl и самопальный инструмент для автоматизации взаимодействия с ним.

Сейчас мне понадобилось решить схожую задачу, но Common Crawl упал и пока не встаёт… Поэтому было принято решение допилить свой инструмент до уровня скоростного велосипеда с использованием Wayback Machine и поделиться небольшим опытом извлечения архивных данных.

Не погружаясь сильно в детали, далее, в общих чертах я опишу что используют сервисы для архивации, как мы можем этим пользоваться через API, а в конце мы сертифицируемся по-ЦРУшному используя инструмент GoGetCrawl.

Хочу сертификат

HRTech, стартапы и автоматизация HR функций

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.6K

2023год, много всего происходит, кто ИИ внедряет, кто тестирует и уже заменяет профессии. Но Есть сфера которая мне ближе всего - это HR. И стало интересно, а какие технологии и стартапы внедряются и внедрены сейчас. Какой их потенциал в будущее. Что вообще в HRTech происходит в России. Именно с таким запросом я взялся анализировать и собирать информацию.

Читать далее