Открытые данные *

Данные будут свободны!

СтатьиПостыНовостиАвторыКомпании

TilekSamiev 17 окт 2023 в 08:01

40 лет GNU

10 мин

11K

Блог компании Timeweb CloudOpen source * История ITОткрытые данные * Софт

Операционные системы имеют основополагающее значение для Интернета, каким мы его знаем сегодня, поскольку в настоящее время они обеспечивают работу миллионов серверов, компьютеров и других встроенных вычислительных устройств. Отдельное почётное место среди этого занимает ОС Linux (или GNU/Linux), используемая миллиардами человек во всём мире.

GNU — Unix-подобная ОС с открытым исходным кодом, созданная 40 лет назад в 1983 году Ричардом Столлманом. GNU поддерживается Фондом свободного программного обеспечения (FSF), который первоначально был основан вокруг этого проекта, хотя позже он расширился и стал поддерживать другие проекты свободного ПО.

Если посмотреть на зарождение движения за свободное ПО — оно начинается с GNU. Система GNU — это не просто наиболее широко используемая ОС, основанная на свободном ПО. GNU также лежит в основе философии, которая направляла движение за свободное ПО на протяжении сорока лет.

А всё началось с плохо работающего принтера…

Читать дальше →

+50

galimov_a 7 окт 2023 в 09:46

Компьютерные решения больше не запатентовать

Простой

23 мин

23K

Python * Открытые данные * Визуализация данных * Исследования и прогнозы в IT *

Из песочницы

Я патентный поверенный занимаюсь тем, что помогаю изобретателям получить патентную защиту их разработок (изобретений и полезных моделей).

В последнее время Роспатент начал, на мой взгляд, неправомерно выдавать отказы по разработкам, которые основаны на использовании компьютеров и прочей вычислительной техники.

Неправомерность, по моему мнению, основана на том, что если нормативные документы не поменялись, то в одностороннем порядке вдруг изменять критерии оценки недопустимо. Да, Роспатент сам устанавливает правила выдачи патентов, но это не значит, что ему можно их нарушать. Чтобы все было честно и прозрачно следовало бы изменить нормативные документы, но дело в том, что он хочет отказывать в выдаче только по одному типу решений, ради этого переписать правовую базу не получится.

С отказами в выдаче патентов столкнулся не только я, но и многие мои коллеги. Мне стало интересно, как изменился процент выдач патентов на компьютерные решения статистически, чтобы понять масштаб проблемы.

Забегая вперед скажу, что в результате анализа я нашел гораздо более интересные для мало знакомого с патентованием читателя кейсы.

Дальше я тезисно буду описывать, что делал и как, чтобы получить необходимые мне данные и какие интересные закономерности и факты нашел.

+58

ris58h 4 окт 2023 в 16:29

Wi-Fi без Интернета на рейсе Southwest

Простой

4 мин

14K

Открытые данные * Визуализация данных * Лайфхаки для гиков

Кейс

Перевод

Недавний полет я провел, пытаясь выяснить, что можно сделать, подключившись к Wi-Fi на борту самолета, но без доступа к Интернету.

+22

kmeans 29 сен 2023 в 07:00

Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации

6 мин

12K

Блог компании ЯндексМашинное обучение * Открытые данные * Алгоритмы * Open source *

Сегодня мы хотим поделиться новостью для всех, кто занимается анализом данных в области лингвистики и машинного обучения. Яндекс выкладывает в открытый доступ крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. Это 500 тысяч отзывов со всей России с января по июль 2023 года.

В этой статье я расскажу, чем полезны отзывы с точки зрения исследований, в чём особенность этого датасета, а также покажу примеры задач, которые можно решать с его помощью.

+38

Canopus77 28 сен 2023 в 23:16

Электоральная статистика выборов губернатора Московской области 2023 года

Простой

4 мин

Статистика в ITВизуализация данных * Открытые данные *

По итогам голосования 8-10 сентября 2023 года Андрей Воробьев сохранил за собой должность губернатора Московской области. Официально опубликованный результат выборов следующие: 83.56% Воробьев А.Ю., 4.82% Жигарев К.С., 6.37% Наумов А.А., 4.06% Никитин А.Ю.

Попытаемся оценить электоральную статистику голосования, визуализировать ее, поискать аномалии.

На сайте ЦИК РФ по-прежнему присутствуют препоны для копирования первичных данных по участкам, поэтому эти данные взяты из телеграм-канала Бориса Надеждина.

Для начала рассмотрим диаграммы зависимости результатов победителя и суммы результатов проигравших от явки.

CurasaoRG 26 сен 2023 в 15:14

Анализируем хоккеистов с помощью Python. Часть 1 — о том, как тесен мир

Средний

8 мин

2.5K

Блог компании Яндекс ПрактикумЗанимательные задачкиPython * Открытые данные *

Туториал

Привет, Хабр! Эта статья посвящена исследованию о том, насколько тесен мир хоккея.

Меня зовут Рашит Гафаров, я начинающий дата-инженер и выпускник Яндекс Практикума. Мы с наставницей Юлией Муртазиной и ещё пятью студентами проанализировали с помощью Pytnon связи между хоккеистами в КХЛ.

За референс взяли расчёт числа Эрдёша-Бэйкона — шуточное расстояние между математиками или актёрами.

PatientZero 16 сен 2023 в 10:16

Почему мой любимый API — это файл zip на сайте Европейского центрального банка

Простой

7 мин

31K

Интерфейсы * Проектирование API * Открытые данные * Визуализация данных *

Обзор

Перевод

Когда был максимальный курс доллара к евро?

Вот небольшая программа, вычисляющая это:

curl -s https://www.ecb.europa.eu/stats/eurofxref/eurofxref-hist.zip \ | gunzip \ | sqlite3 -csv ':memory:' '.import /dev/stdin stdin' \ "select Date from stdin order by USD asc limit 1;"

Результат: 2000-10-26. (Можете попробовать запустить её самостоятельно.)

+72

Canopus77 7 сен 2023 в 22:49

Занимательные картинки электоральной статистики на выборах в Государственную Думу 2021 года по 118 ОИК

Простой

2 мин

4.8K

Открытые данные * Визуализация данных * Статистика в IT

В первой и второй предыдущих статьях на данную тему мы рассматривали аномалии выборной статистики по 125 избирательному округу по партийным спискам на выборах в Государственную Думу 2021 года, теперь сместимся по Подмосковью северо-западнее и рассмотрим электоральные аномалии по результатов выборов по 118 одномандатному избирательному округу.

В связи с отсутствие нормальной возможности копировать первичные данные УИК с сайта ЦИК РФ, данные взяты из телеграм-канала t.me/RUElectionData.

Для начала Вашему вниманию итоги выборов по одномандатному округу.

+33

Canopus77 6 сен 2023 в 18:15

Аномалии электоральной статистики на выборах в Государственную Думу 2021 года по 125 ОИК, КОИБ or not КОИБ

Простой

3 мин

8.5K

Открытые данные * Визуализация данных * Статистика в IT

В статье 2021 года мы пронаблюдали аномалии результатам выборов в Государственную думы 2021 года подмосковному 125 избирательному округу. На некоторых избирательных участках прослеживались аномалии явки, аномалии темпа голосования в последние часы выборов, причем часто эти аномалии коррелировали с очень хорошими результатами партии Единая Россия.

Недавно в телеграмм канале общественного деятеля Бориса Надеждина был опубликован перечень подмосковных избирательных участков оборудованных Комплексом обрабо́тки избирательных бюллетеней (КОИБ). В связи с появлением новых исходных данных возникло желание сравнить результаты выборов 2021 на участках, оборудованных КОИБ и не оборудованных.

Вот что получилось.

+32

dustalov 21 авг 2023 в 13:06

Reinforcement Learning from Human Feedback: когда одной математики мало

Средний

13 мин

4.8K

Big Data * Открытые данные * Машинное обучение * Искусственный интеллект

Туториал

Перевод

Сотни людей собрались на конференции ICML на туториале про обучение с подкреплением на основе отзывов (reinforcement learning from human feedback, RLHF). Докладчик спросил, кто хочет размечать данные. Пять, быть может, десять человек подняло руки. И это никого не удивило.

Что было дальше?

Doctor_IT 15 авг 2023 в 10:29

Основы парсинга на Python: от Requests до Selenium

Простой

5 мин

179K

Блог компании SelectelPython * Веб-аналитика * Открытые данные * Программирование *

Бывают ситуации, когда нужно автоматизировать сбор и анализ данных из разных источников. Например, если хочется мониторить курс рубля в режиме реального времени. Для решения подобных задач применяют парсинг.

В этой статье кратко рассказываем, как парсить данные веб-сайтов с помощью Python. Пособие подойдет новичкам и продолжающим — сохраняйте статью в закладки и задавайте вопросы в комментариях. Подробности под катом!

Читать дальше →

+36

valentinak 7 июл 2023 в 12:04

Как дела у IT-бизнеса в России

Простой

7 мин

10K

Блог компании DatanomicaОткрытые данные * Статистика в ITIT-компании

Аналитика

В 2022 году из России ушли мировые IT-лидеры, ограничив использование своих программных продуктов. Порядка 100 тыс. работников отрасли покинули Россию.
Как это сказалось на финансовых результатах IT-отрасли?

+13

egor_why 2 июл 2023 в 22:17

Анализ данных по метеорологическим станциям с помощью Pandas

Средний

19 мин

12K

ЭкологияНаучно-популярноеВизуализация данных * Открытые данные * Python *

Туториал

Из песочницы

В статье будет рассмотрено решение задачи анализа открытых метеорологических данных сервиса meteo.ru Федеральной службы по гидрометеорологии и мониторингу окружающей среды. Анализ будет произведен в Jupyter Notebook при помощи Python библиотеки Pandas, а также будут сделаны выводы относительно того какие изменения произошли в климате за последние 50 лет в нашей стране. Вы узнаете еще одну страшную правду о глобальном потеплении…

Узнать правду

+11

withannad2023 26 июн 2023 в 09:21

Скрепинг данных с Chat GPT

Простой

2 мин

4.2K

JavaScript * Открытые данные *

Из песочницы

Всем привет!

Хочу поделиться своим опытом программирования с помощью чат GTP. У меня была коммерческая задача - нужно было собрать контактную информация с сайта yelp.com по выборке рестораны и бары. Это была часть процесса лидогенерации. Парсер должен был состоять из двух частей: Первый — собрать URL-адреса всех компаний, которые появляются в результатах поиска.

Затем он просматривает каждую страницу и собирает данные, как название компании, веб-сайт, описание, адрес, контактную информацию и вертикаль.

Скажу сразу, я не разработчик, писать парсеры и скреперы не умею. Прошла базовый курс JavaScript, но честно говоря, мой 12-летний сын, знает об этом больше, чем я :)

Просить помощи программистов было сложно, нужно было быстро, а вы сами знаете, какие у них очереди в разработке. Поэтому в большинстве случаев я прибегаю к старому доброму ручному “copy - paste”.

Но сейчас я решила попробовать что-то новое. Я посмотрела кучу видеороликов на YouTube о парсинге веб-страниц и по рекомендации решила попробовать двух поставщиков готовых платформенных решений:

-3

uranusq 18 мая 2023 в 10:31

Получаем сертификат ЦРУ перебирая архивы

Простой

10 мин

5.5K

Go * Open source * Открытые данные * Софт

Из песочницы

Когда-то давно передо мной стояла задача по поиску файлов на ресурсах, которые могли уже не работать или определённые данные с них были удалены. Тогда для этой цели я использовал веб архивы Common Crawl и самопальный инструмент для автоматизации взаимодействия с ним.

Сейчас мне понадобилось решить схожую задачу, но Common Crawl упал и пока не встаёт… Поэтому было принято решение допилить свой инструмент до уровня скоростного велосипеда с использованием Wayback Machine и поделиться небольшим опытом извлечения архивных данных.

Не погружаясь сильно в детали, далее, в общих чертах я опишу что используют сервисы для архивации, как мы можем этим пользоваться через API, а в конце мы сертифицируемся по-ЦРУшному используя инструмент GoGetCrawl.

Хочу сертификат

adurnetsov 16 мая 2023 в 04:29

HRTech, стартапы и автоматизация HR функций

Простой

7 мин

6.8K

Облачные сервисы * Управление персоналом * Исследования и прогнозы в IT * Открытые данные *

Аналитика

Recovery Mode

2023год, много всего происходит, кто ИИ внедряет, кто тестирует и уже заменяет профессии. Но Есть сфера которая мне ближе всего - это HR. И стало интересно, а какие технологии и стартапы внедряются и внедрены сейчас. Какой их потенциал в будущее. Что вообще в HRTech происходит в России. Именно с таким запросом я взялся анализировать и собирать информацию.

Nester 5 мая 2023 в 18:02

Данные: какие про вас собирают, а какие от вас закрывают?

3 мин

21K

Законодательство в ITОткрытые данные * Big Data *

Мнение

Государство активно взяло курс на формирование реестра граждан и наполнение его разнородными данными. Про это высказываются самые разные чиновники после главного шага - введения системы "электронных повесток". К этому готовились. Напомню, что именно было сделано в последние два года для сбора максимального объема данных внутри госсистем.

+52

JWMash 4 мая 2023 в 21:51

Парсинг и обработка данных с метеосайтов Яндекс.Погода и Метеоинфо (Гидрометцентр) при помощи pandas (Часть 1)

Средний

3 мин

8.8K

Python * Открытые данные *

Из песочницы

Всех приветствую! Хочу рассказать, как мне удалось примененить библиотеку pandas для парсинга и обработки метеорологических данных сайта Яндекс.Погоды. Отмечу, что это моя первая статья для Habr, строго не судите.

Краткая предыстория. Так случилось, что мне пришлось вести telegram-канал о погоде, практически сразу встал вопрос как сократить время на поиск и анализ данных с основных метеорологических сайтов, чтобы получать всё just-in-time на свой компьютер. Иными словами, была цель сделать небольшую автоматизацию.

+10

QuantumCross 4 мая 2023 в 08:55

Бесплатный сервис с данными о ценах, аренде и доходности на недвижимость по всему миру

Простой

4 мин

6.3K

Открытые данные * IT-эмиграцияИнфографикаФинансы в IT

Может быть вы присматриваете страну для эмиграции, но бюджет для аренды ограничен? Или вам интересно сравнить цены в различных городах на недвижимость? Какой доход можно получить от сдачи квартиры в аренду? И самое главное, как все эти данные можно получить в красивой визуальной обёртке, без нужды искать десятки сайтов и конвертировать цены из одной валюты в другую?

NewTechAudit 3 мая 2023 в 07:46

Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

8 мин

6.8K

Программирование * Открытые данные * Big Data *

Кейс

Cезон big data

Привет, Хабр!

Меня зовут Грошев Валерий, я Data Scientist и участник профессионального сообщества NTA.

Благодаря концепции открытого правительства, развиваемой в России, в свободном доступе появляются данные о работе государственных органов. Одной из таких площадок с данными является сайт Единой информационной системы (ЕИС) в сфере закупок. Там есть удобный поиск информации, но гораздо больше полезного можно найти на FTP версии сайта — ftp://ftp.zakupki.gov.ru, где хранятся архивы XML‑документов с публичной частью информации о состоявшихся закупках: извещения, протоколы, сведения о договорах. В моем случае была задача проверить, а размещаются ли протоколы и сведения о договорах в соответствии с требованиями 223-ФЗ.

Узнать больше

1 2 3 4 5

7 8 ...

32 33

Открытые данные *

40 лет GNU

Компьютерные решения больше не запатентовать

Wi-Fi без Интернета на рейсе Southwest

Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации

Электоральная статистика выборов губернатора Московской области 2023 года

Анализируем хоккеистов с помощью Python. Часть 1 — о том, как тесен мир

Почему мой любимый API — это файл zip на сайте Европейского центрального банка

Занимательные картинки электоральной статистики на выборах в Государственную Думу 2021 года по 118 ОИК

Аномалии электоральной статистики на выборах в Государственную Думу 2021 года по 125 ОИК, КОИБ or not КОИБ

Reinforcement Learning from Human Feedback: когда одной математики мало

Основы парсинга на Python: от Requests до Selenium

Как дела у IT-бизнеса в России

Анализ данных по метеорологическим станциям с помощью Pandas

Ближайшие события

Скрепинг данных с Chat GPT

Получаем сертификат ЦРУ перебирая архивы

HRTech, стартапы и автоматизация HR функций

Данные: какие про вас собирают, а какие от вас закрывают?

Парсинг и обработка данных с метеосайтов Яндекс.Погода и Метеоинфо (Гидрометцентр) при помощи pandas (Часть 1)

Бесплатный сервис с данными о ценах, аренде и доходности на недвижимость по всему миру

Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

Вклад авторов