Обновить
72.59

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

40 лет GNU

Время на прочтение10 мин
Количество просмотров11K

Операционные системы имеют основополагающее значение для Интернета, каким мы его знаем сегодня, поскольку в настоящее время они обеспечивают работу миллионов серверов, компьютеров и других встроенных вычислительных устройств. Отдельное почётное место среди этого занимает ОС Linux (или GNU/Linux), используемая миллиардами человек во всём мире.

GNUUnix-подобная ОС с открытым исходным кодом, созданная 40 лет назад в 1983 году Ричардом Столлманом. GNU поддерживается Фондом свободного программного обеспечения (FSF), который первоначально был основан вокруг этого проекта, хотя позже он расширился и стал поддерживать другие проекты свободного ПО.

Если посмотреть на зарождение движения за свободное ПО — оно начинается с GNU. Система GNU — это не просто наиболее широко используемая ОС, основанная на свободном ПО. GNU также лежит в основе философии, которая направляла движение за свободное ПО на протяжении сорока лет.

А всё началось с плохо работающего принтера…
Читать дальше →

Компьютерные решения больше не запатентовать

Уровень сложностиПростой
Время на прочтение23 мин
Количество просмотров23K

Я патентный поверенный занимаюсь тем, что помогаю изобретателям получить патентную защиту их разработок (изобретений и полезных моделей).

В последнее время Роспатент начал, на мой взгляд, неправомерно выдавать отказы по разработкам, которые основаны на использовании компьютеров и прочей вычислительной техники.

Неправомерность, по моему мнению, основана на том, что если нормативные документы не поменялись, то в одностороннем порядке вдруг изменять критерии оценки недопустимо. Да, Роспатент сам устанавливает правила выдачи патентов, но это не значит, что ему можно их нарушать. Чтобы все было честно и прозрачно следовало бы изменить нормативные документы, но дело в том, что он хочет отказывать в выдаче только по одному типу решений, ради этого переписать правовую базу не получится.

С отказами в выдаче патентов столкнулся не только я, но и многие мои коллеги. Мне стало интересно, как изменился процент выдач патентов на компьютерные решения статистически, чтобы понять масштаб проблемы.

Забегая вперед скажу, что в результате анализа я нашел гораздо более интересные для мало знакомого с патентованием читателя кейсы.

Дальше я тезисно буду описывать, что делал и как, чтобы получить необходимые мне данные и какие интересные закономерности и факты нашел.

Читать далее

Wi-Fi без Интернета на рейсе Southwest

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров14K

Недавний полет я провел, пытаясь выяснить, что можно сделать, подключившись к Wi-Fi на борту самолета, но без доступа к Интернету.

Читать далее

Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации

Время на прочтение6 мин
Количество просмотров12K

Сегодня мы хотим поделиться новостью для всех, кто занимается анализом данных в области лингвистики и машинного обучения. Яндекс выкладывает в открытый доступ крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. Это 500 тысяч отзывов со всей России с января по июль 2023 года.

В этой статье я расскажу, чем полезны отзывы с точки зрения исследований, в чём особенность этого датасета, а также покажу примеры задач, которые можно решать с его помощью.

Читать далее

Электоральная статистика выборов губернатора Московской области 2023 года

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров4K

По итогам голосования 8-10 сентября 2023 года Андрей Воробьев сохранил за собой должность губернатора Московской области. Официально опубликованный результат выборов следующие: 83.56% Воробьев А.Ю., 4.82% Жигарев К.С., 6.37% Наумов А.А., 4.06% Никитин А.Ю.

Попытаемся оценить электоральную статистику голосования, визуализировать ее, поискать аномалии.

На сайте ЦИК РФ по-прежнему присутствуют препоны для копирования первичных данных по участкам, поэтому эти данные взяты из телеграм-канала Бориса Надеждина.

Для начала рассмотрим диаграммы зависимости результатов победителя и суммы результатов проигравших от явки.

Читать далее

Анализируем хоккеистов с помощью Python. Часть 1 — о том, как тесен мир

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.5K

Привет, Хабр! Эта статья посвящена исследованию о том, насколько тесен мир хоккея.

Меня зовут Рашит Гафаров, я начинающий дата-инженер и выпускник Яндекс Практикума. Мы с наставницей Юлией Муртазиной и ещё пятью студентами проанализировали с помощью Pytnon связи между хоккеистами в КХЛ.

За референс взяли расчёт числа Эрдёша-Бэйкона — шуточное расстояние между математиками или актёрами.

Читать далее

Почему мой любимый API — это файл zip на сайте Европейского центрального банка

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров31K

Когда был максимальный курс доллара к евро?

Вот небольшая программа, вычисляющая это:

curl -s https://www.ecb.europa.eu/stats/eurofxref/eurofxref-hist.zip \ | gunzip \ | sqlite3 -csv ':memory:' '.import /dev/stdin stdin' \ "select Date from stdin order by USD asc limit 1;"

Результат: 2000-10-26. (Можете попробовать запустить её самостоятельно.)

Читать далее

Занимательные картинки электоральной статистики на выборах в Государственную Думу 2021 года по 118 ОИК

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров4.8K

В первой и второй предыдущих статьях на данную тему мы рассматривали аномалии выборной статистики по 125 избирательному округу по партийным спискам на выборах в Государственную Думу 2021 года, теперь сместимся по Подмосковью северо-западнее и рассмотрим электоральные аномалии по результатов выборов по 118 одномандатному избирательному округу.

В связи с отсутствие нормальной возможности копировать первичные данные УИК с сайта ЦИК РФ, данные взяты из телеграм-канала t.me/RUElectionData.

Для начала Вашему вниманию итоги выборов по одномандатному округу.

Читать далее

Аномалии электоральной статистики на выборах в Государственную Думу 2021 года по 125 ОИК, КОИБ or not КОИБ

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров8.5K

В статье 2021 года мы пронаблюдали аномалии результатам выборов в Государственную думы 2021 года подмосковному 125 избирательному округу. На некоторых избирательных участках прослеживались аномалии явки, аномалии темпа голосования в последние часы выборов, причем часто эти аномалии коррелировали с очень хорошими результатами партии Единая Россия.

Недавно в телеграмм канале общественного деятеля Бориса Надеждина был опубликован перечень подмосковных избирательных участков оборудованных Комплексом обрабо́тки избирательных бюллетеней (КОИБ). В связи с появлением новых исходных данных возникло желание сравнить результаты выборов 2021 на участках, оборудованных КОИБ и не оборудованных.

Вот что получилось.

Читать далее

Reinforcement Learning from Human Feedback: когда одной математики мало

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров4.8K

Сотни людей собрались на конференции ICML на туториале про обучение с подкреплением на основе отзывов (reinforcement learning from human feedback, RLHF). Докладчик спросил, кто хочет размечать данные. Пять, быть может, десять человек подняло руки. И это никого не удивило.

Что было дальше?

Основы парсинга на Python: от Requests до Selenium

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров179K

Бывают ситуации, когда нужно автоматизировать сбор и анализ данных из разных источников. Например, если хочется мониторить курс рубля в режиме реального времени. Для решения подобных задач применяют парсинг.

В этой статье кратко рассказываем, как парсить данные веб-сайтов с помощью Python. Пособие подойдет новичкам и продолжающим — сохраняйте статью в закладки и задавайте вопросы в комментариях. Подробности под катом!
Читать дальше →

Как дела у IT-бизнеса в России

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров10K

В 2022 году из России ушли мировые IT-лидеры, ограничив использование своих программных продуктов. Порядка 100 тыс. работников отрасли покинули Россию.
Как это сказалось на финансовых результатах IT-отрасли?

Читать далее

Анализ данных по метеорологическим станциям с помощью Pandas

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров12K

В статье будет рассмотрено решение задачи анализа открытых метеорологических данных сервиса meteo.ru Федеральной службы по гидрометеорологии и мониторингу окружающей среды. Анализ будет произведен в Jupyter Notebook при помощи Python библиотеки Pandas, а также будут сделаны выводы относительно того какие изменения произошли в климате за последние 50 лет в нашей стране. Вы узнаете еще одну страшную правду о глобальном потеплении…

Узнать правду

Ближайшие события

Скрепинг данных с Chat GPT

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров4.2K

Всем привет! 

Хочу поделиться своим опытом программирования с помощью чат GTP. У меня была коммерческая задача - нужно было собрать контактную информация с сайта yelp.com по выборке рестораны и бары. Это была часть процесса лидогенерации. Парсер должен был состоять из двух частей: Первый — собрать URL-адреса всех компаний, которые появляются в результатах поиска. 

Затем он просматривает каждую страницу и собирает данные, как название компании, веб-сайт, описание, адрес, контактную информацию и вертикаль.

Скажу сразу, я не разработчик, писать парсеры и скреперы не умею. Прошла базовый курс JavaScript, но честно говоря, мой 12-летний сын, знает об этом больше, чем я :) 

Просить помощи программистов было сложно, нужно было быстро, а вы сами знаете, какие у них очереди в разработке. Поэтому в большинстве случаев я прибегаю к старому доброму ручному “copy - paste”. 

Но сейчас я решила попробовать что-то новое. Я посмотрела кучу видеороликов на YouTube о парсинге веб-страниц и по рекомендации решила попробовать двух поставщиков готовых платформенных решений:

Читать далее

Получаем сертификат ЦРУ перебирая архивы

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров5.5K

Когда-то давно передо мной стояла задача по поиску файлов на ресурсах, которые могли уже не работать или определённые данные с них были удалены. Тогда для этой цели я использовал веб архивы Common Crawl и самопальный инструмент для автоматизации взаимодействия с ним.

Сейчас мне понадобилось решить схожую задачу, но Common Crawl упал и пока не встаёт… Поэтому было принято решение допилить свой инструмент до уровня скоростного велосипеда с использованием Wayback Machine и поделиться небольшим опытом извлечения архивных данных.

Не погружаясь сильно в детали, далее, в общих чертах я опишу что используют сервисы для архивации, как мы можем этим пользоваться через API, а в конце мы сертифицируемся по-ЦРУшному используя инструмент GoGetCrawl.

Хочу сертификат

HRTech, стартапы и автоматизация HR функций

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.8K

2023год, много всего происходит, кто ИИ внедряет, кто тестирует и уже заменяет профессии. Но Есть сфера которая мне ближе всего - это HR. И стало интересно, а какие технологии и стартапы внедряются и внедрены сейчас. Какой их потенциал в будущее. Что вообще в HRTech происходит в России. Именно с таким запросом я взялся анализировать и собирать информацию.

Читать далее

Данные: какие про вас собирают, а какие от вас закрывают?

Время на прочтение3 мин
Количество просмотров21K

Государство активно взяло курс на формирование реестра граждан и наполнение его разнородными данными. Про это высказываются самые разные чиновники после главного шага - введения системы "электронных повесток". К этому готовились. Напомню, что именно было сделано в последние два года для сбора максимального объема данных внутри госсистем.

Читать далее

Парсинг и обработка данных с метеосайтов Яндекс.Погода и Метеоинфо (Гидрометцентр) при помощи pandas (Часть 1)

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров8.8K

Всех приветствую! Хочу рассказать, как мне удалось примененить библиотеку pandas для парсинга и обработки метеорологических данных сайта Яндекс.Погоды. Отмечу, что это моя первая статья для Habr, строго не судите.

Краткая предыстория. Так случилось, что мне пришлось вести telegram-канал о погоде, практически сразу встал вопрос как сократить время на поиск и анализ данных с основных метеорологических сайтов, чтобы получать всё just-in-time на свой компьютер. Иными словами, была цель сделать небольшую автоматизацию. 

Читать далее

Бесплатный сервис с данными о ценах, аренде и доходности на недвижимость по всему миру

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров6.3K

Может быть вы присматриваете страну для эмиграции, но бюджет для аренды ограничен? Или вам интересно сравнить цены в различных городах на недвижимость? Какой доход можно получить от сдачи квартиры в аренду? И самое главное, как все эти данные можно получить в красивой визуальной обёртке, без нужды искать десятки сайтов и конвертировать цены из одной валюты в другую?

Читать далее

Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

Время на прочтение8 мин
Количество просмотров6.8K

Привет, Хабр!

Меня зовут Грошев Валерий, я Data Scientist и участник профессионального сообщества NTA.

Благодаря концепции открытого правительства, развиваемой в России, в свободном доступе появляются данные о работе государственных органов. Одной из таких площадок с данными является сайт Единой информационной системы (ЕИС) в сфере закупок. Там есть удобный поиск информации, но гораздо больше полезного можно найти на FTP версии сайта — ftp://ftp.zakupki.gov.ru, где хранятся архивы XML‑документов с публичной частью информации о состоявшихся закупках: извещения, протоколы, сведения о договорах. В моем случае была задача проверить, а размещаются ли протоколы и сведения о договорах в соответствии с требованиями 223-ФЗ.

Узнать больше