Как стать автором
Поиск
Написать публикацию
Обновить
10.05

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Получаем сертификат ЦРУ перебирая архивы

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров5.5K

Когда-то давно передо мной стояла задача по поиску файлов на ресурсах, которые могли уже не работать или определённые данные с них были удалены. Тогда для этой цели я использовал веб архивы Common Crawl и самопальный инструмент для автоматизации взаимодействия с ним.

Сейчас мне понадобилось решить схожую задачу, но Common Crawl упал и пока не встаёт… Поэтому было принято решение допилить свой инструмент до уровня скоростного велосипеда с использованием Wayback Machine и поделиться небольшим опытом извлечения архивных данных.

Не погружаясь сильно в детали, далее, в общих чертах я опишу что используют сервисы для архивации, как мы можем этим пользоваться через API, а в конце мы сертифицируемся по-ЦРУшному используя инструмент GoGetCrawl.

Хочу сертификат

HRTech, стартапы и автоматизация HR функций

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.6K

2023год, много всего происходит, кто ИИ внедряет, кто тестирует и уже заменяет профессии. Но Есть сфера которая мне ближе всего - это HR. И стало интересно, а какие технологии и стартапы внедряются и внедрены сейчас. Какой их потенциал в будущее. Что вообще в HRTech происходит в России. Именно с таким запросом я взялся анализировать и собирать информацию.

Читать далее

Данные: какие про вас собирают, а какие от вас закрывают?

Время на прочтение3 мин
Количество просмотров21K

Государство активно взяло курс на формирование реестра граждан и наполнение его разнородными данными. Про это высказываются самые разные чиновники после главного шага - введения системы "электронных повесток". К этому готовились. Напомню, что именно было сделано в последние два года для сбора максимального объема данных внутри госсистем.

Читать далее

Парсинг и обработка данных с метеосайтов Яндекс.Погода и Метеоинфо (Гидрометцентр) при помощи pandas (Часть 1)

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров8.6K

Всех приветствую! Хочу рассказать, как мне удалось примененить библиотеку pandas для парсинга и обработки метеорологических данных сайта Яндекс.Погоды. Отмечу, что это моя первая статья для Habr, строго не судите.

Краткая предыстория. Так случилось, что мне пришлось вести telegram-канал о погоде, практически сразу встал вопрос как сократить время на поиск и анализ данных с основных метеорологических сайтов, чтобы получать всё just-in-time на свой компьютер. Иными словами, была цель сделать небольшую автоматизацию. 

Читать далее

Бесплатный сервис с данными о ценах, аренде и доходности на недвижимость по всему миру

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.9K

Может быть вы присматриваете страну для эмиграции, но бюджет для аренды ограничен? Или вам интересно сравнить цены в различных городах на недвижимость? Какой доход можно получить от сдачи квартиры в аренду? И самое главное, как все эти данные можно получить в красивой визуальной обёртке, без нужды искать десятки сайтов и конвертировать цены из одной валюты в другую?

Читать далее

Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

Время на прочтение8 мин
Количество просмотров6.5K

Привет, Хабр!

Меня зовут Грошев Валерий, я Data Scientist и участник профессионального сообщества NTA.

Благодаря концепции открытого правительства, развиваемой в России, в свободном доступе появляются данные о работе государственных органов. Одной из таких площадок с данными является сайт Единой информационной системы (ЕИС) в сфере закупок. Там есть удобный поиск информации, но гораздо больше полезного можно найти на FTP версии сайта — ftp://ftp.zakupki.gov.ru, где хранятся архивы XML‑документов с публичной частью информации о состоявшихся закупках: извещения, протоколы, сведения о договорах. В моем случае была задача проверить, а размещаются ли протоколы и сведения о договорах в соответствии с требованиями 223-ФЗ.

Узнать больше

Открытый код в ИТМО

Время на прочтение7 мин
Количество просмотров2.5K

ИТМО активно поддерживает движение открытого кода, часть проектов разрабатывается для научных задач, другая же доступна и бизнесу. Однако учитывая масштабы и количество научных групп, у каждой из которых есть множество собственных инициатив, полного актуального перечня открытых разработок даже в масштабах одного только университета попросту не существует. Начав решать эту проблему, подразделения ИТМО пришли к необходимости формирования сообщества вокруг открытого исходного кода, которое будет доступно и широкой общественности. Для развития этого коммьюнити в университете открыли программу поддержки открытого кода, о которой мы и поговорим в этой статье.

Читать далее

Бесплатный доступ к PDF 2.0

Время на прочтение5 мин
Количество просмотров7.6K


В начале года мы задавались вопросом, почему стандарты ИСО не публикуют в открытом доступе, хотя эти знания нужны и полезны для человечества? По мнению некоторых представителей IT-индустрии, платный доступ к документам — не самая эффективная политика. Особенно когда дело касается общественно важных стандартов, таких как ISO 8601 — Представление дат и времени (в интернет-магазине первая часть продаётся за 166 франков) или ISO 639 — Коды для представления названий языков (тоже две части по 166 CHF). Платный доступ — искусственный барьер, который только мешает.

Для отдельных стандартов находятся спонсоры, которые оплачивают организации ИСО расходы, чтобы выложить документы в открытом доступе для всех. Это относится и к новому пакету стандартов PDF 2.0, принятому в 2017–2022 гг (разные части), который пришёл на смену прежним версиям PDF 1.0–1.7.
Читать дальше →

DataHub: веб-песочница для тех, кто изучает SQL

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров18K

Привет! Меня зовут Андрей Шмиг, я разработчик платформы DataHub, платформа для совместной работы над данными - своего рода GitHub для данных. В этой статье покажу на что способен веб-редактор MySQL хранилища и почему это отличный инструмент для работы тем, кто изучает SQL.

Читать далее

Инфраструктура открытых данных для ИИ — кто и зачем её разрабатывает

Время на прочтение3 мин
Количество просмотров1.6K

Группа независимых американских организаций планирует построить сеть открытых репозиториев с данными. На их основе будут обучать ML-модели в самых разных отраслях — от медицины до климатических исследований. Инициатива пока находится на самых ранних этапах развития, но мы решили обсудить, зачем она понадобилась.

Читать далее

DataHub: организовываем доступ к публичным данным через Predefined Queries

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.5K

Привет! Меня зовут Андрей Шмиг, я разработчик платформы DataHub, платформа для совместной работы над данными - своего рода GitHub для данных. В этой статье покажу, каким образом можно организовать доступ для внешних пользователей к репозиториям данных через Predefined Queries.

Читать далее

MiniGPT-4, ты что за зверь такой?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров16K
image

Не проходит и недели, чтобы что-то новое и очень крутое в области LLM не появилось в сети. На этот раз отличились сотрудники из Научно-технологического университета имени короля Абдаллы (технический исследовательский университет в Саудовской Аравии). Они предложили способ наделения языковой модели функцией мультимодальности. Их ресерч называется «Улучшение понимания языка зрения с помощью усовершенствованных больших языковых моделей» (Enhancing Vision-language Understanding with Advanced Large Language Models).
Читать дальше →

DataHub: репозитории данных коммерческого типа. Как зарабатывать на доступе к данным?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.6K

Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub — Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье покажу, каким образом можно монетизировать имеющиеся у вас структурированные и неструктурированные данные будь вы разработчик, data‑scientist или ML‑специалист.

Читать далее

Ближайшие события

DataHub: как делиться структурированными данными и получать за них донаты?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.9K

Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub - Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье речь пойдёт о том, как создать FREE и SPONSORED репозитории данных, а так же в чем их отличия.

Читать далее

Dolly 2 — открытый аналог ChatGPT со свободной лицензией

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров20K

В конце марта 2023г., компания Databricks выпустила Dolly, большую языковую модель, подобную ChatGPT, дообученную на платформе Databricks Machine Learning Platform. Результат оценки работы модели Dolly показывает, что модель с открытым исходным кодом двухлетней давности (GPT-J) при дообучении на публичном датасете, собранном в Стэнфорде (Stanford Alpaca), на небольшом наборе данных из 50 000 диалогов (вопросов и ответов), может демонстрировать удивительно высокое качество обучения, не характерное для родительской модели (GPT-J), на которой она основана.

Но с первой версией модели Dolly существует одна проблема - датасет от Stanford Alpaca был собран с помощью автоматизированных скриптов от ChatGPT, что нарушает лицензию и правила использования моделей OpenAI.

Чтобы исправить эту проблему, в апреле 2023г. Databricks выпустила
Dolly 2 - большую языковую модель с открытым исходным кодом и открытой лицензией для научных и коммерческих целей.

Dolly 2 - это языковая модель с 12 млрд. параметров, основанная на семействе моделей EleutherAI pythia и дообученная исключительно на новом датасете высокого качества, созданном сотрудниками Databricks с использованием RL from Human Feedback (RLHF).

Databricks открыли исходный код Dolly 2, включая код обучения, сам датасет и веса модели, подходящие для коммерческого использования. Это означает, что любая организация может создавать, владеть и настраивать комплексные модели, не платя за доступ к API или передавая данные третьим сторонам.

Читать далее

Разглашение ПДн Роскомнадзором?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6.8K

Сегодня поговорим о качестве открытых данных Роскомнадзора на примере набора данных "Реестр операторов, осуществляющих обработку персональных данных".

Данный набор как предполагается должен содержать общедоступную информацию об операторах ПДн. Попробуем понять, какие проблемы имеются у данного набора и что может улучшить Роскомнадзор в процессе обработки уведомлений об обработке ПДн.

Читать далее

LAION и энтузиасты по всему миру разрабатывают Open Assistant — открытый аналог ChatGPT

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров14K

Некоммерческая организация LAION и энтузиасты по всему миру занимаются разработкой Open Assistant — это проект, цель которого в предоставлении всем желающим доступа к продвинутой большой языковой модели, основанной на принципах чат-бота, с конечной целью революции в инновациях в области обработки естественного языка...

Читать далее

Американский футбол и статистика: зачем в НФЛ собирают данные для анализа игры

Время на прочтение20 мин
Количество просмотров3.7K

Обработку большого объема данных используют уже все кому не лень. Компании, которые работают с big data и умеют их анализировать, получают разные метрики, на основе которых принимают важнейшие управляющие решения. Будь то анализ данных «Честного знака» для построения маркетинговой стратегии по всей стране или анализ производства, в котором нужно снизить процент брака на основе десятков показателей датчиков и камер машинного зрения. 

То же самое относится и к спорту. Но так было не всегда. Подход к анализу статистических показателей игры изменился в 2004 году, когда бейсбольный Boston Red Sox выиграли мировую серию впервые с 1918 года. Причина оказалась простой: они взяли на работу Билла Джеймса, который еще с 1980-х годов обивал пороги команд и пытался объяснить, насколько важно отслеживать метрики игроков (вплоть до роста, веса или скорости подачи), строя игру команд от этого. Чудаковатого гика никто не воспринимал всерьез, но спустя 30 лет его подход изменил индустрию спорта. Думаю, что многие видели замечательный фильм Moneyball с Брэдом Питтом по книге Майкла Льюиса, затрагивающий эту тематику.  

Поэтому нет ничего удивительного, что и другие виды спорта в Америке стали применять этот подход. Давайте посмотрим на примере чуждого русскому глазу спорта — американского футбола, как команды НФЛ (национальная футбольная лига — высший дивизион, сродни НХЛ и НБА) используют big data и как это изменило игру. Но придется немного погрузиться в специфику игры, потому что мне кажется, мало кто на Хабре даже знает правила игры в амфут. Попробую кратко рассказать основы — заодно, надеюсь, подтолкну к просмотру этой замечательной игры тех, кто не решался из-за сложности.

Если вдруг вас посетил вопрос «Какая связь у амфута и Хабра» — отвечу, что в амфут играет достаточно много людей из IT. В команде, в которой играю я сам есть люди из Сбера, VK, HH и других IT-компаний.

Читать далее

Fitter —  сшиватель API/Website's, часть личного проекта которую хотел опенсорснуть

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.1K

Добрый вечер всем!

Возможно выбрал не лучшее время для охвата аудитории, но тем не менее главное чтоб продукт был хороший, а не статья о нем. Последние несколько недель я пишу приложение в рамках которого надо собирать огромное количество информации из сети(запросы к API/парсинг HTML кода) и под конец 4-ой интеграции я подумал что надо бы это максимально облегчить(не дело это пересобирать приложение под каждый чих интеграции), возможно это не лучшая преамбула, но хотя бы была реальная проблема решение к которой хотелось показать и заопенсорнуть.

Итак Fitter = сшиватель достаточно жаргонный перевод, но мне он кажется что лучше всего подходит. Я делал эту штуки исходя из следующих предположений:

Читать далее

Две беды: дороги и полнота данных. Считаем протяженность дорог родины по данным OpenStreetMap

Уровень сложностиСредний
Время на прочтение127 мин
Количество просмотров2.6K

Зачем же обычному человеку информация из прошлой публикации "Как поместить весь мир в обычный ноутбук: PostgreSQL и OpenStreetMap"? Если надоело в пятницу читать мемасики и лайкать фотографии котиков в соцсетях, то можно задаться глобальными проблемами аналитики и посчитать протяженность дорог России. Ведь не за горами времена автомобилей с автопилотами... Это конечно не 42, как ответ на главный вопрос жизни, вселенной и всего такого, но результаты будут тоже достаточно лаконичными.

Для этого нам понадобится ноутбук или обычный десктоп, несколько десятков гигабайт свободного места, установленный docker, JVM 11+, maven и мой проект openstreetmap_h3. Анализировать геоданные мы будем с помощью PostgreSQL 15.1, PostGIS 3.3.2, H3 4.1.1. Исходные данные из проекта OpenStreetMap, запросы к БД не претендуют на правильность и качество исходных данных в масштабе страны нам не известно! Данная публикация является грубой интерпретацией данных OSM в первом приближении и не претендует на истинность и неопровержимость. Так же как не стоит верить оценке Хабра на чтение статьи в 127 минут, что сильно превышает реальные 5 минут, которые вы потратите на ознакомление с публикацией.

Читать далее