Как стать автором
Обновить
20.73

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Бесплатный доступ к PDF 2.0

Время на прочтение5 мин
Количество просмотров6.7K


В начале года мы задавались вопросом, почему стандарты ИСО не публикуют в открытом доступе, хотя эти знания нужны и полезны для человечества? По мнению некоторых представителей IT-индустрии, платный доступ к документам — не самая эффективная политика. Особенно когда дело касается общественно важных стандартов, таких как ISO 8601 — Представление дат и времени (в интернет-магазине первая часть продаётся за 166 франков) или ISO 639 — Коды для представления названий языков (тоже две части по 166 CHF). Платный доступ — искусственный барьер, который только мешает.

Для отдельных стандартов находятся спонсоры, которые оплачивают организации ИСО расходы, чтобы выложить документы в открытом доступе для всех. Это относится и к новому пакету стандартов PDF 2.0, принятому в 2017–2022 гг (разные части), который пришёл на смену прежним версиям PDF 1.0–1.7.
Читать дальше →
Всего голосов 16: ↑15 и ↓1+14
Комментарии5

DataHub: веб-песочница для тех, кто изучает SQL

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров12K

Привет! Меня зовут Андрей Шмиг, я разработчик платформы DataHub, платформа для совместной работы над данными - своего рода GitHub для данных. В этой статье покажу на что способен веб-редактор MySQL хранилища и почему это отличный инструмент для работы тем, кто изучает SQL.

Читать далее
Всего голосов 7: ↑4 и ↓3+1
Комментарии9

Инфраструктура открытых данных для ИИ — кто и зачем её разрабатывает

Время на прочтение3 мин
Количество просмотров1.4K

Группа независимых американских организаций планирует построить сеть открытых репозиториев с данными. На их основе будут обучать ML-модели в самых разных отраслях — от медицины до климатических исследований. Инициатива пока находится на самых ранних этапах развития, но мы решили обсудить, зачем она понадобилась.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии7

DataHub: организовываем доступ к публичным данным через Predefined Queries

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.3K

Привет! Меня зовут Андрей Шмиг, я разработчик платформы DataHub, платформа для совместной работы над данными - своего рода GitHub для данных. В этой статье покажу, каким образом можно организовать доступ для внешних пользователей к репозиториям данных через Predefined Queries.

Читать далее
Рейтинг0
Комментарии2

Истории

MiniGPT-4, ты что за зверь такой?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров15K
image

Не проходит и недели, чтобы что-то новое и очень крутое в области LLM не появилось в сети. На этот раз отличились сотрудники из Научно-технологического университета имени короля Абдаллы (технический исследовательский университет в Саудовской Аравии). Они предложили способ наделения языковой модели функцией мультимодальности. Их ресерч называется «Улучшение понимания языка зрения с помощью усовершенствованных больших языковых моделей» (Enhancing Vision-language Understanding with Advanced Large Language Models).
Читать дальше →
Всего голосов 34: ↑31 и ↓3+28
Комментарии7

DataHub: репозитории данных коммерческого типа. Как зарабатывать на доступе к данным?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.3K

Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub — Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье покажу, каким образом можно монетизировать имеющиеся у вас структурированные и неструктурированные данные будь вы разработчик, data‑scientist или ML‑специалист.

Читать далее
Рейтинг0
Комментарии15

DataHub: как делиться структурированными данными и получать за них донаты?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.6K

Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub - Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье речь пойдёт о том, как создать FREE и SPONSORED репозитории данных, а так же в чем их отличия.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии0

Dolly 2 — открытый аналог ChatGPT со свободной лицензией

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров20K

В конце марта 2023г., компания Databricks выпустила Dolly, большую языковую модель, подобную ChatGPT, дообученную на платформе Databricks Machine Learning Platform. Результат оценки работы модели Dolly показывает, что модель с открытым исходным кодом двухлетней давности (GPT-J) при дообучении на публичном датасете, собранном в Стэнфорде (Stanford Alpaca), на небольшом наборе данных из 50 000 диалогов (вопросов и ответов), может демонстрировать удивительно высокое качество обучения, не характерное для родительской модели (GPT-J), на которой она основана.

Но с первой версией модели Dolly существует одна проблема - датасет от Stanford Alpaca был собран с помощью автоматизированных скриптов от ChatGPT, что нарушает лицензию и правила использования моделей OpenAI.

Чтобы исправить эту проблему, в апреле 2023г. Databricks выпустила
Dolly 2 - большую языковую модель с открытым исходным кодом и открытой лицензией для научных и коммерческих целей.

Dolly 2 - это языковая модель с 12 млрд. параметров, основанная на семействе моделей EleutherAI pythia и дообученная исключительно на новом датасете высокого качества, созданном сотрудниками Databricks с использованием RL from Human Feedback (RLHF).

Databricks открыли исходный код Dolly 2, включая код обучения, сам датасет и веса модели, подходящие для коммерческого использования. Это означает, что любая организация может создавать, владеть и настраивать комплексные модели, не платя за доступ к API или передавая данные третьим сторонам.

Читать далее
Всего голосов 34: ↑32 и ↓2+30
Комментарии9

Разглашение ПДн Роскомнадзором?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6.2K

Сегодня поговорим о качестве открытых данных Роскомнадзора на примере набора данных "Реестр операторов, осуществляющих обработку персональных данных".

Данный набор как предполагается должен содержать общедоступную информацию об операторах ПДн. Попробуем понять, какие проблемы имеются у данного набора и что может улучшить Роскомнадзор в процессе обработки уведомлений об обработке ПДн.

Читать далее
Всего голосов 17: ↑15 и ↓2+13
Комментарии7

LAION и энтузиасты по всему миру разрабатывают Open Assistant — открытый аналог ChatGPT

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров13K

Некоммерческая организация LAION и энтузиасты по всему миру занимаются разработкой Open Assistant — это проект, цель которого в предоставлении всем желающим доступа к продвинутой большой языковой модели, основанной на принципах чат-бота, с конечной целью революции в инновациях в области обработки естественного языка...

Читать далее
Всего голосов 39: ↑38 и ↓1+37
Комментарии29

Американский футбол и статистика: зачем в НФЛ собирают данные для анализа игры

Время на прочтение20 мин
Количество просмотров2.6K

Обработку большого объема данных используют уже все кому не лень. Компании, которые работают с big data и умеют их анализировать, получают разные метрики, на основе которых принимают важнейшие управляющие решения. Будь то анализ данных «Честного знака» для построения маркетинговой стратегии по всей стране или анализ производства, в котором нужно снизить процент брака на основе десятков показателей датчиков и камер машинного зрения. 

То же самое относится и к спорту. Но так было не всегда. Подход к анализу статистических показателей игры изменился в 2004 году, когда бейсбольный Boston Red Sox выиграли мировую серию впервые с 1918 года. Причина оказалась простой: они взяли на работу Билла Джеймса, который еще с 1980-х годов обивал пороги команд и пытался объяснить, насколько важно отслеживать метрики игроков (вплоть до роста, веса или скорости подачи), строя игру команд от этого. Чудаковатого гика никто не воспринимал всерьез, но спустя 30 лет его подход изменил индустрию спорта. Думаю, что многие видели замечательный фильм Moneyball с Брэдом Питтом по книге Майкла Льюиса, затрагивающий эту тематику.  

Поэтому нет ничего удивительного, что и другие виды спорта в Америке стали применять этот подход. Давайте посмотрим на примере чуждого русскому глазу спорта — американского футбола, как команды НФЛ (национальная футбольная лига — высший дивизион, сродни НХЛ и НБА) используют big data и как это изменило игру. Но придется немного погрузиться в специфику игры, потому что мне кажется, мало кто на Хабре даже знает правила игры в амфут. Попробую кратко рассказать основы — заодно, надеюсь, подтолкну к просмотру этой замечательной игры тех, кто не решался из-за сложности.

Если вдруг вас посетил вопрос «Какая связь у амфута и Хабра» — отвечу, что в амфут играет достаточно много людей из IT. В команде, в которой играю я сам есть люди из Сбера, VK, HH и других IT-компаний.

Читать далее
Всего голосов 18: ↑17 и ↓1+16
Комментарии4

Fitter —  сшиватель API/Website's, часть личного проекта которую хотел опенсорснуть

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3K

Добрый вечер всем!

Возможно выбрал не лучшее время для охвата аудитории, но тем не менее главное чтоб продукт был хороший, а не статья о нем. Последние несколько недель я пишу приложение в рамках которого надо собирать огромное количество информации из сети(запросы к API/парсинг HTML кода) и под конец 4-ой интеграции я подумал что надо бы это максимально облегчить(не дело это пересобирать приложение под каждый чих интеграции), возможно это не лучшая преамбула, но хотя бы была реальная проблема решение к которой хотелось показать и заопенсорнуть.

Итак Fitter = сшиватель достаточно жаргонный перевод, но мне он кажется что лучше всего подходит. Я делал эту штуки исходя из следующих предположений:

Читать далее
Всего голосов 7: ↑6 и ↓1+5
Комментарии9

Две беды: дороги и полнота данных. Считаем протяженность дорог родины по данным OpenStreetMap

Уровень сложностиСредний
Время на прочтение127 мин
Количество просмотров2.3K

Зачем же обычному человеку информация из прошлой публикации "Как поместить весь мир в обычный ноутбук: PostgreSQL и OpenStreetMap"? Если надоело в пятницу читать мемасики и лайкать фотографии котиков в соцсетях, то можно задаться глобальными проблемами аналитики и посчитать протяженность дорог России. Ведь не за горами времена автомобилей с автопилотами... Это конечно не 42, как ответ на главный вопрос жизни, вселенной и всего такого, но результаты будут тоже достаточно лаконичными.

Для этого нам понадобится ноутбук или обычный десктоп, несколько десятков гигабайт свободного места, установленный docker, JVM 11+, maven и мой проект openstreetmap_h3. Анализировать геоданные мы будем с помощью PostgreSQL 15.1, PostGIS 3.3.2, H3 4.1.1. Исходные данные из проекта OpenStreetMap, запросы к БД не претендуют на правильность и качество исходных данных в масштабе страны нам не известно! Данная публикация является грубой интерпретацией данных OSM в первом приближении и не претендует на истинность и неопровержимость. Так же как не стоит верить оценке Хабра на чтение статьи в 127 минут, что сильно превышает реальные 5 минут, которые вы потратите на ознакомление с публикацией.

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии20

Ближайшие события

Weekend Offer в AliExpress
Дата20 – 21 апреля
Время10:00 – 20:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн

DLC-2021, или Жулик, не воруй

Время на прочтение4 мин
Количество просмотров1.7K

Всем привет! Мы в Smart Engines занимаемся распознаванием документов и часто об этом рассказываем, а еще мы часто публикуем результаты наших исследований в научных статьях и докладах. В результатах за прошлый год мы упомянули, что создали два открытых датасета. Совсем недавно мы писали о созданном нами наборе данных MIDV-2020. Теперь настало время DLC-2021. Ну что, поехали?

Поехали
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Управление на основе данных. Что общего между электронным дневником и базой налоговой?

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2K

Сегодня о подходе к управлению, основанному на данных, не говорит только ленивый. Кто уже имеет с этим дело в своей работе, предлагаем сразу переходить к разделу с описанием опыта Татарстана по управлению данными. А для тех, кто этим направлением раньше не интересовался, Центр цифровой трансформации Татарстана дает пару вводных.

Читать далее
Всего голосов 6: ↑3 и ↓30
Комментарии2

Обзор библиотек на питоне для моделирования в сфере электроэнергетики

Время на прочтение18 мин
Количество просмотров6.9K

Если мы хотим без больших затрат средств и времени создать модель в области электроэнергетики, то питон (python) будет для нас поистине незаменимым языком. Больше всего доступных открытых и бесплатных power-библиотек с хорошей документацией написано именно на питоне, и эта статья будет посвящена их краткому разбору и классификации.

В конце обзора - опросник для тех, кто моделирует технологические или бизнес-процессы в своей сфере деятельности, в любой отрасли...

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии27

Почему стандарты ИСО не публикуют в открытом доступе?

Время на прочтение4 мин
Количество просмотров22K

Основатели ИСО, Лондон, 1946

Международная организация по стандартизации создана в 1946 году для выпуска международных стандартов. Первым из них стало само название организации, которое на всех языках мира звучит одинаково: ИСО.

Стандарты ИСО по всем вопросам — от безопасности дорожного движения и игрушек до надёжной медицинской упаковки — помогают сделать мир более безопасным. Но есть вопрос: почему все стандарты не выкладывают в свободный доступ, хотя эти знания нужны и полезны для общего прогресса человечества?
Читать дальше →
Всего голосов 46: ↑43 и ↓3+40
Комментарии77

Как собрать базу организаций за час

Время на прочтение2 мин
Количество просмотров10K

Всем привет, меня зовут Александр Калыргин, сейчас я активно занимаюсь сферой получения и анализа данных. Захотелось показать, как можно без особых проблем получить базы организаций, зарегистрированных в нужном вам регионе.

Читать далее
Всего голосов 20: ↑13 и ↓7+6
Комментарии9

(Пере)запускаем отделение Creative Commons в России! Участвуйте и помогайте

Время на прочтение37 мин
Количество просмотров4K

Привет, Хабр! Привет всем сторонникам open source, лицензий Creative Commons и прочих альтернативных подходов к авторскому праву! Год назад организация Creative Commons отметила 20 лет с момента основания. А 16 декабря этого года исполнилось 20 лет с момента выпуска её первых лицензий. И в этом юбилейном году я продолжал готовить подарок себе и сообществу.)) Настало время перейти в публичную стадию и озвучить планы на 2023 год.

В 2018 году произошла большая реформа - трансформация в глобальное движение и настоящее сообщество. Теперь это движение Creative Commons, состоящее из тех, кто работал над лицензиями, помогал их популяризации и внедрению, работал в проектах, использующих эти лицензии, кто поддерживает идеи организации и глобальную реформу авторских прав. Наиболее активная часть движения - это Creative Commons Global Network - сообщество опытных физлиц и юрлиц, которые предоставили информацию о своих заслугах перед движением - от активизма в реформе авторских прав и юридической работы до работы в области открытых данных, открытой науки и открытых образовательных ресурсов.

Когда новые правила вступили в силу, все старые договоры с партнёрскими организациями утратили силу. Раньше это были, по сути, команды юристов и тех, кто им помогает. Отделение (chapter) в каждой стране теперь создаётся заново на основе CCGN. Это меритократичный, но в то же время открытый и более простой процесс объединения в сообщество, который может проходить полностью онлайн.

Из всех постсоветских стран члены CCGN есть только от Украины, России и Казахстана. Создать отделение можно только если от страны вступил хотя бы один член. Другие страны - от Эстонии до Таджикистана - пока не имеют ни одного члена CCGN. Этот пост - часть необходимого по правилам широкого информирования перед созданием отделения и будет полезен для всех желающих участвовать в постсоветских странах. Я расскажу не только о правилах и процессе создания отделения, но и выскажу свои предложения, комментарии, мнение и позицию.

Создаём chapter буквально на ваших глазах!
Всего голосов 50: ↑43 и ↓7+36
Комментарии32

Терабайты в кармане, или Apple Silicon Air для Big Data

Время на прочтение11 мин
Количество просмотров3.2K

Думаете, Apple Silicon Air и iMac выглядят совсем уж "не серьезно" для задач обработки многотерабайтных данных? Я сам так и думал, к счастью, реальность оказалась намного интереснее. Давайте посмотрим на топовые Apple Silicon M1 iMac и M2 Air на примерах работы с данными спутниковой интерферометрии (мое хобби и, порой, работа).


PyGMTSAR Jupyter notebooks

Ниже есть ссылки на образы Docker, так что все результаты легко воспроизвести на разных операционных системах и устройствах.


Попробуйте сверхбыстрый хостинг в России от AdminVPS

Читать дальше →
Всего голосов 12: ↑8 и ↓4+4
Комментарии13
Изменить настройки темы

Вклад авторов