Открытые данные *

Данные будут свободны!

Статьи Посты Новости Авторы Компании

GlobalSign_admin 28 апр 2023 в 20:14

Бесплатный доступ к PDF 2.0

5 мин

6.7K

Блог компании GlobalSignКриптография*IT-стандарты*PDFОткрытые данные*

В начале года мы задавались вопросом, почему стандарты ИСО не публикуют в открытом доступе, хотя эти знания нужны и полезны для человечества? По мнению некоторых представителей IT-индустрии, платный доступ к документам — не самая эффективная политика. Особенно когда дело касается общественно важных стандартов, таких как ISO 8601 — Представление дат и времени (в интернет-магазине первая часть продаётся за 166 франков) или ISO 639 — Коды для представления названий языков (тоже две части по 166 CHF). Платный доступ — искусственный барьер, который только мешает.

Для отдельных стандартов находятся спонсоры, которые оплачивают организации ИСО расходы, чтобы выложить документы в открытом доступе для всех. Это относится и к новому пакету стандартов PDF 2.0, принятому в 2017–2022 гг (разные части), который пришёл на смену прежним версиям PDF 1.0–1.7.

Читать дальше →

+14

AndrewShmig 24 апр 2023 в 12:28

DataHub: веб-песочница для тех, кто изучает SQL

Простой

4 мин

12K

SQL*Data Mining*Big Data*Открытые данные*Хранение данных*

Туториал

Привет! Меня зовут Андрей Шмиг, я разработчик платформы DataHub, платформа для совместной работы над данными - своего рода GitHub для данных. В этой статье покажу на что способен веб-редактор MySQL хранилища и почему это отличный инструмент для работы тем, кто изучает SQL.

VASExperts 22 апр 2023 в 12:59

Инфраструктура открытых данных для ИИ — кто и зачем её разрабатывает

3 мин

1.4K

Блог компании VAS ExpertsОткрытые данные*Машинное обучение*Искусственный интеллект

Группа независимых американских организаций планирует построить сеть открытых репозиториев с данными. На их основе будут обучать ML-модели в самых разных отраслях — от медицины до климатических исследований. Инициатива пока находится на самых ранних этапах развития, но мы решили обсудить, зачем она понадобилась.

AndrewShmig 22 апр 2023 в 07:13

DataHub: организовываем доступ к публичным данным через Predefined Queries

Простой

3 мин

1.3K

API*Big Data*Открытые данные*Хранение данных*Хранилища данных*

Туториал

Привет! Меня зовут Андрей Шмиг, я разработчик платформы DataHub, платформа для совместной работы над данными - своего рода GitHub для данных. В этой статье покажу, каким образом можно организовать доступ для внешних пользователей к репозиториям данных через Predefined Queries.

took_the_lead 21 апр 2023 в 17:01

MiniGPT-4, ты что за зверь такой?

Простой

4 мин

15K

Блог компании Timeweb CloudОткрытые данные*Машинное обучение*Искусственный интеллект

Обзор

Не проходит и недели, чтобы что-то новое и очень крутое в области LLM не появилось в сети. На этот раз отличились сотрудники из Научно-технологического университета имени короля Абдаллы (технический исследовательский университет в Саудовской Аравии). Они предложили способ наделения языковой модели функцией мультимодальности. Их ресерч называется «Улучшение понимания языка зрения с помощью усовершенствованных больших языковых моделей» (Enhancing Vision-language Understanding with Advanced Large Language Models).

Читать дальше →

+28

AndrewShmig 21 апр 2023 в 10:21

DataHub: репозитории данных коммерческого типа. Как зарабатывать на доступе к данным?

Простой

4 мин

1.3K

Data Mining*Big Data*Открытые данные*Хранение данных*Хранилища данных*

Туториал

Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub — Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье покажу, каким образом можно монетизировать имеющиеся у вас структурированные и неструктурированные данные будь вы разработчик, data‑scientist или ML‑специалист.

AndrewShmig 20 апр 2023 в 15:03

DataHub: как делиться структурированными данными и получать за них донаты?

Простой

4 мин

1.6K

Data Mining*Big Data*Открытые данные*Хранение данных*Хранилища данных*

Туториал

Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub - Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье речь пойдёт о том, как создать FREE и SPONSORED репозитории данных, а так же в чем их отличия.

took_the_lead 16 апр 2023 в 13:40

Dolly 2 — открытый аналог ChatGPT со свободной лицензией

Простой

9 мин

20K

Открытые данные*Машинное обучение*Искусственный интеллект

Мнение

В конце марта 2023г., компания Databricks выпустила Dolly, большую языковую модель, подобную ChatGPT, дообученную на платформе Databricks Machine Learning Platform. Результат оценки работы модели Dolly показывает, что модель с открытым исходным кодом двухлетней давности (GPT-J) при дообучении на публичном датасете, собранном в Стэнфорде (Stanford Alpaca), на небольшом наборе данных из 50 000 диалогов (вопросов и ответов), может демонстрировать удивительно высокое качество обучения, не характерное для родительской модели (GPT-J), на которой она основана.

Но с первой версией модели Dolly существует одна проблема - датасет от Stanford Alpaca был собран с помощью автоматизированных скриптов от ChatGPT, что нарушает лицензию и правила использования моделей OpenAI.

Чтобы исправить эту проблему, в апреле 2023г. Databricks выпустила
Dolly 2 - большую языковую модель с открытым исходным кодом и открытой лицензией для научных и коммерческих целей.

Dolly 2 - это языковая модель с 12 млрд. параметров, основанная на семействе моделей EleutherAI pythia и дообученная исключительно на новом датасете высокого качества, созданном сотрудниками Databricks с использованием RL from Human Feedback (RLHF).

Databricks открыли исходный код Dolly 2, включая код обучения, сам датасет и веса модели, подходящие для коммерческого использования. Это означает, что любая организация может создавать, владеть и настраивать комплексные модели, не платя за доступ к API или передавая данные третьим сторонам.

+30

Protos 7 апр 2023 в 05:44

Разглашение ПДн Роскомнадзором?

Простой

5 мин

6.2K

Информационная безопасность*Открытые данные*

Мнение

Сегодня поговорим о качестве открытых данных Роскомнадзора на примере набора данных "Реестр операторов, осуществляющих обработку персональных данных".

Данный набор как предполагается должен содержать общедоступную информацию об операторах ПДн. Попробуем понять, какие проблемы имеются у данного набора и что может улучшить Роскомнадзор в процессе обработки уведомлений об обработке ПДн.

+13

0x22almostEvil 3 апр 2023 в 14:13

LAION и энтузиасты по всему миру разрабатывают Open Assistant — открытый аналог ChatGPT

Средний

6 мин

13K

Open source*Открытые данные*Машинное обучение*Искусственный интеллект

Из песочницы

Некоммерческая организация LAION и энтузиасты по всему миру занимаются разработкой Open Assistant — это проект, цель которого в предоставлении всем желающим доступа к продвинутой большой языковой модели, основанной на принципах чат-бота, с конечной целью революции в инновациях в области обработки естественного языка...

+37

klimensky 17 мар 2023 в 14:27

Американский футбол и статистика: зачем в НФЛ собирают данные для анализа игры

20 мин

2.6K

Блог компании FirstVDSОткрытые данные*Научно-популярное

Обработку большого объема данных используют уже все кому не лень. Компании, которые работают с big data и умеют их анализировать, получают разные метрики, на основе которых принимают важнейшие управляющие решения. Будь то анализ данных «Честного знака» для построения маркетинговой стратегии по всей стране или анализ производства, в котором нужно снизить процент брака на основе десятков показателей датчиков и камер машинного зрения.

То же самое относится и к спорту. Но так было не всегда. Подход к анализу статистических показателей игры изменился в 2004 году, когда бейсбольный Boston Red Sox выиграли мировую серию впервые с 1918 года. Причина оказалась простой: они взяли на работу Билла Джеймса, который еще с 1980-х годов обивал пороги команд и пытался объяснить, насколько важно отслеживать метрики игроков (вплоть до роста, веса или скорости подачи), строя игру команд от этого. Чудаковатого гика никто не воспринимал всерьез, но спустя 30 лет его подход изменил индустрию спорта. Думаю, что многие видели замечательный фильм Moneyball с Брэдом Питтом по книге Майкла Льюиса, затрагивающий эту тематику.

Поэтому нет ничего удивительного, что и другие виды спорта в Америке стали применять этот подход. Давайте посмотрим на примере чуждого русскому глазу спорта — американского футбола, как команды НФЛ (национальная футбольная лига — высший дивизион, сродни НХЛ и НБА) используют big data и как это изменило игру. Но придется немного погрузиться в специфику игры, потому что мне кажется, мало кто на Хабре даже знает правила игры в амфут. Попробую кратко рассказать основы — заодно, надеюсь, подтолкну к просмотру этой замечательной игры тех, кто не решался из-за сложности.

Если вдруг вас посетил вопрос «Какая связь у амфута и Хабра» — отвечу, что в амфут играет достаточно много людей из IT. В команде, в которой играю я сам есть люди из Сбера, VK, HH и других IT-компаний.

+16

PYXRU 26 фев 2023 в 02:46

Fitter — сшиватель API/Website's, часть личного проекта которую хотел опенсорснуть

Простой

4 мин

Высокая производительность*Программирование*HTML*Go*Открытые данные*

Кейс

Добрый вечер всем!

Возможно выбрал не лучшее время для охвата аудитории, но тем не менее главное чтоб продукт был хороший, а не статья о нем. Последние несколько недель я пишу приложение в рамках которого надо собирать огромное количество информации из сети(запросы к API/парсинг HTML кода) и под конец 4-ой интеграции я подумал что надо бы это максимально облегчить(не дело это пересобирать приложение под каждый чих интеграции), возможно это не лучшая преамбула, но хотя бы была реальная проблема решение к которой хотелось показать и заопенсорнуть.

Итак Fitter = сшиватель достаточно жаргонный перевод, но мне он кажется что лучше всего подходит. Я делал эту штуки исходя из следующих предположений:

igor_suhorukov 10 фев 2023 в 15:14

Две беды: дороги и полнота данных. Считаем протяженность дорог родины по данным OpenStreetMap

Средний

127 мин

2.3K

PostgreSQL*OpenStreetMap*Геоинформационные сервисы*Открытые данные*

Зачем же обычному человеку информация из прошлой публикации "Как поместить весь мир в обычный ноутбук: PostgreSQL и OpenStreetMap"? Если надоело в пятницу читать мемасики и лайкать фотографии котиков в соцсетях, то можно задаться глобальными проблемами аналитики и посчитать протяженность дорог России. Ведь не за горами времена автомобилей с автопилотами... Это конечно не 42, как ответ на главный вопрос жизни, вселенной и всего такого, но результаты будут тоже достаточно лаконичными.

Для этого нам понадобится ноутбук или обычный десктоп, несколько десятков гигабайт свободного места, установленный docker, JVM 11+, maven и мой проект openstreetmap_h3. Анализировать геоданные мы будем с помощью PostgreSQL 15.1, PostGIS 3.3.2, H3 4.1.1. Исходные данные из проекта OpenStreetMap, запросы к БД не претендуют на правильность и качество исходных данных в масштабе страны нам не известно! Данная публикация является грубой интерпретацией данных OSM в первом приближении и не претендует на истинность и неопровержимость. Так же как не стоит верить оценке Хабра на чтение статьи в 127 минут, что сильно превышает реальные 5 минут, которые вы потратите на ознакомление с публикацией.

+11

SmartEngines 8 фев 2023 в 09:42

DLC-2021, или Жулик, не воруй

4 мин

1.7K

Блог компании Smart EnginesОбработка изображений*Открытые данные*Машинное обучение*Искусственный интеллект

Всем привет! Мы в Smart Engines занимаемся распознаванием документов и часто об этом рассказываем, а еще мы часто публикуем результаты наших исследований в научных статьях и докладах. В результатах за прошлый год мы упомянули, что создали два открытых датасета. Совсем недавно мы писали о созданном нами наборе данных MIDV-2020. Теперь настало время DLC-2021. Ну что, поехали?

Поехали

DigitalTatarstan 2 фев 2023 в 17:00

Управление на основе данных. Что общего между электронным дневником и базой налоговой?

Средний

7 мин

Блог компании Команда Цифровой Трансформации ТатарстанаBig Data*Открытые данные*Хранение данных*

Обзор

Сегодня о подходе к управлению, основанному на данных, не говорит только ленивый. Кто уже имеет с этим дело в своей работе, предлагаем сразу переходить к разделу с описанием опыта Татарстана по управлению данными. А для тех, кто этим направлением раньше не интересовался, Центр цифровой трансформации Татарстана дает пару вводных.

avshkol 23 янв 2023 в 01:07

Обзор библиотек на питоне для моделирования в сфере электроэнергетики

18 мин

6.9K

Python*Открытые данные*Энергия и элементы питанияЭкологияИнженерные системы*

Обзор

Если мы хотим без больших затрат средств и времени создать модель в области электроэнергетики, то питон (python) будет для нас поистине незаменимым языком. Больше всего доступных открытых и бесплатных power-библиотек с хорошей документацией написано именно на питоне, и эта статья будет посвящена их краткому разбору и классификации.

В конце обзора - опросник для тех, кто моделирует технологические или бизнес-процессы в своей сфере деятельности, в любой отрасли...

+11

GlobalSign_admin 18 янв 2023 в 18:51

Почему стандарты ИСО не публикуют в открытом доступе?

4 мин

22K

Блог компании GlobalSignИнформационная безопасность*Open source*IT-стандарты*Открытые данные*

Основатели ИСО, Лондон, 1946

Международная организация по стандартизации создана в 1946 году для выпуска международных стандартов. Первым из них стало само название организации, которое на всех языках мира звучит одинаково: ИСО.

Стандарты ИСО по всем вопросам — от безопасности дорожного движения и игрушек до надёжной медицинской упаковки — помогают сделать мир более безопасным. Но есть вопрос: почему все стандарты не выкладывают в свободный доступ, хотя эти знания нужны и полезны для общего прогресса человечества?

Читать дальше →

+40

meisoff 8 янв 2023 в 17:09

Как собрать базу организаций за час

2 мин

10K

Data Mining*Открытые данные*

Из песочницы

Всем привет, меня зовут Александр Калыргин, сейчас я активно занимаюсь сферой получения и анализа данных. Захотелось показать, как можно без особых проблем получить базы организаций, зарегистрированных в нужном вам регионе.

ruASG 30 дек 2022 в 23:18

(Пере)запускаем отделение Creative Commons в России! Участвуйте и помогайте

37 мин

Open source*Creative Commons*Открытые данные*Законодательство в ITКопирайт

Туториал

Привет, Хабр! Привет всем сторонникам open source, лицензий Creative Commons и прочих альтернативных подходов к авторскому праву! Год назад организация Creative Commons отметила 20 лет с момента основания. А 16 декабря этого года исполнилось 20 лет с момента выпуска её первых лицензий. И в этом юбилейном году я продолжал готовить подарок себе и сообществу.)) Настало время перейти в публичную стадию и озвучить планы на 2023 год.

В 2018 году произошла большая реформа - трансформация в глобальное движение и настоящее сообщество. Теперь это движение Creative Commons, состоящее из тех, кто работал над лицензиями, помогал их популяризации и внедрению, работал в проектах, использующих эти лицензии, кто поддерживает идеи организации и глобальную реформу авторских прав. Наиболее активная часть движения - это Creative Commons Global Network - сообщество опытных физлиц и юрлиц, которые предоставили информацию о своих заслугах перед движением - от активизма в реформе авторских прав и юридической работы до работы в области открытых данных, открытой науки и открытых образовательных ресурсов.

Когда новые правила вступили в силу, все старые договоры с партнёрскими организациями утратили силу. Раньше это были, по сути, команды юристов и тех, кто им помогает. Отделение (chapter) в каждой стране теперь создаётся заново на основе CCGN. Это меритократичный, но в то же время открытый и более простой процесс объединения в сообщество, который может проходить полностью онлайн.

Из всех постсоветских стран члены CCGN есть только от Украины, России и Казахстана. Создать отделение можно только если от страны вступил хотя бы один член. Другие страны - от Эстонии до Таджикистана - пока не имеют ни одного члена CCGN. Этот пост - часть необходимого по правилам широкого информирования перед созданием отделения и будет полезен для всех желающих участвовать в постсоветских странах. Я расскажу не только о правилах и процессе создания отделения, но и выскажу свои предложения, комментарии, мнение и позицию.

Создаём chapter буквально на ваших глазах!

+36

N-Cube 7 дек 2022 в 07:54

Терабайты в кармане, или Apple Silicon Air для Big Data

11 мин

3.2K

Блог компании AdminVPSOpen source*Геоинформационные сервисы*Открытые данные*Научно-популярное

Думаете, Apple Silicon Air и iMac выглядят совсем уж "не серьезно" для задач обработки многотерабайтных данных? Я сам так и думал, к счастью, реальность оказалась намного интереснее. Давайте посмотрим на топовые Apple Silicon M1 iMac и M2 Air на примерах работы с данными спутниковой интерферометрии (мое хобби и, порой, работа).

Ниже есть ссылки на образы Docker, так что все результаты легко воспроизвести на разных операционных системах и устройствах.

Попробуйте сверхбыстрый хостинг в России от AdminVPS

Читать дальше →

1 2

4 5 ...

28 29

Открытые данные *

Бесплатный доступ к PDF 2.0

DataHub: веб-песочница для тех, кто изучает SQL

Инфраструктура открытых данных для ИИ — кто и зачем её разрабатывает

DataHub: организовываем доступ к публичным данным через Predefined Queries

Истории

MiniGPT-4, ты что за зверь такой?

DataHub: репозитории данных коммерческого типа. Как зарабатывать на доступе к данным?

DataHub: как делиться структурированными данными и получать за них донаты?

Dolly 2 — открытый аналог ChatGPT со свободной лицензией

Разглашение ПДн Роскомнадзором?

LAION и энтузиасты по всему миру разрабатывают Open Assistant — открытый аналог ChatGPT

Американский футбол и статистика: зачем в НФЛ собирают данные для анализа игры

Fitter — сшиватель API/Website's, часть личного проекта которую хотел опенсорснуть

Две беды: дороги и полнота данных. Считаем протяженность дорог родины по данным OpenStreetMap

Ближайшие события

DLC-2021, или Жулик, не воруй

Управление на основе данных. Что общего между электронным дневником и базой налоговой?

Обзор библиотек на питоне для моделирования в сфере электроэнергетики

Почему стандарты ИСО не публикуют в открытом доступе?

Как собрать базу организаций за час

(Пере)запускаем отделение Creative Commons в России! Участвуйте и помогайте

Терабайты в кармане, или Apple Silicon Air для Big Data

Вклад авторов