DataHub: организовываем доступ к публичным данным через Predefined Queries / Комментарии / Хабр

AcckiyGerman 22 апр 2023 в 10:04

Привет, "зацепился" глазом за название DataHub и прочитал ваши статьи с обзором интерфейса этого самого Датахаба.

Позвольте задать несколько вопросов.

Интерфейс

Первое, что непонятно - нафига ~~козе баян~~ табличным данным "облачное" хранилище с web-интерфейсом?

Давным давно существует вылизанный поколениями учёных и разработчиков SQL (который вы под капотом и используете). Мощный, гибкий, выразительный.
Для пользователей табличных данных, не умеющих в SQL, есть Excel.
Для пользователей SQL, не умеющих / желающих его учить - есть десятки программ c мощным графическим интерфейсом, начиная от нативных клиентов типа Microsoft Access (или там Microsoft SQL Server Management Studio - суть та же) и кончая веб клиентами от PhpMyAdmin до всяких Amazon RDS и SQL Azure. Их десятки, если не сотни.

Из этих соображений простой вывод: интерфейс вашего Datahub не сможет переплюнуть уже существующие решения в общем случае, ресурсов для разработки не хватит.

Скорость

Та же картина, как и с удобностью интерфейса.
Вы не сможете обрабатывать данные быстрее, чем MySQL под капотом.
А еще же надо индексы в таблицы проставить, исходя из запросов ваших пользователей (а запросы у всех разные, ага).
Так что не забудьте добавить в интерфейс возможность назначать индексы на колонки!
Нажал на кнопочку и положил сервак перестройкой индекса - красота!

Объём

А если пользователь попробует загрузить "большие данные" ? Которые не влезут на вашу VPS (признайтесь честно, у вас же всё на VPS крутится, да)?
Допустим у вас не VPS а большие сервера, облачные СХД, автоматическое скалирование.
Придётся городить инфраструктуру, шардирование, реплицирование
И всё равно ограничивать пользователей в объёмах.
А то любой хацкер положит всё одной /dev/random > datahub upload

Клиентская программа

Вы уже думали кстати про программу клиента для вашего datahub?
Ну чтобы данные загружать/выгружать.
А может и показывать сразу.
А то веб-интерфейсы ненадёжны, в браузерах таймауты, в сессиях обрывы.
Однозначно нужен клиент. Ну типа как git у GitHub.
Я вам и название подскажу.
Aккуратно отрезаем от названия проекта суффикс Hub и остаётся самая суть - data.
data upload, data fetch и т.д.
Коротко и понятно, не запутаться.
"John, use data to upload data on Datahub?" или "Upload data using data! Where? - To Data (Hub)!"

Хотя лучше всего было бы использовать клиент mysql. Ну который apt install mysql-client
А на сервере, вы знаете, открыть порт 3306, назначить логин/пароль.
Хахаха, это было бы конечно слишком просто.
Вам нужен модный современный консольный клиент на Node.js
Не не, Node вышел из моды - на Go!
Клиент чтобы XML понимал и Excel и JSON и все остальные форматы, какие у поставщиков данных бывают.
А потом на основе этого клиента сделаете Electron приложение (срочно переписываем назад на Node.js, для консистентности кода) мегабайт этак на 100 размером.
Меньше наверное не получится, а делать нативный клиент под каждую платформу, так это ж програмистов десяток нужен будет.

Предварительный итог

В общем можно долго обсуждать возникающие перед вами технические проблемы.
Перед вами стоит ряд сложных задач (давно и многократно решённых в других продуктах)
Но вы собираетесь хорошенько побится об них лбом.
И всем читателям уже очевидно, что DataHub затеяли не ради удобного интерфейса, скорости, надёжности. А зачем?
Ясно же зачем! Данные продавать!

Откуда деньги?

Как же продать данные и/или сервис по продаже данных?
"Чтобы чтото продать, надо вначале чтото купить, а у нас ~~денег~~ данных нет!"

Итак, пользователь видит ваш проект для хранения данных.

С ограниченным интерфейсом.
С ограниченной скоростью.
С ограничениями по объёмам.
С дурацким клиентом (в идеальном будущем, а пока только браузер), который никогда не догонит обычный MySQL клиент.

Любому продвинутому пользователю очевидно - для хранения данных ваш сервис не подходит.
Для настройки репликации, например, ему нужно звонить в техподдержку и платить денежку.
Проще и дешевле свой сервер использовать. Ну или SQL Azure.

Хотя может у вас есть интересующие пользователя данные?

Хммм, а интересных данных еще никто не загрузил.
Срочно ищём Junior Data Scientist в команду!!!
Чтобы искать и загружать данные, пустой сайт не продать!
Ну вот уже загружено чтото интересное - статистика по ковиду там.
Или история цен акций. Биржевых ботов тренировать.
А что? Нельзя что-ли данные дублировать?
Мы не зря диски крутим, мы сохранили и приумножили!

Любому исследователю данных очевидно, что данных вы сами не генерируете.
А любые интересные данные вы загрузили из открытых источников.
Он их и сам бесплатно загрузит.

Итак, в качестве вашей цели остаются только обладатели интересных данных, желающие их продать.
Ну и искатели труднодоступных данных, желающие их купить.
Хакеры?
Ненене, хакеры свои данные в даркнете продают через биткоины. А то чревато.
Да вы и сами не захотите таких данных на сервере.
(Не будем шутить про швабры, бутылки и другие методы из арсенала имперской полиции).

Учёные?
Но учёные данные принадлежат правительству или корпорации, которое исследования оплатило.
Здесь тоже облом.

Кому же блин продать этот, такой классный на первый взгляд стартап?
Или кто будет на него свои данные загружать и хранить?
Государство!
Ему родному продать!
В рамках импортозамещения!
Чтобы данные надёжно хранились! На родине!
Правда продукт пока слабоват.
Данные по закону Яровой - не поместятся.
Данные призывников разве что.
Придётся интерфейсов прикрутить, для взаимодействия с другими госорганами, но это дело наживное.

Конец!

А хотя нет, не конец.
Есть еще конкурент буржуйский! - https://datahub.io/
Они уже далеко по этой дорожке продвинулись.

[x] идея по аналогии с GitHub - есть
[x] веб интерфейс, ~~скорость~~ тормоза, ограничения по объёмам
[x] раздутая консольная программа и ГУИ на электроне - есть, а то как же ? (называется - труляля! - data!!!!!)
[x] свои библиотеки и протоколы, свои форматы хранения данных - а как же! под 300 репозиториев. Не так-то просто догнать mysql по возможностям обработки данных, но они очень стараются.
[ ] пользовательская база - небольшая (я так думаю что в основном через личные и профессиональные контакты основателя)
[ ] доход от пользователей - наверное есть, но на зарплаты программистам не всегда хватает
[x] Зато есть научные гранты!!! Чиновники европейские не абы что спонсируют, а целую новую экосистему хранения данных!
[x] Увольнения работников, когда грантов нет, и возобновление работы, когда есть. Присутствует.

Уважаемый Андрей.
Судя по вашим статьям, вы программист, который вначале изучал экосистему iOS, потом нейросети, а вот теперь вас занесло на эту кривую дорожку.
Вы ли сами такой проект придумали или наткнулись на datahub.io (который очень хочет казаться успешным) и решили повторить успех.
Или вас нанял основатель компании, который сам идею придумал (что вряд ли) или скопировал.

В любом случае - ввиду обозначенных технических, концептуальных и бизнес проблем,
стартап ваш не имеет перспектив кроме продажи государству или тупым инвесторам!
Пожалуйста, не вредите инвесторам.
Не вредите государству (в случае если оно решит эту херню купить).
Не вредите самому себе (потраченное лично вами на этот безполезный проект время).
Бросайте и увольняйтесь.
И вашему начальнику (директору, инвестору) покажите.

Я работал в Datahub.io , видел все их проблемы изнутри .
Я осветил эти проблемы вам.
Умные буржуи (PhD там работают) за 6 лет не могут признать, что они в тупике.
Всё множат технические решения, и всё никак не догонят обычный Mysql.
Все мечутся и ищут покупателей.
И каждый потенциальный покупатель выдаёт свои требования, которые прогаммисты по полгода внедряют, но их потом всё равно отказываются покупать.

Не идите туда. Положитесь на чужой опыт.

DataHub: организовываем доступ к публичным данным через Predefined Queries

Комментарии 2

Публикации