Название статьи содержит каламбур: language layers / language lawyers. Стихотворные фрагменты — переделки популярных песен, стоило бы дать на них ссылки.
Не очень понял, как последующее содержание статьи бьётся с перечнем этапов в начале, но да ладно.
Потом приступаем к этапу пилотирования, он займет три-четыре месяца – мы должны построить базовую модель и понять, применимо ли к ней машинной обучение
Расскажите, пожалуйста, пару случаев, когда ответ был отрицательным. Или про это рассказывают куски о проблемах с качеством данных?
Хотелось бы точно понимать, в каком отношении этот подход находится к микросервисной архитектуре. Микросервисы — подход к созданию приложений, и связанные с ним (им вдохновленные, естественные или необходимые в его рамках и пр.) подходы к работе с данными, быть может, довольно беспроблемны при работе с application data. Но еnterprise data — это не application data.
Мне в статье на сайте Фаулера показались ничем не обеспеченными заявления о том, что данные при таком подходе внезапно обретают самоописания и семантику и отдельные домены перестают быть data silos. По-моему, это то, что при использовании такого подхода должно быть решено в первую очередь, а не то, что им решается. Вот про НСИ в комментариях выше писали, например.
В чем отличие концепции Data Mesh от гартнеровской концепции Data Fabric? Может быть, в том, что во второй эти проблемы осознаются и как-то решаются?
Puppy, на мой взгляд, совсем неудачный пример. Лет пять-десять назад Puppy стабильно висел в первой десятке на DistroWatch, да и сейчас выше многих именитых дистрибутивов. Просто кто ж защитит Puppy...
Лет десять назад я предпочел Puppy в качестве настольного Linux всем прочим дистрибутивам. Основная причина — потрясающая локализация. Почти полная, с соблюдением норм русского языка (от орфографии до стилистики), не ломающая интерфейс, практически произведение искусства. Конечно, были и другие причины, но спустя 10 лет они вряд ли актуальны, другие дистрибутивы не стоят на месте, a вот такое качество локализации, думаю, вряд ли где достигнуто (и в самом Puppy, надеюсь, не потеряно).
Вероятно, к маркетингу в том смысле, который в него вкладывает автор статьи, качество локализаций относится. В стандартном понимании к нему можно отнести точное определение целевой аудитории, формирование уникального предложения. С этим у Puppy тоже все в порядке. Он не был первым Linux, не требующим установки, который можно использовать, например, в recovery-целях, раньше него был Knoppix, но он был первым представителем идеологии «все свое рабочее окружение ношу с собой».
Повторюсь: первая десятка на DistroWatch. Вот я бы не отказался от десятого места на DB-Engines (но надо наконец зарегистрироваться :)). И это практически с нулевым бюджетом, во всяком случае, на порядки меньшим, чем у Canonical.
Я же, возможно, что-то напутал, и как «бухгалтерская» задача мне запомнилась вот эта:
Описание данных
The sample data base includes information about persons (an identification number, name, birth-date, and salary), medical histories (identification number of person, absent-from-date, absent-to-date, disease, and comment), education (identification number of person, degree, name of university, start-date at university, stop-date at university), jobs (job number, identification number of person who did the job, actual start-date, actual stop-date, and performance rating), machines (machine number, machine type), schedules (job number, identification number of person assigned, scheduled start-date, scheduled stop-date), skills (skill number, skill description), the possession of skills by persons (identification number of person, skill number), the alternative skills needed to operate machines (machine number, skill number).
Постановка задачи
The sample application can be stated as follows: given machine X, a job number Y, the desired start-date A for the job, and the desired stop-date B, find the identification number of a person who has a skill appropriate for the operation of machine X, and who is not scheduled at all between date A and data B; schedule this person, if one is located.
Не, ну… Я конечно за то чтобы подбирать инструменты под задачу, но в данном случае это зоопарк технологий непонятно для чего.
Да, здесь не под задачи, а под радости и боли автора статьи. Конечно, из таких соображений строить архитектуру хранения не стоит.
Что до зоопарка самого по себе…
«NoSQL Distilled» Фаулера и Садаладжа в оригинале имеет вовсе не такой заголовок, как в переводе. Зоопарк (polyglot persistence), видимо, неизбежное следствие NoSQL, о чем читатели оригинала были честно предупреждены. Возникающие проблемы авторы предвидели, но недооценили. В связи с чем придумывают мультимодельные СУБД (немного писал о них здесь). PostgreSQL в качестве мультимодельной СУБД скорее не рассматривают, чем рассматривают.
Зачем? Ну если только в пет-проекте попробовать…
Какой был самый большой бюджет у проекта, в котором вам доводилось участвовать? Я наверняка смогу указать «пет-проект» с большим бюджетом.
Может лучше разобраться чего они тормозят?
Иногда в конце концов упираешься в то, что в реляционной модели связи грубо говоря, вычисляются, а в графовой, грубо говоря, хранятся.
Нарастающий (накопительный) итог долго считался одним из вызовов SQL.
Что удивительно, поскольку Кодд в рамках «Великого спора» 1974 года победил Бахмана как раз на всяких бухгалтерских задачках (где-то у Дейта есть эта история).
Но я однажды написал расчет нарастающего итога на SPARQL и сам удивился, как все просто. Требуются только базовые конструкции, нет даже подзапросов.
Прежде чем создавать свой сетевой граф, мы проанализировали многие подобные разработки на рынке и не нашли ни одного продукта, который бы удовлетворял нашим собственным потребностям. В этой статье мы расскажем о том, как мы создавали сетевой граф, как его используем и с какими трудностями столкнулись.
Можно ли попросить вас перечислить «подобные разработки»? А какие технологии вы используете в своем решении?
Традиционно Knowledge Graphs, то есть информационные системы, поддерживающие концептуальное описание предметных областей (как самых общих, так и узко специальных) задумываются и строятся как источники проверенной и единственно верной информации о мире.
Модель предметной области есть почти в любой информационной системе. Стало быть, knowledge graph – это что-то другое, не модель предметной области. Иначе Gartner не объявил бы knowledge graphs чем-то новым и революционным. Информационные-то системы существуют уже бог весть сколько.
Вы ведь вряд ли имеете в виду, что в информационных системах модель физическая, а knowledge graph – модель концептуальная? Да и информационные системы, в которых можно определять концептуальную модель, абстрагируясь от физической, тоже есть довольно давно.
Я бы сказал, что knowledge graphs – это форма существования enterprise data, а не application data, сколь бы графовыми эти последние ни были. Это data fabric done right, так сказать. В принципе, такое понимание близко гартнеровскому: те тоже говорят о knowledge graphs в связи с digital ecosystems и пр. Это понимание не исключает возможности существования информационной системы, занимающей в отношении enterprise data некое выделенное положение.
Мне вот эта статья нравится: https://www.researchgate.net/publication/317124810. В чем-то написанное там созвучно написанному вами. Ну и то, что вы говорите, в отношении того, что можно назвать enterprise data, наверное, справедливо.
Можно дилетантский вопрос… Существуют ли, и если нет, то могли бы иметь смысл и распространенность биржевые деривативы, фиксирующие не обязанность или право совершения сделки, а наоборот, запрет на ее совершение. Ну хотя бы в одном из вариантов (call или put).
Росатом, насколько знаю, в последнее время является основным спонсором «Информационной культуры». Может быть, стоило бы попросить ребят раздобыть и проанализировать данные о структуре смертности, о здоровье новорожденных в этом самом Новоуральске, а потом всем показать? k0shk, что вы скажете?
Не всякий заказчик согласится работать с вами без заключения договора, равно как и вы не со всяким заказчиком согласитесь так работать. Если вы работаете по договору гражданско-правового характера, не будучи при этом ИП, вашим налоговым агентом по уплате НДФЛ обязан будет выступить заказчик. А 13% — это больше, чем 6%.
Ну да, я спрашивал скорее о возможности злоупотребления нарушенным правом (или как это назвать): возможности экс-сотрудника выставить себя жертвой. На самом деле у него все хорошо, конечно. Просто официальная зарплата сейчас несколько меньше, а до того полгода без работы на Багамах сидел.
Уточню-подчеркну, что речь идёт о расширении списка регионов деятельности самозанятых, а не списка регионов их проживания. Проживать и быть зарегистрированным на самом деле и раньше можно было где угодно. Я вот, например, был поставлен на учёт как плательщик налога на профессиональный доход одной из ИФНС г. Екатеринбурга, при этом регионом деятельности указана Москва.
Но рад, конечно, что смогу иметь больше клиентов в регионе проживания. Если у них найдутся деньги, конечно.
Допустим, такое соглашение все же было подписано. Впоследствии сотрудник уволился и длительное время был безработным либо работал в слегка иной сфере с меньшей зарплатой. Сможет ли работник требовать с прежнего работодателя какую-либо компенсацию, мотивируя тем, что ничего за пределами той прежней сферы он не умеет, а работать в ней, как он полагал, ему нельзя? Каковы судебные перспективы? Будут ли они лучше, если прежнему работодателю было направлено предложение о расторжении того NCA и получен отказ? Если был фиктивный оффер от компании-конкурента и пр.?
Сама-то формулировка не Кодда, а сторонников CODASYL. О некоторой неестественности формулировки см. также у Дейта.
Чуть более серьезное: Collapsing the IT Stack and Clearing a Path for AI Adoption от Алана Моррисона из PwC, особенно слайд 12. Докладчик, кстати, владеет русским.
Название статьи содержит каламбур: language layers / language lawyers. Стихотворные фрагменты — переделки популярных песен, стоило бы дать на них ссылки.
P.S. В оригинале тоже «ELIXER», а не «ELIXIR».
Не очень понял, как последующее содержание статьи бьётся с перечнем этапов в начале, но да ладно.
Расскажите, пожалуйста, пару случаев, когда ответ был отрицательным. Или про это рассказывают куски о проблемах с качеством данных?
Хотелось бы точно понимать, в каком отношении этот подход находится к микросервисной архитектуре. Микросервисы — подход к созданию приложений, и связанные с ним (им вдохновленные, естественные или необходимые в его рамках и пр.) подходы к работе с данными, быть может, довольно беспроблемны при работе с application data. Но еnterprise data — это не application data.
Мне в статье на сайте Фаулера показались ничем не обеспеченными заявления о том, что данные при таком подходе внезапно обретают самоописания и семантику и отдельные домены перестают быть data silos. По-моему, это то, что при использовании такого подхода должно быть решено в первую очередь, а не то, что им решается. Вот про НСИ в комментариях выше писали, например.
В чем отличие концепции Data Mesh от гартнеровской концепции Data Fabric? Может быть, в том, что во второй эти проблемы осознаются и как-то решаются?
Puppy, на мой взгляд, совсем неудачный пример. Лет пять-десять назад Puppy стабильно висел в первой десятке на DistroWatch, да и сейчас выше многих именитых дистрибутивов. Просто кто ж защитит Puppy...
Лет десять назад я предпочел Puppy в качестве настольного Linux всем прочим дистрибутивам. Основная причина — потрясающая локализация. Почти полная, с соблюдением норм русского языка (от орфографии до стилистики), не ломающая интерфейс, практически произведение искусства. Конечно, были и другие причины, но спустя 10 лет они вряд ли актуальны, другие дистрибутивы не стоят на месте, a вот такое качество локализации, думаю, вряд ли где достигнуто (и в самом Puppy, надеюсь, не потеряно).
Вероятно, к маркетингу в том смысле, который в него вкладывает автор статьи, качество локализаций относится. В стандартном понимании к нему можно отнести точное определение целевой аудитории, формирование уникального предложения. С этим у Puppy тоже все в порядке. Он не был первым Linux, не требующим установки, который можно использовать, например, в recovery-целях, раньше него был Knoppix, но он был первым представителем идеологии «все свое рабочее окружение ношу с собой».
Повторюсь: первая десятка на DistroWatch. Вот я бы не отказался от десятого места на DB-Engines (но надо наконец зарегистрироваться :)). И это практически с нулевым бюджетом, во всяком случае, на порядки меньшим, чем у Canonical.
GNOME Tracker из Sailfish OS не выкинули еще? Запросов на SPARQL не доводилось писать? Не испытывали трудностей?
А сами задачи этого года можно сюда выложить? Или организаторы запрещают?
ОК, спасибо, интересно!
Я же, возможно, что-то напутал, и как «бухгалтерская» задача мне запомнилась вот эта:
The sample data base includes information about persons (an identification number, name, birth-date, and salary), medical histories (identification number of person, absent-from-date, absent-to-date, disease, and comment), education (identification number of person, degree, name of university, start-date at university, stop-date at university), jobs (job number, identification number of person who did the job, actual start-date, actual stop-date, and performance rating), machines (machine number, machine type), schedules (job number, identification number of person assigned, scheduled start-date, scheduled stop-date), skills (skill number, skill description), the possession of skills by persons (identification number of person, skill number), the alternative skills needed to operate machines (machine number, skill number).
The sample application can be stated as follows: given machine X, a job number Y, the desired start-date A for the job, and the desired stop-date B, find the identification number of a person who has a skill appropriate for the operation of machine X, and who is not scheduled at all between date A and data B; schedule this person, if one is located.
Предложенное Коддом решение есть в статье Interactive support for non-programmers (сама задача не его). Пересказ статьи есть в шестой главе недавно вышедшей книги Дейта Codd and Relational Theory.
Да, здесь не под задачи, а под радости и боли автора статьи. Конечно, из таких соображений строить архитектуру хранения не стоит.
«NoSQL Distilled» Фаулера и Садаладжа в оригинале имеет вовсе не такой заголовок, как в переводе. Зоопарк (polyglot persistence), видимо, неизбежное следствие NoSQL, о чем читатели оригинала были честно предупреждены. Возникающие проблемы авторы предвидели, но недооценили. В связи с чем придумывают мультимодельные СУБД (немного писал о них здесь). PostgreSQL в качестве мультимодельной СУБД скорее не рассматривают, чем рассматривают.
Какой был самый большой бюджет у проекта, в котором вам доводилось участвовать? Я наверняка смогу указать «пет-проект» с большим бюджетом.
Иногда в конце концов упираешься в то, что в реляционной модели связи грубо говоря, вычисляются, а в графовой, грубо говоря, хранятся.
apapacy, a Couchbase не пробовали?
Что удивительно, поскольку Кодд в рамках «Великого спора» 1974 года победил Бахмана как раз на всяких бухгалтерских задачках (где-то у Дейта есть эта история).
Но я однажды написал расчет нарастающего итога на SPARQL и сам удивился, как все просто. Требуются только базовые конструкции, нет даже подзапросов.
Или так:
Немного подробнее
До чего приятный язык. Некоторые, впрочем, оконные функции в него все же впиливают.
Было бы любопытно увидеть расчет нарастающего итога на Cypher или Gremlin. Спасибо вам за статью.
Статья от января 2016 года… У нас в проектах, тянущихся с тех времен, похожие решения используются. Но все-таки уже почти три года прошло с тех пор.
Хочется EAV — попробуй RDF-хранилище.
Тормозят JOIN'ы — используй графовую СУБД.
Любишь JSON — есть документные СУБД.
Здорово, спасибо большое!
Можно ли попросить вас перечислить «подобные разработки»? А какие технологии вы используете в своем решении?
Модель предметной области есть почти в любой информационной системе. Стало быть, knowledge graph – это что-то другое, не модель предметной области. Иначе Gartner не объявил бы knowledge graphs чем-то новым и революционным. Информационные-то системы существуют уже бог весть сколько.
Вы ведь вряд ли имеете в виду, что в информационных системах модель физическая, а knowledge graph – модель концептуальная? Да и информационные системы, в которых можно определять концептуальную модель, абстрагируясь от физической, тоже есть довольно давно.
Я бы сказал, что knowledge graphs – это форма существования enterprise data, а не application data, сколь бы графовыми эти последние ни были. Это data fabric done right, так сказать. В принципе, такое понимание близко гартнеровскому: те тоже говорят о knowledge graphs в связи с digital ecosystems и пр. Это понимание не исключает возможности существования информационной системы, занимающей в отношении enterprise data некое выделенное положение.
Мне вот эта статья нравится: https://www.researchgate.net/publication/317124810. В чем-то написанное там созвучно написанному вами. Ну и то, что вы говорите, в отношении того, что можно назвать enterprise data, наверное, справедливо.
Можно дилетантский вопрос… Существуют ли, и если нет, то могли бы иметь смысл и распространенность биржевые деривативы, фиксирующие не обязанность или право совершения сделки, а наоборот, запрет на ее совершение. Ну хотя бы в одном из вариантов (call или put).
Росатом, насколько знаю, в последнее время является основным спонсором «Информационной культуры». Может быть, стоило бы попросить ребят раздобыть и проанализировать данные о структуре смертности, о здоровье новорожденных в этом самом Новоуральске, а потом всем показать? k0shk, что вы скажете?
Не всякий заказчик согласится работать с вами без заключения договора, равно как и вы не со всяким заказчиком согласитесь так работать. Если вы работаете по договору гражданско-правового характера, не будучи при этом ИП, вашим налоговым агентом по уплате НДФЛ обязан будет выступить заказчик. А 13% — это больше, чем 6%.
Ну да, я спрашивал скорее о возможности злоупотребления нарушенным правом (или как это назвать): возможности экс-сотрудника выставить себя жертвой. На самом деле у него все хорошо, конечно. Просто официальная зарплата сейчас несколько меньше, а до того полгода без работы на Багамах сидел.
Уточню-подчеркну, что речь идёт о расширении списка регионов деятельности самозанятых, а не списка регионов их проживания. Проживать и быть зарегистрированным на самом деле и раньше можно было где угодно. Я вот, например, был поставлен на учёт как плательщик налога на профессиональный доход одной из ИФНС г. Екатеринбурга, при этом регионом деятельности указана Москва.
Но рад, конечно, что смогу иметь больше клиентов в регионе проживания. Если у них найдутся деньги, конечно.
Допустим, такое соглашение все же было подписано. Впоследствии сотрудник уволился и длительное время был безработным либо работал в слегка иной сфере с меньшей зарплатой. Сможет ли работник требовать с прежнего работодателя какую-либо компенсацию, мотивируя тем, что ничего за пределами той прежней сферы он не умеет, а работать в ней, как он полагал, ему нельзя? Каковы судебные перспективы? Будут ли они лучше, если прежнему работодателю было направлено предложение о расторжении того NCA и получен отказ? Если был фиктивный оффер от компании-конкурента и пр.?
FYI: https://solid.mit.edu/