Обработка естественного языка — это не только нейронные сети, а данные — это не только строки, числа и перечисления. Область работы с данными простирается намного дальше. К старту флагманского курса по Data Science представляем вашему вниманию перевод из блога разработчиков графовой базы данных neo4j о том, как при помощи SpaCy и Selenium извлечь из книги граф взаимоотношений героев. Подробности и код, как всегда, под катом.
Гравировка
Планет какого типа во Вселенной больше всего?
Как художник видит экзопланету Проксима b. Считается, что она недружелюбна для жизни из-за того, что не имеет атмосферы из-за свойств родительской звезды. Это, как говорят астрономы, «глазеющий» мир – одна сторона планеты постоянно смотрит на звезду, и жарится в её свете, а другая замерзает. Возможно, именно таких планет больше всего во Вселенной.
В астрономии есть один популярный миф о том, что Солнце – это типичная звезда. Если речь о том, что Солнце ничем особенным не выделяется – то да, так и есть. Оно состоит из тех же ингредиентов, что и остальные звёзды. Это 70% водорода, 28% гелия, 1-2% других элементов. Энергию оно получает из ядерного синтеза, происходящего в ядре. В каком-то смысле, это «типичная» звезда, входящая в подавляющее большинство из примерно 1024 звёзд, содержащихся в границах наблюдаемой Вселенной.
Однако на самом деле Солнце ярче и массивнее, а продолжительность его жизни короче, чем у 95% звёзд Вселенной. Если выбрать любую случайную звезду, то с вероятностью 80% это будет красный карлик – он будет меньше, холоднее, тусклее и меньше по массе, чем наше Солнце. Большинство звёзд не такие, как наше Солнце.
Используя Луну в качестве зеркала, ученые подтвердили, что Земля обитаема
Личный опыт невыгорания на удалённой работе
Целостность данных в микросервисной архитектуре — как её обеспечить без распределенных транзакций и жёсткой связности
Всем привет. Как вы, возможно, знаете, раньше я все больше писал и рассказывал про хранилища, Vertica, хранилища больших данных и прочие аналитические вещи. Сейчас в область моей ответственности упали и все остальные базы, не только аналитические, но и OLTP (PostgreSQL), и NOSQL (MongoDB, Redis, Tarantool).
Эта ситуация позволила мне взглянуть на организацию, имеющую несколько баз данных, как на организацию, имеющую одну распределенную гетерогенную (разнородную) базу. Единую распределенную гетерогенную базу, состоящую из кучи PostgreSQL, Redis-ов и Монг… И, возможно, из одной-двух баз Vertica.
Работа этой единой распределенной базы порождает кучу интересных задач. Прежде всего, с точки зрения бизнеса важно, чтобы с данными, движущимися по такой базе, все было нормально. Я специально не использую здесь термин целостность, consistency, т.к. термин это сложный, и в разных нюансах рассмотрения СУБД (ACID и CAP теорема) он имеет разный смысл.
Ситуация с распределенной базой обостряется, если компания пытается перейти на микросервисную архитектуру. Под катом я рассказываю, как обеспечить целостность данных в микросервисной архитектуре без распределенных транзакций и жесткой связности. (А в самом конце объясняю, почему выбрал для статьи такую иллюстрацию).
Информация
- В рейтинге
- Не участвует
- Откуда
- Тамбов, Тамбовская обл., Россия
- Дата рождения
- Зарегистрирован
- Активность