Очередная порция анонсов и новинок с ежегодной масштабной облачной конференции AWS re:Invent 2020. В этот раз в области аналитики и сетевой инфраструктуры. Многие возможности уже доступны для предварительного ознакомления, какие именно — читайте ниже. Подробнее новинки обсудят архитекторы AWS в русскоязычном твитче, который они регулярно проводят в дни re:Invent. Ссылка на twitch-стрим в конце материала.
Новый функционал AWS Lake Formation: транзакции, безопасность на уровне строк и улучшение производительности доступны для предварительного ознакомления. Функционал работает через новые, открытые и общедоступные API-интерфейсы обновления и доступа к озерам данных.
Транзакции реализованы с помощью “governed tables” нового типа таблиц на основе Amazon S3, который поддерживает ACID транзакции. Транзакции позволяют упростить скрипты преобразования данных (ETL) и дают возможность разным пользователям одновременно и гарантированно добавлять, удалять и модифицировать записи в различных управляемых таблицах.
AWS Lake Formation автоматически сжимает и оптимизирует хранилище управляемых таблиц в фоновом режиме для улучшения производительности при запросах данных.
Подробнее тут
RA3.xlplus — третий и самый малый тип нод семейства RA3. RA3 позволяет масштабировать вычислительные мощности и хранилище раздельно, что расширяет выбор вычислительных мощностей для кластеров Amazon Redshift.
Подробнее тут
Функция перемещения кластера переносит кластер в другую AZ за один шаг без необходимости внесения изменений в приложение. Когда кластер перемещается в другую AZ, новый кластер будет иметь тот же самый endpoint, чтобы приложения могли продолжать работу без изменений. Функция бесплатна и доступна для RA3 кластеров.
Подробнее тут
Автоматическая оптимизация таблиц постоянно следит, как запросы взаимодействуют с таблицами, и использует машинное обучение для выбора наилучших ключей сортировки и дистрибуции, чтобы оптимизировать производительность запросов в кластере.
Подробнее тут
Доступна для пробного ознакомления новая функция совместного доступа к данным в Amazon Redshift, которая позволяет безопасно и легко обмениваться данными между кластерами Redshift в реальном времени. Совместное использование данных позволяет упростить их обработку, повысить производительность и уменьшить затраты — все то, к чему вы привыкли в рамках одного кластера Redshift, теперь доступно и в нескольких кластерах при одновременной работе над данными.
Благодаря использованию управляемого хранилища данных, отделенного от вычислительных узлов семейства RA3, появилась возможность получить мгновенный и высокопроизводительный доступ к данным из нескольких кластеров без необходимости их копирования или перемещения. Также исключается чтение устаревших данных — все кластеры работают над единственной, всегда актуальной копией данных, со всеми последними изменениями. Использование совместного доступа к данным в кластерах Amazon Redshift не требует дополнительных затрат.
Подробнее тут
Федеративные запросы Amazon Redshift позволяют подключать данные из транзакционных баз данных для BI и приложений отчетов для операционной аналитики. Оптимизатор Amazon Redshift передает и распределяет часть вычислений на удаленные базы данных для ускорения производительности путем уменьшения переносимого по сети трафика. Сегодня мы расширяем возможности федеративных запросов на Amazon RDS для MySQL и Amazon Aurora для MySQL. Функция доступна для предварительного ознакомления.
Сегодня мы представляем для предварительного ознакомления встроенную поддержку JSON и слабоструктурированных данных в Amazon Redshift. Для хранения используется новый тип данных ‘SUPER’ который позволяет хранить слабоструктурированные данные в таблицах Redshift. Также добавлена поддержка языка запросов PartiQL для запросов и обработки таких данных.
Подробнее тут
Amazon EMR Studio (предварительное ознакомление)
Анонсирована Amazon EMR Studio — интегрированная среда разработки на базе Jupyter. Она поддерживает аутентификацию с помощью корпоративных SSO провайдеров и позволяет аналитикам и дата инженерам разрабатывать аналитические приложения и системы обработки данных на R, Python, Scala и PySpark. Также доступны Spark UI и YARN Timeline Service для облегчения дебага. Ноутбуки EMR Studio будут работать на существующих кластерах EMR, или запускать новые с помощью готовых шаблонов CloudFormation для EMR.
Детали тут
С помощью нового способа развертывания EMR (Amazon EMR on Amazon EKS), клиенты могут автоматизировать создание и управление фреймворков для больших данных на основе открытого кода на базе Amazon EKS. Теперь клиенты могут запускать Spark приложения совместно с другими типами приложений в рамках одного EKS кластера и получить улучшения по утилизации ресурсов и простоту управления инфраструктурой.
Amazon EMR автоматически упаковывает приложение в контейнер с big-data фреймворком и предоставляет готовые коннекторы для интеграции с другими сервисами AWS. Затем, EMR развертывает приложение на кластере EKS и управляет логированием и мониторингом. Используя EMR на EKS, вы можете получать в 3 раза более высокую производительность, используя оптимизированную по производительности среду исполнения Spark, включенную в EMR по сравнению со стандартным Apache Spark на EKS.
Подробнее тут
Новый сервис VPC Reachability Analyzer позволяет диагностировать сетевую доступность между двумя точками трафика (endpoints) без необходимости отправки сетевых пакетов. Сервис считывает конфигурацию всех ресурсов в VPC и использует автоматический анализ (reasoning) для определения доступных сетевых путей прохождения трафика. Он анализирует все возможные пути прохождения трафика внутри сети без отправки сетевых пакетов. Чтобы узнать больше о работе алгоритмов автоматического анализа, смотрите re:Invent сессию или читайте этот документ.
Подробнее тут
Оверлейные SD-WANs (Software Defined Wide Area Networks) используются для соединения офисов или датацентров через публичный Интернет. К этим же сетям сейчас требуется подключать и облачную инфраструктуру. Сервис AWS Transit Gateway часто используется на границе сети, чтобы подключить свои сети к бекбону AWS.
А с добавлением функциональности AWS Transit Gateway Connect появился простой способ расширить свою SD-WAN инфраструктуру в облако AWS. Вместо нескольких IPsec VPN туннелей между Transit Gateway и сетевыми устройствами SD-WAN, Transit Gateway Connect использует GRE туннели. Также он поддерживает динамическую маршрутизацию BGP, интегрируется с сервисом мониторинга AWS Transit Gateway Network Manager и набором партнерских решений.
Все это упрощает дизайн сети, улучшает производительность и облегчает расширение в AWS сетей SD-WAN.
Подробнее тут
В AWS Transit Gateway появилась поддержка Internet Group Management Protocol (IGMP), благодаря чему стало проще управлять приложениями, использующими IP multicast.
Клиенты и ранее использовали AWS Transit Gateway для запуска мультикаст приложений в облаке. Теперь с поддержкой IGMP их стало проще масштабировать и управлять членством в мультикаст-группах. Больше не нужно конфигурировать статические мультикаст группы, источники и приемники, Transit Gateway автоматически добавляет и удаляет членов групп, используя протокол IGMP.
IGMP — это открытый стандарт, и многие мультикаст приложения на него полагаются. Теперь стало проще мигрировать их в облако.
Подробнее тут
Все новинки в области аналитики и сетевой инфраструктуры сегодня будут обсуждаться в русскоязычном twitch-стриме. Ведущие solution архитекторы AWS выбрали все самое интересное, многое уже поюзали и теперь обменяются впечатлениями от новинок и ответят на все ваши вопросы. Если вы еще не подключались к стримам — ссылка на регистрацию. Кстати, в твитче можно посмотреть записи предыдущих русскоязычных стримов, если вы их пропустили.
Предыдущие новинки AWS re:Invent 2020:
AWS re:Invent. Главные анонсы первого дня (Andy Jassy, Business Applications)
AWS re:Invent. Главные анонсы первого дня (Storage)
AWS re:Invent 2020 Keynotes — Machine Learning
Analytics
AWS Lake Formation новый функционал (предварительное ознакомление)
Новый функционал AWS Lake Formation: транзакции, безопасность на уровне строк и улучшение производительности доступны для предварительного ознакомления. Функционал работает через новые, открытые и общедоступные API-интерфейсы обновления и доступа к озерам данных.
Транзакции реализованы с помощью “governed tables” нового типа таблиц на основе Amazon S3, который поддерживает ACID транзакции. Транзакции позволяют упростить скрипты преобразования данных (ETL) и дают возможность разным пользователям одновременно и гарантированно добавлять, удалять и модифицировать записи в различных управляемых таблицах.
AWS Lake Formation автоматически сжимает и оптимизирует хранилище управляемых таблиц в фоновом режиме для улучшения производительности при запросах данных.
Подробнее тут
Redshift
RA3.xlplus ноды и дополнительные анонсы для Amazon Redshift
RA3.xlplus — третий и самый малый тип нод семейства RA3. RA3 позволяет масштабировать вычислительные мощности и хранилище раздельно, что расширяет выбор вычислительных мощностей для кластеров Amazon Redshift.
Подробнее тут
Возможность перемещать кластер между зонами доступности (AZ)
Функция перемещения кластера переносит кластер в другую AZ за один шаг без необходимости внесения изменений в приложение. Когда кластер перемещается в другую AZ, новый кластер будет иметь тот же самый endpoint, чтобы приложения могли продолжать работу без изменений. Функция бесплатна и доступна для RA3 кластеров.
Подробнее тут
Автоматическая оптимизация таблиц
Автоматическая оптимизация таблиц постоянно следит, как запросы взаимодействуют с таблицами, и использует машинное обучение для выбора наилучших ключей сортировки и дистрибуции, чтобы оптимизировать производительность запросов в кластере.
Подробнее тут
Обмен данными между кластерами Amazon Redshift (предварительное ознакомление)
Доступна для пробного ознакомления новая функция совместного доступа к данным в Amazon Redshift, которая позволяет безопасно и легко обмениваться данными между кластерами Redshift в реальном времени. Совместное использование данных позволяет упростить их обработку, повысить производительность и уменьшить затраты — все то, к чему вы привыкли в рамках одного кластера Redshift, теперь доступно и в нескольких кластерах при одновременной работе над данными.
Благодаря использованию управляемого хранилища данных, отделенного от вычислительных узлов семейства RA3, появилась возможность получить мгновенный и высокопроизводительный доступ к данным из нескольких кластеров без необходимости их копирования или перемещения. Также исключается чтение устаревших данных — все кластеры работают над единственной, всегда актуальной копией данных, со всеми последними изменениями. Использование совместного доступа к данным в кластерах Amazon Redshift не требует дополнительных затрат.
Подробнее тут
Amazon Redshift и базы данных Amazon RDS для MySQL и Amazon Aurora MySQL для федеративных запросов (предварительный доступ)
Федеративные запросы Amazon Redshift позволяют подключать данные из транзакционных баз данных для BI и приложений отчетов для операционной аналитики. Оптимизатор Amazon Redshift передает и распределяет часть вычислений на удаленные базы данных для ускорения производительности путем уменьшения переносимого по сети трафика. Сегодня мы расширяем возможности федеративных запросов на Amazon RDS для MySQL и Amazon Aurora для MySQL. Функция доступна для предварительного ознакомления.
Встроенная поддержка JSON (предварительный доступ)
Сегодня мы представляем для предварительного ознакомления встроенную поддержку JSON и слабоструктурированных данных в Amazon Redshift. Для хранения используется новый тип данных ‘SUPER’ который позволяет хранить слабоструктурированные данные в таблицах Redshift. Также добавлена поддержка языка запросов PartiQL для запросов и обработки таких данных.
Подробнее тут
Amazon EMR Studio (предварительное ознакомление)
Анонсирована Amazon EMR Studio — интегрированная среда разработки на базе Jupyter. Она поддерживает аутентификацию с помощью корпоративных SSO провайдеров и позволяет аналитикам и дата инженерам разрабатывать аналитические приложения и системы обработки данных на R, Python, Scala и PySpark. Также доступны Spark UI и YARN Timeline Service для облегчения дебага. Ноутбуки EMR Studio будут работать на существующих кластерах EMR, или запускать новые с помощью готовых шаблонов CloudFormation для EMR. Детали тут
Amazon EMR на Amazon EKS
С помощью нового способа развертывания EMR (Amazon EMR on Amazon EKS), клиенты могут автоматизировать создание и управление фреймворков для больших данных на основе открытого кода на базе Amazon EKS. Теперь клиенты могут запускать Spark приложения совместно с другими типами приложений в рамках одного EKS кластера и получить улучшения по утилизации ресурсов и простоту управления инфраструктурой.
Amazon EMR автоматически упаковывает приложение в контейнер с big-data фреймворком и предоставляет готовые коннекторы для интеграции с другими сервисами AWS. Затем, EMR развертывает приложение на кластере EKS и управляет логированием и мониторингом. Используя EMR на EKS, вы можете получать в 3 раза более высокую производительность, используя оптимизированную по производительности среду исполнения Spark, включенную в EMR по сравнению со стандартным Apache Spark на EKS.
Подробнее тут
Networking
VPC Reachability Analyzer
Новый сервис VPC Reachability Analyzer позволяет диагностировать сетевую доступность между двумя точками трафика (endpoints) без необходимости отправки сетевых пакетов. Сервис считывает конфигурацию всех ресурсов в VPC и использует автоматический анализ (reasoning) для определения доступных сетевых путей прохождения трафика. Он анализирует все возможные пути прохождения трафика внутри сети без отправки сетевых пакетов. Чтобы узнать больше о работе алгоритмов автоматического анализа, смотрите re:Invent сессию или читайте этот документ.
Подробнее тут
AWS Transit Gateway Connect
Оверлейные SD-WANs (Software Defined Wide Area Networks) используются для соединения офисов или датацентров через публичный Интернет. К этим же сетям сейчас требуется подключать и облачную инфраструктуру. Сервис AWS Transit Gateway часто используется на границе сети, чтобы подключить свои сети к бекбону AWS.
А с добавлением функциональности AWS Transit Gateway Connect появился простой способ расширить свою SD-WAN инфраструктуру в облако AWS. Вместо нескольких IPsec VPN туннелей между Transit Gateway и сетевыми устройствами SD-WAN, Transit Gateway Connect использует GRE туннели. Также он поддерживает динамическую маршрутизацию BGP, интегрируется с сервисом мониторинга AWS Transit Gateway Network Manager и набором партнерских решений.
Все это упрощает дизайн сети, улучшает производительность и облегчает расширение в AWS сетей SD-WAN.
Подробнее тут
Поддержка IGMP в AWS Transit Gateway
В AWS Transit Gateway появилась поддержка Internet Group Management Protocol (IGMP), благодаря чему стало проще управлять приложениями, использующими IP multicast.
Клиенты и ранее использовали AWS Transit Gateway для запуска мультикаст приложений в облаке. Теперь с поддержкой IGMP их стало проще масштабировать и управлять членством в мультикаст-группах. Больше не нужно конфигурировать статические мультикаст группы, источники и приемники, Transit Gateway автоматически добавляет и удаляет членов групп, используя протокол IGMP.
IGMP — это открытый стандарт, и многие мультикаст приложения на него полагаются. Теперь стало проще мигрировать их в облако.
Подробнее тут
Русскоязычная Twitch-сессия
Все новинки в области аналитики и сетевой инфраструктуры сегодня будут обсуждаться в русскоязычном twitch-стриме. Ведущие solution архитекторы AWS выбрали все самое интересное, многое уже поюзали и теперь обменяются впечатлениями от новинок и ответят на все ваши вопросы. Если вы еще не подключались к стримам — ссылка на регистрацию. Кстати, в твитче можно посмотреть записи предыдущих русскоязычных стримов, если вы их пропустили.
Предыдущие новинки AWS re:Invent 2020:
AWS re:Invent. Главные анонсы первого дня (Andy Jassy, Business Applications)
AWS re:Invent. Главные анонсы первого дня (Storage)
AWS re:Invent 2020 Keynotes — Machine Learning