Pull to refresh
  • by relevance
  • by date
  • by rating

Параллельный парсинг большого количества HTML-страниц с помощью Apache Ignite (GridGain) в 200 строк кода

Java *Data Mining *Big Data *
Recovery mode
Периодически у меня появляются задачи обработать большое количество файлов. Обычно это конвертирование из одного формата в другой: XSLT-трансформация, парсинг, конвертация картинок или видео. Для решения этих проблем я приспособил фреймворк GridGain In-Memory Data Fabric. Он дает возможность делать distributed computing, MapReduce, распределенные кэши и очереди, распределенную файловую систему в памяти, перемещение кода к данным, job stealing, ускорители для Hadoop и многие другие модные ныне вещи. И все это легко и под разные операционки. Вы легко можете все это пощупать под виндовс.

Попробую рассказать о своем опыте использования на примере простенькой задачи.
Читать дальше →
Total votes 13: ↑11 and ↓2 +9
Views 28K
Comments 14

Никита Иванов (GridGain): «Мы делаем космические корабли»

Development Management *Venture investment Start-up development Business Models


Компания GridGain Systems, разработчик программных решений на базе Apache Ignite, предоставила клиентам доступ к решениям GridGain In-Memory Data Fabric на облачной платформе Microsoft Azure. Это позволит компаниям-поставщикам финансовых услуг использовать возможности интегрированных облачных служб Microsoft для быстрого развертывания продуктов GridGain и перенести вычисления в оперативную память компьютера.

По оценке аналитиков из IDC, к 2019 году рынок данных вырастет на 50% до $187 миллиардов. Отдельную ценность имеют вычисления в режиме реального времени.

GridGain — один из лидеров в этом сегменте. Будучи небольшим стартапом, компании удалось обойти крупных конкурентов и заключить контракты по всему миру. Причина успеха компании — технологическое ноу-хау? Или, может быть, просто везение?

О нелегкой судьбе наукоемкого ИТ-стартапа, о конкуренции на рынке данных и его перспективах мы поговорили с основателем и генеральным директором компании Никитой Ивановым.
Читать дальше →
Total votes 34: ↑30 and ↓4 +26
Views 17K
Comments 8

[Питер, анонс] Встреча JUG.ru с Андреем Ершовым: «Как мы делали телефонную платформу с использованием GridGain»

JUG Ru Group corporate blog Java *Big Data *


В четверг, 1 декабря, в 20:00 в офисе компании SEMrush состоится встреча JUG.ru с Андреем Ершовым, экспертом по распределенным системам. Андрей расскажет, как они в DINO Systems (Ring Central) сделали телефонную платформу с использованием GridGain. Для понимания большей части доклада знание GridGain или In-Memory Data Grid в целом не является обязательным.
Читать дальше →
Total votes 11: ↑10 and ↓1 +9
Views 2.9K
Comments 0

«Apache Ignite — наукоёмкий продукт»: GridGain Systems о in-memory computing, open source, российском рынке и не только

JUG Ru Group corporate blog Java *


О проекте Apache Ignite слышно всё чаще. Но, как ранее заметил на Хабре один из его разработчиков Владимир Озеров, в двух словах описать проект сложно — а в результате у многих остаются вопросы, начиная с самых базовых. Что проект вообще представляет собой? Как соотносятся Apache Ignite и компания GridGain? Как соотносятся понятия «in-memory data grid» и «in-memory data fabric»?

В программу JBreak и JPoint 2017 вошли доклады спикеров из GridGain, а сама компания стала спонсором обеих конференций — и прямо перед JBreak мы задали накопившиеся у многих вопросы. А ответили на них:

  • Владимир devozerov Озеров (архитектор)
  • Алексей Дмитриев (генеральный директор российского отделения / VP of Engineering)
  • Ирина Тищенко (HR-директор)

Читать дальше →
Total votes 20: ↑17 and ↓3 +14
Views 13K
Comments 8

Для чего нужен Apache Ignite / GridGain, на примере .NET & C#

GridGain corporate blog Java *.NET *SQL *Big Data *

В последнее время имена GridGain и Apache Ignite нередко мелькают в интернетах. Однако, судя по комментариям (например, здесь), мало кто понимает, что же это за продукт и с чем его едят.


В этой статье я попытаюсь доступным языком объяснить, и на примерах кода показать, что умеет Apache Ignite.


Apache Ignite Logo


Читать дальше →
Total votes 23: ↑20 and ↓3 +17
Views 31K
Comments 44

Бесплатные билеты на In-Memory Computing Summit 2017 – Europe

GridGain corporate blog Java *.NET *Big Data *Machine learning *
Всем привет! Возможно, вы знаете, что 20-21 июня в Амстердаме пройдет In-Memory Computing Summit 2017 – Europe. Все детали тут.



Мероприятие, ставшее уже традиционным в США, с этого года также будет ежегодно собирать экспертов из Европы и Азии на новой европейской площадке. На различных секциях конференции выступят представители компаний ING, Intel, Tata Consultancy Services, The Glue, Redis Labs, ScaleOut Software и WSO2.

У меня есть несколько бесплатных билетов, которыми я с удовольствием поделюсь с вами.
Напишите мне на почту mkuznetsov@gridgain.com или в личные сообщения на Хабре. От вас — ФИО и название компании на английском языке, адрес электронной почты и мобильный телефон.

Приезжайте, будет круто!
Total votes 7: ↑4 and ↓3 +1
Views 1.7K
Comments 0

Apache Ignite 2.1 — теперь со вкусом Persistence

GridGain corporate blog Programming *Java *Big Data *
В конце июля вышла версия Apache Ignite 2.1. Apache Ignite — распределенная свободная HTAP-платформа (HTAP — Hybrid Transactional and Analytical Processing, системы, которые могут обрабатывать как транзакционную, так и аналитическую нагрузку) для хранения данных в оперативной памяти и на диске, а также вычислений в реальном времени. Ignite написан на Java и может быть плотно интегрирован с .NET и C++.

Версия 2.1 очень богата на значимые, практически применимые функции, базирующиеся на фундаменте, заложенном в Apache Ignite 2.0.

С Apache Ignite 2.1 можно использовать распределенное дисковое хранилище Apache Ignite Persistent Data Store с поддержкой SQL, первые распределенные алгоритмы машинного обучения, новые функции DDL, и кроме того значительно улучшена поддержка платформ .NET и C++.

Persistent Data Store выводит Apache Ignite в новый сегмент — теперь это не просто in-memory data grid, но полноценная распределенная масштабируемая база данных HTAP с возможностью надежного хранения первичных данных, с поддержкой SQL и обработкой информации в реальном времени.
Читать дальше →
Total votes 17: ↑17 and ↓0 +17
Views 6.6K
Comments 5

«Один из ежедневных процессов ускоряется с 3 часов до 15 минут»: Андрей Богословских о in-memory computing в СберТехе

JUG Ru Group corporate blog Java *


Слова «in-memory computing» звучат заманчиво и футуристично. Кому бы не хотелось устранить «бутылочное горлышко» скорости жёсткого диска, храня и обрабатывая данные в памяти? Но на практике возникают нюансы: например, из-за энергозависимости оперативной памяти данные всё равно надо дублировать в постоянной, и выигрыш получается при чтении, но не при записи. Каково реально работать с этим?

Большим соответствующим опытом обладают «Сбербанк-Технологии», где сейчас активно работают с Apache Ignite и даже инвестировали в создавшую его компанию GridGain. Поэтому мы решили задать несколько вопросов об этом опыте: разумеется, его нельзя слепо переносить на любую другую компанию, но он всё равно ценен. На них ответил Андрей Богословских, директор Центра Компетенции платформы поддержки развития бизнеса.
Читать дальше →
Total votes 33: ↑29 and ↓4 +25
Views 12K
Comments 5

Apache® Ignite™ + Persistent Data Store — In-Memory проникает на диски. Часть I — Durable Memory

GridGain corporate blog Programming *Java *SQL *Big Data *


В Apache Ignite, начиная с версии 2.1 появилась собственная реализация Persistence.

На то, чтобы построить этот механизм в современном его исполнении, ушли десятки человеколет, которые были в основном потрачены на построение распределенного отказоустойчивого транзакционного хранилища с поддержкой SQL.

Всё началось с фундаментальных проблем предыдущего механизма, который позволял интегрировать In-Memory Data Grid с внешними постоянными хранилищами, например, Cassandra или Postgres.

Такой подход накладывал определенные ограничения — например, было невозможно выполнять SQL или распределенные вычисления поверх данных, которые находятся не в памяти, а в таком внешнем хранилище, был невозможен холодный запуск и низкий RTO (Recovery Time Objective) без существенных дополнительных усложнений.

Если вы используете Apache Ignite Persistence, то оставляете себе все обычные возможности Apache Ignite — ACID, распределенные транзакции, распределенный SQL99, доступ через Java/.NET API или интерфейсы JDBC/ODBC, распределенные вычисления и так далее. Но теперь то, что вы используете, может работать как поверх памяти, так и поверх диска, который расширяет память, на инсталляциях от одного узла до нескольких тысяч узлов.

Давайте посмотрим, как устроен Apache Ignite Persistence внутри. Сегодня я рассмотрю его основу — Durable Memory, а в следующей публикации — сам дисковый компонент.
Читать дальше →
Total votes 22: ↑22 and ↓0 +22
Views 8.3K
Comments 3

Используем Apache Ignite в быту

GridGain corporate blog .NET *SQL *C# *Big Data *

В продолжение темы «доступным языком про Ignite / GridGain», начатой в предыдущем посте (Для чего нужен Apache Ignite), давайте рассмотрим примеры использования продукта «для простых смертных».


Терабайты данных, кластеры на сотни машин, big data, high load, machine learning, микросервисы и прочие страшные слова — всё это доступно Ignite. Но это не значит, что он не годится для менее масштабных целей.


Сегодня мы рассмотрим, как Ignite может легко хранить любые ваши объекты, обмениваться ими по сети и обеспечивать взаимодействие .NET и Java.


Apache Ignite.NET


Читать дальше →
Total votes 21: ↑21 and ↓0 +21
Views 13K
Comments 18

Первый в России митап по Apache Ignite, 12 декабря

GridGain corporate blog High performance *Programming *Java *Conferences
Друзья, приглашаем всех на посвящённый Ignite митап 12 декабря в московском ImpactHub (метро Китай-Город). Такие мероприятия мы хотим регулярно проводить в Москве и Санкт-Петербурге, и надеемся, что они станут местом встреч российских пользователей и разработчиков Ignite, специалистов по In-Memory Computing, а также всех, кто интересуется распределенными системами. Здесь можно будет обсудить любые вопросы, связанные с работой или развитием экосистемы.

На первом митапе мы хотим познакомить вас российскими банком и крупным телекомом, использующими Ignite каждый день.

Программа встречи:

— 18:30: Сбор гостей;
— 19:00: Рассказ о внедрении Apache Ignite в Сбербанке (Михаил Хасин, Сбербанк);
— 19:45: «Как мы построили Complex Event Processing крупного телеком-оператора на Apache Ignite» (Виктор Ходяков, Gridfore);
— 20:30: Секретный доклад;
— 21:15: Общение в кулуарах, заключительный кофе;
— 22:00: Окончание.
Читать дальше →
Total votes 11: ↑11 and ↓0 +11
Views 1.8K
Comments 0

Что читают инженеры GridGain. Книги для тех, кто интересуется In-Memory Computing

GridGain corporate blog Programming *System Analysis and Design *Algorithms *Professional literature
Не так давно у нас в корпоративном чате развернулась баталия по поводу бумажных книг и книг вообще. Оказалось, что, несмотря на популярность блогов и обучающих видео, любителей полистать хорошую книгу на читалке, или даже в бумаге, у нас достаточно много. Тем более, к некоторым книгам хочется иногда возвращаться, чтобы уложить всё в голове или поискать решение конкретной задачи.


Мы даже составили небольшой список книг, которые нам очень нравятся. Ну и еще это подсказка для собеседований по нашим свеженьким вакансиям, конечно. Не в смысле запомнить пару названий, а в смысле прочитать, разумеется.
Читать дальше →
Total votes 25: ↑25 and ↓0 +25
Views 11K
Comments 8

Анонс встреч Apache Ignite в Москве и Санкт-Петербурге в марте

GridGain corporate blog High performance *Programming *Java *Conferences

Москва, 20 марта


Видеозаписи выступлений на “Moscow Apache Ignite #1”

Внимание! Дата перенесена с 13 марта на 20 марта, время, место и программа без изменений

При организации второго митапа мы учли ваши пожелания: места будет БОЛЬШЕ, и Алексей Гончарук выступит с докладом для архитекторов.

Программа:
19:00 — 19:30 — приветственный кофе, сбор гостей

1. «Что нового в Apache Ignite 2.4» — Артем Шитов, инженер GridGain.
2. «Масштабирование Apache Ignite кластера для архитекторов» — Алексей Гончарук, главный архитектор GridGain.
3. «Операционный кэш данных на базе Apache Ignite. Практика построения и использования решения для страховой компании» — Дмитрий Косицын, технический директор Unitarius.

Читать дальше →
Total votes 17: ↑16 and ↓1 +15
Views 1.3K
Comments 4

Релиз Apache Ignite 2.4 — Distributed Database and Caching Platform

GridGain corporate blog Programming *Java *.NET *Big Data *
12 марта 2018 г., спустя 4 месяца после прошлой версии, вышел Apache Ignite 2.4. Этот релиз примечателен целым рядом нововведений: поддержка Java 9, множественные оптимизации и улучшения SQL, поддержка платформой нейронных сетей, новый подход к построению топологии при работе с диском и многое другое.

Apache Ignite Database and Caching Platform — это платформа для распределенного хранения данных (оптимизированная под активное использование RAM), а также для распределенных вычислений в близком к реальному времени.

Ignite применяется там, где нужно очень быстро обрабатывать большие потоки данных, которые не по зубам централизованным системам.

Примеры использования: быстрый распределенный кеш; слой, агрегирующий данные из разрозненных сервисов (например, для Customer 360 View); основное горизонтально масштабируемое хранилище (NoSQL или SQL) оперативных данных; платформа для вычислений и т.д.

Далее рассмотрим основные новшества Ignite 2.4.
Читать дальше →
Total votes 20: ↑19 and ↓1 +18
Views 4.5K
Comments 5

2 бесплатных билета на In-Memory Computing Summit Europe

GridGain corporate blog Conferences


25 и 26 июня в Лондоне пройдет второй In-Memory Computing Summit. Это единственное в Европе мероприятие, целиком посвященное технологиям вычислений в оперативной памяти. Два дня, четыре потока, технические специалисты из глобальных и европейских компаний на сцене и в зале.

Есть британская виза? Присоединиться к IMC Summit Europe стало легче ровно на 525 британских фунтов, которые не потребуется платить двум везунчикам, выигравшим билеты на оба дня конференции.

Как получить один из двух бесплатных билетов?

  1. Написать на почту kromanova@gridgain.com. Отправить на почту письмо со словами «Хочу на IMC Summit Europe»
  2. Победителей определяем генератором случайных чисел (число = порядок поступления в почтовый ящик, скрины будут).
  3. Разыгрываем в 13:00 по Москве 9 июня 2018

Читать дальше →
Total votes 15: ↑15 and ↓0 +15
Views 1.1K
Comments 4

Как не сломать кластер Apache Ignite с самого начала

GridGain corporate blog Open source *Programming *Java *

Привет! Ниже — расшифровка видеозаписи выступления на митапе Apache Ignite сообщества в Петербурге 20 июня. Загрузить слайды можно по ссылке.



Есть целый класс проблем, с которыми сталкиваются начинающие пользователи. Они только что скачали себе Apache Ignite, запускают первые два-три-десять раз, и приходят к нам с вопросами, которые решаются схожим образом. Поэтому предлагаю создать чек-лист, который сэкономит вам много времени и нервов, когда вы делаете свои первые приложения на Apache Ignite. Мы поговорим о подготовке к запуску; как сделать так, чтобы кластер собрался; как запустить какие-нибудь вычисления в Compute Grid; как подготовить модель данных и код, чтобы можно было записать в Ignite свои данные и потом их успешно прочитать. И главное: как ничего не сломать с самого начала.

Total votes 25: ↑24 and ↓1 +23
Views 8.1K
Comments 8

Релиз Apache Ignite 2.5 — Memory-Centric Distributed Database and Caching Platform

GridGain corporate blog High performance *Java *Big Data *Distributed systems *
В мае вышла новая версия Apache Ignite — 2.5. В неё внесено множество изменений, с полным списком которых можно ознакомиться в Release Notes. А в этой статье мы рассмотрим ключевые новшества, на которые стоит обратить внимание.

Apache Ignite — горизонтально масштабируемая платформа транзакционного хранения данных, а также распределенных вычислений поверх этих данных в режиме, близком к реальному времени.

Ignite применяют в тех случаях, когда нужна горизонтальная масштабируемость и очень высокая скорость обработки данных. Последнее достигается также за счет оптимизации платформы под хранение данных непосредственно в RAM в качестве первичного хранилища, а не кеша (In-Memory Computing). Отличительными особенностями продукта являются полноценный движок запросов ANSI SQL 1999, дисковое хранилище, расширяющее RAM, большое количество встроенных интеграционных инструментов и Zero-ETL машинное обучение.

Среди компаний, которые используют Apache Ignite такие фирмы, как Veon/Beeline, Сбербанк, Huawei, Barclays, Citi, Microsoft и многие другие.

Новый вариант топологии: звезда вокруг ZooKeeper


Одно из главных изменений в версии 2.5 — новый вариант топологии. Ранее в Ignite была лишь топология «кольцо», которая использовалась для обмена событиями внутри кластера и обеспечивала эффективную и быструю масштабируемость, на масштабе до 300 узлов.

Новая топология предназначена для инсталляций из многих сотен и тысяч узлов.
Читать дальше →
Total votes 22: ↑21 and ↓1 +20
Views 3.1K
Comments 2

Распределённые приложения на C++ с минимумом усилий

GridGain corporate blog C++ *SQL *Database Administration *Data storages *

Цель моего поста — рассказать о C++ API распределенной базы данных Apache Ignite, который называется Ignite C++, а также о его особенностях.


О самом Apache Ignite на хабре писали уже не раз, так что наверняка некоторые из вас уже примерно представляют, что это такое и зачем нужно.


Кратко об Apache Ignite для тех, кто пока с ним не знаком


Не буду вдаваться в подробности о том, как появился Apache Ignite и чем отличается от классических баз данных. Все эти вопросы уже поднимались тут, тут или тут.


Итак, Apache Ignite — это по сути быстрая распределённая база данных, оптимизированная для работы с оперативной памятью. Сам Ignite вырос из дата грида (In-memory Data Grid) и до недавнего времени позиционировался как очень быстрый, находящийся полностью в оперативной памяти распределённый кэш на основе распределенной хэш-таблицы. Вот почему, кроме хранения данных, в нем есть множество удобных фич для их быстрой распределенной обработки: Map-Reduce, атомарные операции с данными, полноценные ACID транзакции, SQL запросы по данным, так называемые Continues Queries, дающие возможность следить за изменением определённых данных и другие.


Однако недавно в платформе появилась поддержка постоянного хранилища данных на диске. После чего Apache Ignite получил все преимущества полноценной объектно ориентированной базы данных, сохранив при этом удобство, богатство инструментария, гибкость и быстроту дата грида.

Читать дальше →
Total votes 15: ↑15 and ↓0 +15
Views 6.2K
Comments 4

Где весной поговорить про Apache Ignite, распределенные базы данных и распределенное машинное обучение

GridGain corporate blog Java *Big Data *Distributed systems *
Начинается первая волна конференций, да и дружественные митапы активизировались. Присоединяйтесь.

15 марта, Санкт-Петербург — ODS SPB Meetup #5


Распределенный TensorFlow с Apache Ignite
На митапе, приуроченному ко дню рождения Open Data Science, Юрий Бабак, Руководитель группы разработки в GridGain, расскажет про распределенный TensorFlow с Apache Ignite:

— Apache Ignite как распределенный источник данных для TensorFlow;
— Hаспределенная тренировка модели на кластере TensorFlow поверх Apache Ignite;
— Инференс TensorFlow модели на кластере Apache Ignite

Программа и регистрация

28 марта, Москва — Scalability Meetup #7


Репликация распределенных баз данных
Репликация кластеров позволяет не беспокоиться за работоспособность распределенных систем. Но что делать, если в дата-центре отключат свет, все кластеры сразу начнут сбоить (и каждый по-своему), а потом кто-то очень серьезно ошибется?

Иван Раков, Senior Software Engineer в GridGain, расскажет про то, какие варианты репликации возможны, как реализована транзакционная целостность в GridGain, и как это защищает кластер от катастроф.

Программа и регистрация

А также на JPoint и Saint Highload
Читать дальше →
Total votes 13: ↑13 and ↓0 +13
Views 960
Comments 2

JDBC-пулы и эффективная работа с файлами: Java-митап 3 декабря в Петербурге

Wrike corporate blog High performance *Programming *Java *Conferences


Приглашаем вас на Java митап о перфомансе, который пройдет 3 декабря в питерском офисе Wrike. Поговорим о низкоуровневых, но важных для разработчиков любого уровня вещах, которым порой не хватает места на java-конференциях.
Читать дальше →
Total votes 25: ↑23 and ↓2 +21
Views 2.8K
Comments 10
1