Как стать автором
Обновить
4
0

Пользователь

Отправить сообщение

Как мы переписали архитектуру Яндекс.Погоды и сделали глобальный прогноз на картах

Время на прочтение 10 мин
Количество просмотров 31K

Привет, Хабр!


Как говорится, по традиции раз в год мы в Яндекс.Погоде выкатываем что-нибудь новенькое. Сначала это был Метеум – традиционный прогноз погоды с помощью машинного обучения, затем наукастинг – краткосрочный прогноз осадков на основе метеорологических радаров и нейронных сетей. В этом посте я расскажу вам о том, как мы сделали глобальный прогноз погоды и построили на его основе красивые погодные карты.



Сперва пару слов про продукт. Погодные карты — способ узнавать погоду, очень популярный на западе и пока что не очень популярный в России. Причиной тому является, собственно, сама погода. Из-за особенностей климата наиболее населенные регионы нашей страны не подвержены внезапным погодным катаклизмам (и это хорошо). Поэтому интерес к погоде у жителей этих регионов скорее бытовой. Так, людям в центральной России важно знать, например, какая погода будет в Москве в выходные или что в четверг в Питере будет дождь. Такую информацию проще всего узнать из таблицы, в которой будет дата, время и набор погодных параметров.

Читать дальше →
Всего голосов 108: ↑107 и ↓1 +106
Комментарии 92

Программно-определяемые СХД: сравниваем 7 решений

Время на прочтение 5 мин
Количество просмотров 31K
В этой статье я кратко расскажу о программно-определяемых хранилищах (Software-Defined Storage, SDS) и о возможностях их применения, которые они дают при построении ИТ-инфраструктуры. В конце статьи вас ждет сравнение семи SDS-решений. Я протестировал их, когда мы с коллегами из «Онланты» прорабатывали варианты развития инфраструктуры облака OnCloud.ru. Надеюсь, что сравнительная таблица сэкономит вам кучу времени и сил при выборе продукта.


Источник
Читать дальше →
Всего голосов 29: ↑26 и ↓3 +23
Комментарии 21

Удобная памятка и 8 ссылок на документацию по ГОСТ 34 (автоматизированные системы)

Время на прочтение 2 мин
Количество просмотров 34K
Одним пятничным вечером несколько лет назад я получил задание от руководителя подготовить за выходные ТЗ на конкурс. Видимо, я слишком уж излучал радость от предстоящих выходных, и боссу просто было приятно занять их чем-то новым и интересным, как он считал – ведь до этого с техническими документами мне работать не доводилось. Сейчас уже не смогу припомнить, какая там была система, но точно какой-то мониторинг. Субботнее утро принесло разочарование. Миллионы ссылок, сотни статей одна другой информативнее. От одной аббревиатуры ГОСТ веяло скукой и пылью. Примерно так и началось мое знакомство с семейством ГОСТ 34 на автоматизированные системы. Под катом удобная памятка по этому самому ГОСТу, которая совершенно случайно когда-то повстречалась на просторах сети и помогла систематизировать данные в знатном ворохе документов.

gost_1.png
Окунуться в ГОСТ и вынырнуть
Всего голосов 14: ↑11 и ↓3 +8
Комментарии 23

История успеха «Яндекс.Почты» с PostgreSQL

Время на прочтение 13 мин
Количество просмотров 52K


Владимир Бородин (на «Хабре» dev1ant), системный администратор группы эксплуатации систем хранения данных в «Яндекс.Почте», знакомит со сложностями миграции крупного проекта с Oracle Database на PostgreSQL. Это — расшифровка доклада с конференции HighLoad++ 2016.

Всем привет! Меня зовут Вова, сегодня я буду рассказывать про базы данных «Яндекс.Почты».

Сначала несколько фактов, которые будут иметь значение в будущем. «Яндекс.Почта» — сервис достаточно старый: он был запущен в 2000 году, и потому мы накопили много legacy. У нас — как это принято и модно говорить — вполне себе highload-сервис, больше 10 миллионов пользователей в сутки, какие-то сотни миллионов всего. В бэкенд нам прилетает более 200 тысяч запросов в секунду в пике. Мы складываем более 150 миллионов писем в сутки, прошедших проверки на спам и вирусы. Суммарный объём писем за все 16 лет — больше 20 петабайт.

О чем пойдет речь? О том, как мы перевезли метаданные из Oracle в PostgreSQL. Метаданных там не петабайты — их чуть больше трехсот терабайт. В базы влетает более 250 тысяч запросов в секунду. Надо иметь в виду, что это маленькие OLTP-запросы, по большей части чтение (80%).

Это — не первая наша попытка избавиться от Oracle. В начале нулевых была попытка переехать на MySQL, она провалилась. В 2007 или 2008 была попытка написать что-то своё, она тоже провалилась. В обоих случаях был провал не столько по технически причинам, сколько по организационным.
Всего голосов 113: ↑111 и ↓2 +109
Комментарии 119

Azure понятным языком [Шпаргалка]

Время на прочтение 10 мин
Количество просмотров 71K
Скажите, приходилось ли вам слышать о новых службах Azure: Elasticville, StorageWart и API Gatesian? Разумеется, нет, ведь эти названия были придуманы только что. В этой статье мы делимся с вами шпаргалкой, в которой понятным языком описана экосистема Microsoft Azure.


Читать дальше →
Всего голосов 49: ↑45 и ↓4 +41
Комментарии 12

D-Wave Systems продали свой первый 2000-кубитный квантовый компьютер

Время на прочтение 3 мин
Количество просмотров 46K
Компания D-Wave Systems 23 января анонсировала начало продаж своего 2000-кубитного квантового компьютера D-Wave 2000Q и уже продала первую модель за 15 миллионов долларов.

Читать дальше →
Всего голосов 27: ↑24 и ↓3 +21
Комментарии 40

Разница между nginx и apache с примерами

Время на прочтение 26 мин
Количество просмотров 107K

Во время собеседований на роль linux/unix администратора во многих IT-компаниях спрашивают, что такое load average, чем nginx отличается от apache httpd и что такое fork. В этой статье я постараюсь объяснить, что рассчитывают услышать в ответ на эти вопросы, и почему.


Здесь важно очень хорошо понимать основы администрирования. В идеальной ситуации при постановке задачи системному администратору выставляют ряд требований. Если же ситуация не идеальная, то, по сути, требование к администратору одно: «Хочу, чтобы всё работало». Иными словами, сервис должен быть доступен 24/7 и, если какое-то решение не удовлетворяет этим требованиям (масштабирование и отказоустойчивость относятся к доступности), то можно сказать, что администратор плохо сделал свою работу. Но если разные решения двух администраторов работают 24/7, как понять, какое из них лучше?


Хороший системный администратор при выборе решения при заданных требованиях ориентируется на два условия: минимальное потребление ресурсов и их сбалансированное распределение.


Вариант, когда одному специалисту нужно 10 серверов для выполнения задания, а второму всего 2, мы рассматривать не будем, что тут лучше – очевидно. Далее под ресурсами я буду понимать ЦПУ (cpu), ОЗУ (ram) и диск (hdd).


Давайте рассмотрим ситуацию: один администратор создал решение, которое требует 10% cpu, 5% ram и 10% hdd от всего вашего оборудования, а второй использовал для этого 1% cpu, 40% ram и 20% hdd. Какое из этих решений лучше? Тут все становится уже не так очевидно. Поэтому хороший администратор всегда должен уметь грамотно подобрать решение, исходя из имеющихся ресурсов.


Читать дальше →
Всего голосов 72: ↑69 и ↓3 +66
Комментарии 73

15 тривиальных фактов о правильной работе с протоколом HTTP

Время на прочтение 7 мин
Количество просмотров 231K
Внимание! Реклама! Пост оплачен Капитаном Очевидность!

Ниже под катом вы найдёте 15 пунктов, описывающих правильную организацию ресурсов, доступных по протоколу HTTP — веб-сайтов, «ручек» бэкенда, API и прочая. «Правильный» здесь означает «соответствующий рекомендациям и спецификациям». Большая часть ниженаписанного почти дословно переведена из официальных стандартов, рекомендаций и best practices от IETF и W3C.



Вы не найдёте здесь абсолютно ничего неочевидного. Нет, серьёзно, каждый веб-разработчик теоретически эти 15 пунктов должен освоить где-то в районе junior developer-а и/или второго-третьего курса университета.

Однако на практике оказывается, что великое множество веб-разработчиков эти азы таки не усвоило. Читаешь документацию к иным API и рыдаешь. Уверен, что каждый читатель таки найдёт в этом списке что-то новое для себя.
Читать дальше →
Всего голосов 191: ↑186 и ↓5 +181
Комментарии 120

Опыт построения и эксплуатации большого файлового хранилища

Время на прочтение 17 мин
Количество просмотров 40K
Даниил Подольский

Даниил Подольский (Git in Sky)


Рассказ о том, что каждый инженер должен сделать в своей жизни после того, как он родил ребенка, посадил дерево и построил дом – это сделать свое файловое хранилище.

Доклад мой называется «Опыт построения и эксплуатации большого файлового хранилища». Большое файловое хранилище мы строим и эксплуатируем последние три года. В тот момент, когда я подавал тезисы, доклад назывался «Ночью через лес. Опыт построения эксплуатации бла-бла-бла». Но программный комитет попросил меня быть серьезнее, тем не менее, на самом деле это доклад «Ночью через лес».
Всего голосов 34: ↑26 и ↓8 +18
Комментарии 25

Как применение кодов избыточности в SDS помогает Яндексу дёшево и надёжно хранить данные

Время на прочтение 9 мин
Количество просмотров 22K

Яндекс, как и любая другая большая интернет-компания, хранит много, а точнее очень много данных. Это и пользовательские данные из разных сервисов, и намайненные сайты, и промежуточные данные для расчёта погоды, и резервные копии баз данных. Стоимость хранения ($/ГБ) — один из важных показателей системы. В этой статье я хочу рассказать вам про один из методов, который позволил нам серьезно удешевить хранилище.




В 2015 году, как вы все помните, сильно вырос курс доллара. Точнее, расти-то он начал в конце 2014-го, но новые партии железа мы заказывали уже в 2015-м. Яндекс зарабатывает в рублях, и поэтому вместе с курсом выросла и стоимость железа для нас. Это заставило нас в очередной раз подумать о том, как сделать, чтобы в текущий кластер можно было положить больше данных. Мы такое, конечно, делаем регулярно, но в этот раз мотивация была особенно сильной.


Каждый сервер кластера предоставляет для нас следующие ресурсы: процессор, оперативную память, жёсткие диски и сеть. Сеть здесь — более сложное понятие, чем просто сетевая плата. Это ещё и вся инфраструктура внутри дата-центра, и связность между разными дата-центрами и точками обмена трафиком. В кластере для обеспечения надёжности применялась репликация, и суммарный объём кластера определялся исключительно через суммарную ёмкость жёстких дисков. Нужно было придумать, как обменять оставшиеся ресурсы на увеличение места. Кстати, если после поста у вас останутся вопросы, которые бы вы хотели обсудить лично, приходите на нашу встречу.


Читать дальше →
Всего голосов 74: ↑71 и ↓3 +68
Комментарии 19

«Боевая алгебра» или криптография «по ГОСТу»

Время на прочтение 7 мин
Количество просмотров 14K
На первый взгляд название статьи абсурдно, видимо единственное, что приходит на ум читателю, это использование расчетных методов в баллистике. Но там скорее боевая физика, нежели боевая математика. Область применения «чистой» математики в военной сфере — криптография. О важности темы распространяться не буду, это понятно еще со времен «Энигмы». В настоящее время в криптографии проходят очень тревожные события, на которые, к сожалению, не реагируют Российские специалисты. А если и реагируют, то очень специфическим образом, об этом уже писалось, но видимо мало, придется продолжить тему.

«Особенности национальной криптографии»


В середине 2015 года были принято несколько новых ГОСТов стандартизирующих криптографические операции. Даже титульные листы этих важнейших государственных документов вызывают, мягко говоря, недоумение. Посмотрите, вот один из них:

image

Я тоже «впервые» вижу официальные документы особой государственной важности в разработках которых принимала участие некая коммерческая фирма из разряда «Рога и Копыта».

Фирма «Инфотекс» не имеет даже собственного помещения и размещается на площадях «Офисного торгового центра» (цитата с сайта компании). Кто не верит, может убедиться сам, вот ссылка на публичный сайт этой фирмы.

Разрабатывались, между прочим, стандарты криптографических алгоритмов, а не ГОСТ на производство Докторской колбасы…
Читать дальше →
Всего голосов 36: ↑14 и ↓22 -8
Комментарии 13

Никита Иванов (GridGain): «Мы делаем космические корабли»

Время на прочтение 11 мин
Количество просмотров 18K


Компания GridGain Systems, разработчик программных решений на базе Apache Ignite, предоставила клиентам доступ к решениям GridGain In-Memory Data Fabric на облачной платформе Microsoft Azure. Это позволит компаниям-поставщикам финансовых услуг использовать возможности интегрированных облачных служб Microsoft для быстрого развертывания продуктов GridGain и перенести вычисления в оперативную память компьютера.

По оценке аналитиков из IDC, к 2019 году рынок данных вырастет на 50% до $187 миллиардов. Отдельную ценность имеют вычисления в режиме реального времени.

GridGain — один из лидеров в этом сегменте. Будучи небольшим стартапом, компании удалось обойти крупных конкурентов и заключить контракты по всему миру. Причина успеха компании — технологическое ноу-хау? Или, может быть, просто везение?

О нелегкой судьбе наукоемкого ИТ-стартапа, о конкуренции на рынке данных и его перспективах мы поговорили с основателем и генеральным директором компании Никитой Ивановым.
Читать дальше →
Всего голосов 34: ↑30 и ↓4 +26
Комментарии 8

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность