Статьи / Закладки / Профиль rvncerr / Хабр

Как стать автором

Дмитрий Калугин-Балашов @rvncerr

Пользователь

Профиль Публикации 4Комментарии 28Закладки 104

perlestius 21 окт 2017 в 00:09

Баг в поиске писем на Mail.Ru

4 мин

11K

Из песочницы

Всем привет!

Недавно я участвовал в миграции корпоративной почты одной небольшой компании на хостинг Mail.Ru. Сразу хочется отметить, что у Мэйла для миграции есть удобная функция автоматического импорта ящиков из других почтовых сервисов, а также поддержка автоматического создания ящиков из CSV-файлов, обе возможности были опробованы и не вызвали каких-либо проблем. Приятным сюрпризом было наличие готовой инструкции по настройке доступа к почте для конечных пользователей.

Вообще всё было бы просто замечательно, если бы не одно но…

Читать дальше →

+16

Takagi 12 окт 2017 в 14:00

Как научить свою нейросеть анализировать морфологию

8 мин

19K

Python*Машинное обучение*

Из песочницы

Недавно мы рассказывали про генератор стихов. Одной из особенностей языковой модели, лежащей в его основе, было использование морфологической разметки для получения лучшей согласованности между словами. Однако же у использованной морфоразметки был один фатальный недостаток: она была получена с помощью “закрытой” модели, недоступной для общего использования. Если точнее, выборка, на которой мы обучались, была размечена моделью, созданной для Диалога-2017 и основанной на закрытых технологиях и словарях ABBYY.

Мне очень хотелось избавить генератор от подобных ограничений. Для этого нужно было построить собственный морфологический анализатор. Сначала я делал его частью генератора, но в итоге он вылился в отдельный проект, который, очевидно, может быть использован не только для генерации стихов.

Вместо морфологического движка ABBYY я использовал широко известный pymorphy2. Что в итоге получилось? Спойлер — получилось неплохо.

Читать дальше →

+29

Skapix 12 окт 2017 в 12:55

Тернистый путь Hello World

16 мин

33K

C++*Assembler*C*Разработка под Linux*

Туториал

Recovery Mode

Вдохновение на написание данной статьи было получено после прочтения похожей публикации для архитектуры x86 [1].

Данный материал поможет тем, кто хочет понять, как устроены программы изнутри, что происходит до входа в main и для чего всё это делается. Также я покажу как можно использовать некоторые особенности библиотеки glibc. И в конце, как и в оригинальной статье [1] будет визуально представлен пройденный путь. В большинстве своём статья представляет собой разбор библиотеки glibc.

Итак, начнём наш поход. Будем использовать Linux x86-64, а в качестве инструмента отладки — lldb. Также иногда будем дизассемблировать программу при помощи objdump.

Исходным текстом будет обычный Hello, world (hello.cpp):

#include <iostream>
int main()
{
        std::cout << "Hello, world!" << std::endl;
}

Читать дальше →

+74

z3apa3a 26 сен 2017 в 12:25

Загадки и мифы SPF

10 мин

54K

Спам и антиспамБлог компании VKDNS*

Туториал

SPF (Sender Policy Framework), полное название можно перевести как «Основы политики отправителя для авторизации использования домена в Email» — протокол, посредством которого домен электронной почты может указать, какие хосты Интернет авторизованы использовать этот домен в командах SMTP HELO и MAIL FROM. Публикация политики SPF не требует никакого дополнительного софта и поэтому чрезвычайно проста: достаточно добавить в зону DNS запись типа TXT, содержащую политику, пример записи есть в конце статьи. Для работы с SPF есть многочисленные мануалы и даже онлайн-конструкторы.

Первая версия стандарта SPF принята более 10 лет назад. За это время были созданы многочисленные реализации, выработаны практики применения и появилась свежая версия стандарта. Но самое удивительное, что почему-то именно SPF, более чем любой другой стандарт, оброс за 10 лет невероятным количеством мифов и заблуждений, которые кочуют из статьи в статью и с завидной регулярностью выскакивают в обсуждениях и ответах на вопросы на форумах. А протокол, казалось бы, такой простой: внедрение занимает всего пару минут. Давайте попробуем вспомнить и разобрать наиболее частые заблуждения.

TL;DR — рекомендации в конце.

Читать дальше →

+56

EdT 21 сен 2017 в 17:28

Достижения в глубоком обучении за последний год

13 мин

88K

Блог компании VKАлгоритмы*Big Data*Машинное обучение*

Привет, Хабр. В своей статье я расскажу вам, что интересного произошло в мире машинного обучения за последний год (в основном в Deep Learning). А произошло очень многое, поэтому я остановился на самых, на мой взгляд, зрелищных и/или значимых достижениях. Технические аспекты улучшения архитектур сетей в статье не приводятся. Расширяем кругозор!

+97

virtser 13 сен 2017 в 11:00

«Восточный» — наш космодром

11 мин

34K

Управление проектами*Управление персоналом*Карьера в IT-индустрииБлог компании ГК ЛАНИТ

В 2012 году на месте космодрома «Восточный» в Амурской области была только тайга. Построить здесь за три с половиной года самый современный космодром в мире, пусть пока только первую его очередь, — колоссальная работа. Нашей компании «ИНСИСТЕМС» посчастливилось участвовать в этом проекте. Объект оказался очень непростым, начиная с того, что он очень большой, и заканчивая сложными климатическими условиями, удаленностью, отсутствием какой бы то ни было инфраструктуры. Проект потребовал от нас много сил, энергии и нестандартных подходов.

В этом посте я хотел рассказать, как мы решали задачи, которые перед нами возникали в ходе реализации этого грандиозного проекта, а подборка фотографий поможет читателям все увидеть «своими» глазами.

+128

imrobot2002 11 сен 2017 в 13:29

tig — улучшаем продуктивность работы с git

3 мин

43K

Git*Системы управления версиями*

Всем привет! Хочу рассказать о консольной утилите, которая значительно увеличила мою продуктивность работы с Git, и, надеюсь, ускорит и вашу также. Называется она tig и была написана канадским программистом Джонасом Фонсека (Jonas Fonseca) ещё в далёком 2006-м году, но по настоящий день она активно развивается и поддерживается в великолепном состоянии. Я хочу показать её функционал (внимание, есть относительно тяжелые gif-ки внутри) и поделиться самыми удобными способами использования.

Читать дальше →

+103

marika_reka 18 авг 2017 в 09:59

На пути к звездам: чем опасны космические перелеты

7 мин

31K

Блог компании ASUSНаучно-популярноеКосмонавтика

Человек всегда стремился к преодолению неизвестности. Тысячи лет географические открытия совершались на пределе возможностей, но всегда транспорт и снаряжение страдали чуть больше, чем первооткрыватель — корабли разбивало в шторм, обоз с провиантом падал в пропасть, сани вмерзали в лед, а человек всё двигался и двигался к своей цели.

Когда на планете не осталось белых пятен, мы стали задумываться о космосе. Программы освоения Луны и Марса не фантастика, а неизбежное будущее. За ними — далекие перелеты к ближайшим звездам. Чем дальше человек будет уходить от Земли, тем больше трудностей встретит по пути. Мы подошли к рубежу, за которым не техника, а сами люди испытывают запредельные перегрузки.

Какие угрозы ждут нас в космосе, и какие технологии позволят выжить — об этом расскажем дальше.

Читать дальше →

+30

PatientZero 10 авг 2017 в 08:51

Математический детектив: поиск положительных целых решений уравнения

9 мин

53K

Занимательные задачкиМатематика*

Перевод

«Я экспериментировал с задачами кубического представления в стиле предыдущей работы Эндрю и Ричарда Гая. Численные результаты были потрясающими…» (комментарий на MathOverflow)

Вот так ушедший на покой математик Аллан Маклауд наткнулся на это уравнение несколько лет назад. И оно действительно очень интересно. Честно говоря, это одно из лучших диофантовых уравнений, которое я когда-либо видел, но видел я их не очень много.

Я нашёл его, когда оно начало распространяться как выцепляющая в сети нердов картинка-псевдомем, придуманная чьим-то безжалостным умом (Сридхар, это был ты?). Я не понял сразу, что это такое. Картинка выглядела так:

«95% людей не решат эту загадку. Сможете найти положительные целочисленные значения?»

Вы наверно уже видели похожие картинки-мемы. Это всегда чистейший мусор, кликбэйты: «95% выпускников МТИ не решат её!». «Она» — это какая-нибудь глупая или плохо сформулированная задачка, или же тривиальная разминка для мозга.

Но эта картинка совсем другая. Этот мем — умная или злобная шутка. Примерно у 99,999995% людей нет ни малейших шансов её решить, в том числе и у доброй части математиков из ведущих университетов, не занимающихся теорией чисел. Да, она решаема, но при этом по-настоящему сложна. (Кстати, её не придумал Сридхар, точнее, не он полностью. См. историю в этом комментарии).

Вы можете подумать, что если ничего другое не помогает, то можно просто заставить компьютер решать её. Очень просто написать компьютерную программу для поиска решений этого кажущегося простым уравнения. Разумеется, компьютер рано или поздно найдёт их, если они существуют. Большая ошибка. Здесь метод простого перебора компьютером будет бесполезен.

Читать дальше →

+125

PatientZero 9 авг 2017 в 12:46

Введение в октодеревья

31 мин

37K

Разработка игр*Алгоритмы*

Перевод

Что такое октодеревья? Если вам совершенно неизвестно это понятие, то рекомендую прочитать статью в Википедии (это займёт около пяти минут). Она даёт достаточное представление, но едва ли её будет достаточно, чтобы понять, для чего они используются и как их реализовать.

В этой статье я постараюсь рассказать обо всех этапах, необходимых для создания структуры данных октодеревьев, на примере объяснения концепций, иллюстраций и кода. Также я опишу свои решения, которые принимал на каждом из этапов. Не думайте, что эта статья будет единственно верным руководством к реализации октодеревьев, но она должна дать вам хороший фундамент и её можно использовать для справки.

Читать дальше →

+49

Astrei 17 июл 2017 в 06:52

Разбираем магнитно-резонансный томограф

14 мин

205K

DIY или Сделай самЭлектроника для начинающих

Квантовая физика, математика, биология, криогеника, химия и электроника сплелись единым узором, чтобы воплотиться в железе и показать настоящий внутренний мир человека, и даже, ни много ни мало, прочитать его мысли. Электроника таких аппаратов, по надежности и сложности может сравниться разве что с космической. Эта статья посвящается оборудованию и принципам работы магнитно-резонансных томографов.

+137

ru_crypt 7 сен 2015 в 15:19

В ГОСТе сидел «Кузнечик»

2 мин

70K

Информационная безопасность*Криптография*Алгоритмы*

Из песочницы

В июне этого года в России был принят новый стандарт блочного шифрования — ГОСТ Р 34.12-2015. Этот стандарт помимо старого доброго ГОСТ 28147-89, который теперь называется «Магма» и имеет фиксированный набор подстановок, содержит описание блочного шифра «Кузнечик». О нем я и расскажу в этом посте.

Читать дальше →

+24

m1rko 10 июл 2017 в 00:01

Отзыв сертификатов не работает

11 мин

58K

Информационная безопасность*Веб-разработка*Криптография*

Перевод

Прямо сейчас у нас есть небольшая проблема, но на мой взгляд, со временем ситуация может только ухудшиться. Всё больше и больше сайтов получают сертификаты — необходимые документы для внедрения HTTPS — но у нас нет механизма для защиты от злоупотреблений.

Сертификаты

Мы сейчас видим настоящую золотую лихорадку вокруг сертификатов, поскольку всё больше сайтов внедряют HTTPS. Кроме очевидных преимуществ безопасности и приватности, есть и другие выгоды от внедрения защищённых соединений, которые я перечислил в статье «Вы всё ещё думаете, что вам не нужен HTTPS?». Обычно именуемые «SSL-сертификаты» или «HTTPS-сертификаты» разлетаются со скоростью, которой мы никогда не видели в истории интернета. Каждый день я исследую сайты из первого миллиона по посещаемости и анализирую различные аспекты их безопасности, а каждые 6 месяцев публикую отчёт. Вы можете изучить эти отчёты здесь, но сейчас посмотрим на темпы внедрения HTTPS.

Процент сайтов из первого миллиона самых популярных сайтов по статистике Alexa, где стоит редирект на версию HTTPS

Читать дальше →

+103

SmirkinDA 3 июл 2017 в 13:52

Как компьютерные профи раскалывают хакеров

9 мин

60K

Информационная безопасность*Криптография*Программирование*Блог компании ParallelsРазработка под Windows*

В последнее время, на фоне всевозможных вирусов Wanna Cry и Petya, тема кибербезопасности не сходит с первых полос СМИ. В этой связи показалась примечательной заметка найденная на одном из заморских сайтов. Под катом рассказ Роджера Краймса о том, как одни профессионалы доставляют неприятности другим и наоборот. Суть статьи сводится к тому, что если хотите познакомиться с действительно толковым хакером, поговорите со специалистом по защите от кибератак. Эти талантливые люди каждый день работают над тем, чтобы совершать киберпреступления становилось труднее и наименее прибыльно. Кстати, с удивлением узнал, что любимое развлечение специалистов по информационной безопасности, «ломать» компы соседей на профессиональных конференциях.

Читать дальше →

+35

sergey_shambir 14 июн 2017 в 16:57

Современный CMake: 10 советов по улучшению скриптов сборки

8 мин

82K

Из песочницы

CMake — это система сборки для C/C++, которая с каждым годом становится всё популярнее. Он практически стал решением по умолчанию для новых проектов. Однако, множество примеров выполнения какой-либо задачи на CMake содержат архаичные, ненадёжные, раздутые действия. Мы выясним, как писать скрипты сборки на CMake лаконичнее.

Читать дальше →

+40

askbow 7 дек 2015 в 17:56

Как устроены дыры в безопасности: переполнение буфера

29 мин

132K

Информационная безопасность*Веб-разработка*Программирование*Компиляторы*C*

Перевод

Прим. переводчика: Это перевод статьи Питера Брайта (Peter Bright) «How security flaws work: The buffer overflow» о том, как работает переполнение буфера и как развивались уязвимости и методы защиты.

Беря своё начало с Червя Морриса (Morris Worm) 1988 года, эта проблема поразила всех, и Linux, и Windows.

Переполнение буфера (buffer overflow) давно известно в области компьютерной безопасности. Даже первый само-распространяющийся Интернет-червь — Червь Морриса 1988 года — использовал переполнение буфера в Unix-демоне finger для распространения между машинами. Двадцать семь лет спустя, переполнение буфера остаётся источником проблем. Разработчики Windows изменили свой подход к безопасности после двух основанных на переполнении буфера эксплойтов в начале двухтысячных. А обнаруженное в мае сего года переполнение буфера в Linux драйвере (потенциально) подставляет под удар миллионы домашних и SMB маршрутизаторов.

По своей сути, переполнение буфера является невероятно простым багом, происходящим из распространённой практики. Компьютерные программы часто работают с блоками данных, читаемых с диска, из сети, или даже с клавиатуры. Для размещения этих данных, программы выделяют блоки памяти конечного размера — буферы. Переполнение буфера происходит, когда происходит запись или чтение объёма данных большего, чем вмещает буфер.

На поверхности, это выглядит как весьма глупая ошибка. В конце концов, программа знает размер буфера, а значит, должно быть несложно удостоверится, что программа никогда не попытается положить в буфер больше, чем известный размер. И вы были бы правы, рассуждая таким образом. Однако переполнения буфера продолжают происходить, а результаты часто представляют собой катастрофу для безопасности.

Читать дальше →

+46

kotomanov 30 дек 2008 в 13:21

Графика в LaTeX. Часть I

3 мин

34K

Доброе время суток! Недавно заметил пояление на Хабре блога, посвящённого системе LaTeX. И решил поделиться теми небольшими знаниями, которые у меня есть.
Не буду повторяться и описывать что такое LaTeX, зачем он нужен и как устанавливать пакеты. Об этом уже много написано, в том числе и в этом блоге, да вы и без меня всё это знаете. Здесь я решил описать как пользоваться графическими возможностями LaTeX'а, так как недавно готовил эту тему для университета. Материала довольно много, поэтому пришлось разбить на части. В этой части я расскажу:

что такое псевдорисунки,
как пользоваться пакетом XY-pic.

Итак, по порядку.

Читать дальше →

+31

rvncerr 18 апр 2016 в 15:27

Сравнение Tarantool с конкурентами в Microsoft Azure

4 мин

20K

Блог компании VKNoSQL*Microsoft Azure*Tarantool*

Tarantool — NoSQL СУБД, которая разрабатывается и широко используется в Mail.Ru Group. Об объемах использования можно сделать вывод по публикациям:

Недавно Mail.Ru Group выпустила виртуальную машину с предустановленным Tarantool для Microsoft Azure:

Мы решили проверить, насколько хорошо Tarantool работает в Microsoft Azure в сравнении с другими подобными предложениями — Azure Redis Cache, Bitnami Memcached, Aerospike и VoltDB. Под словом «хорошо» будем понимать «быстро», то есть сравнивать будем число обрабатываемых запросов в секунду (Throughput, RPS).

Читать дальше →

+59

markhor 13 апр 2016 в 14:40

Эксперименты с malloc

12 мин

37K

Блог компании VKC*Разработка под macOS*

Как известно, в современных архитектурах x86(_64) и ARM виртуальная память процесса линейна и непрерывна, ибо, к счастью, прошли времена char near* и int huge*. Виртуальная память поделена на страницы, типичный размер которых 4 KiB, и по умолчанию они не отображены на физическую память (mapping), так что работать с ними не получится. Чтобы посмотреть текущие отображённые интервалы адресов у процесса, в Linux смотрим /proc/<pid>/maps, в OS X vmmap <pid>. У каждого интервала адресов есть три вида защиты: от исполнения, от записи и от чтения. Как видно, самый первый интервал, начинающийся с load address (соответствующий сегменту .text у ELF в Linux, __TEXT у Mach-O в OS X), доступен на чтение и исполнение — очень логично. Ещё можно увидеть, что стек по сути ничем не отличается от других интервалов, и можно быстро вычислить его размер, вычтя из конечного адреса начальный. Отображение страниц выполняется с помощью mmap/munmap, а защита меняется с помощью mprotect. Ещё существуют brk/sbrk, deprecated древние пережитки прошлого, которые изменяют размер одного-единственного интервала «данных» и в современных системах эмулируются mmap’ом.

Все POSIX-реализации malloc так или иначе упираются в перечисленные выше функции. По сравнению с наивным выделением и освобождением страниц, округляя необходимый размер в большую сторону, malloc имеет много преимуществ:

оптимально управляет уже выделенной памятью;
значительно уменьшает количество обращений к ядру (ведь mmap / sbrk — это syscall);
вообще абстрагирует программиста от виртуальной памяти, так что многие пользуются malloc’ом, вообще не подозревая о существовании страниц, таблиц трансляции и т. п.

Довольно теории! Будем щупать malloc на практике. Проведём три эксперимента. Работа будет возможна на POSIX-совместимых операционках, в частности была проверена работа на Linux и на OS X.

Читать дальше →

+57

SvyatoslavMC 11 апр 2016 в 09:40

Логические выражения в C/C++. Как ошибаются профессионалы

5 мин

48K

C++*C*Блог компании PVS-Studio

Логическое выражение в программировании — конструкция языка программирования, результатом вычисления которой является «истина» или «ложь». Во многих книгах по программированию, предназначенных для изучения языка «с нуля», приводятся возможные операции над логическими выражениями, с которыми сталкивался каждый начинающий разработчик. В этой статье я не буду рассказывать, что оператор 'И' приоритетнее оператора 'ИЛИ'. Я расскажу о распространённых ошибках в простых условных выражениях, состоящих всего из трёх операторов, и покажу, как можно проверить свой код с помощью построения таблиц истинности. Описанные ошибки делают разработчики таких известных проектов как FreeBSD, Microsoft ChakraCore, Mozilla Thunderbird, LibreOffice и многих других.

Читать дальше →

+29

2