How to become an author

Roman Lugovkin @RomanL

Пользователь

ProfileArticles4PostsNewsComments594

temujin Jul 7 2017 at 10:40

Лог файлы Linux по порядку

6 min

522K

System administration*Configuring Linux**nix*

Tutorial

Невозможно представить себе пользователя и администратора сервера, или даже рабочей станции на основе Linux, который никогда не читал лог файлы. Операционная система и работающие приложения постоянно создают различные типы сообщений, которые регистрируются в различных файлах журналов. Умение определить нужный файл журнала и что искать в нем поможет существенно сэкономить время и быстрее устранить ошибку.

Журналирование является основным источником информации о работе системы и ее ошибках. В этом кратком руководстве рассмотрим основные аспекты журналирования операционной системы, структуру каталогов, программы для чтения и обзора логов.

Читать дальше →

+23

m1rko Jul 6 2017 at 12:24

Как я нашёл баг в процессорах Intel Skylake

9 min

47K

Assembler*C*Compilers*Debugging*IT systems testing*

Translation

Инструкторы курсов «Введение в программирование» знают, что студенты находят любые причины для ошибок своих программ. Процедура сортировки отбраковала половину данных? «Это может быть вирус в Windows!» Двоичный поиск ни разу не сработал? «Компилятор Java сегодня странно себя ведёт!» Опытные программисты очень хорошо знают, что баг обычно в их собственном коде, иногда в сторонних библиотеках, очень редко в системных библиотеках, крайне редко в компиляторе и никогда — в процессоре. Я тоже так думал до недавнего времени. Пока не столкнулся с багом в процессорах Intel Skylake, когда занимался отладкой таинственных сбоев OCaml.

Первое проявление

В конце апреля 2016 года вскоре после выпуска OCaml 4.03.0 один Очень Серьёзный Индустриальный Пользователь OCaml (ОСИП) обратился ко мне в частном порядке с плохими новостями: одно из наших приложений, написанное на OCaml и скомпилированное в OCaml 4.03.0, падало случайным образом. Не при каждом запуске, но иногда вылетал segfault, в разных местах кода. Более того, сбои наблюдались только на их самых новых компьютерах, которые работали на процессорах Intel Skylake (Skylake — это кодовое название последнего на тот момент поколения процессоров Intel. Сейчас последним поколением является Kaby Lake).

За последние 25 лет мне сообщали о многих багах OCaml, но это сообщение вызывало особенное беспокойство. Почему только процессоры Skylake? В конце концов, я даже не мог воспроизвести сбои в бинарниках ОСИПа на компьютерах в моей компании Inria, потому что все они работали на более старых процессорах Intel. Почему сбои не воспроизводятся? Однопоточное приложение ОСИПа делает сетевые и дисковые операции I/O, так что его выполнение должно быть строго детерминировано, и любой баг, который вызвал segfault, должен проявлять себя при каждом запуске в том же месте кода.

Читать дальше →

+140

Borikinternet Jul 6 2017 at 00:13

InnoDB cluster — оно работает, и вроде бы именно так, как обещали

6 min

16K

Database Administration*Data storage*

Tutorial

Я занимаюсь АТСками. И как-то так сложилась, что с самого первого заказа от меня хотели отказоустойчивости. Одним из ключевых компонентов современной АТС (как и любой информационной системы, наверное) является БД, где хранятся как данные о текущем состоянии системы, так и всякие конфигурационные параметры. Естественно, падение БД приводит к поломке всей системы. Начиналось все с MASTER-MASTER репликации в MySQL (исключительно для оперативности переключения), потом были эксперименты с MySQL over DRBD. Все это жило в pacemaker/corosync инфраструктуре. Там ездили IP-адреса, шлюзы и прочая лабудень. Со временем оно даже стало работать как-то более-менее устойчиво. Но тут мне попалась пара серверов, на которых DRBD сделать было нельзя, в MASTER-MASTER я разочаровался довольно давно (постоянно она у меня ломается, такая репликация), а без отказоустойчивой БД терялся весь смысл решения. На глаза мне попалось название InnoDB cluster и я решил: "была-не-была". Что из этого получилось — смотрите под катом.

Читать дальше →

+24

m1rko Jul 5 2017 at 05:45

Доставка миллиардов сообщений строго один раз

14 min

22K

Instant Messaging*High performance*System Analysis and Design*API*Development of communication systems*

Translation

Единственное требование ко всем системам передачи данных состоит в том, что нельзя потерять данные. Данные обычно могут поступить с опозданием или их можно запросить заново, но их никогда нельзя терять.

Чтобы удовлетворить этому требованию, большинство распределённых систем гарантирует по крайней мере однократную доставку. Техники обеспечения «по крайней мере однократной доставки» обычно сводятся к «повторам, повторам и повторам». Вы никогда не считаете сообщение доставленным, пока не получите чёткое подтверждение от клиента.

Но как пользователю по крайней мере однократная доставка — это не совсем то, что я хочу. Я хочу, чтобы сообщения доставлялись один раз. И только один раз.

Читать дальше →

+21

m1rko Jul 3 2017 at 20:51

Полное руководство по переходу с HTTP на HTTPS

36 min

233K

Apache*Nginx*Domain names administrating*Server Administration*Hosting

Tutorial

Translation

В наше время HTTPS обязателен для каждого веб-сайта: пользователи ищут замочек в адресной строке, когда передают личные данные; Chrome и Firefox недвусмысленно помечают как небезопасные веб-сайты с формами на страницах без HTTPS; это влияет на позиции в поисковой выдаче и оказывает серьёзное влияние на приватность в целом. Кроме того, сейчас имеется несколько вариантов получить бесплатный сертификат, так что переход на HTTPS — всего лишь вопрос желания.

Установка HTTPS может немного пугать неподготовленного пользователя — она требует многих шагов с участием различных сторон, а также специфических знаний криптографии и серверных конфигураций, да и вообще в целом кажется сложной.

В этом руководстве я объясню отдельные компоненты и шаги и ясно изложу каждый этап установки. У вас должно всё пройти гладко, особенно если ваш хостер сам предоставляет сертификаты HTTPS — тогда высока вероятность, что вы быстро и просто всё сделаете не выходя из панели управления.

Сюда включены детальные инструкции для владельцев виртуального хостинга на cPanel, администраторов серверов Apache HTTP и nginx под Linux и Unix, а также Internet Information Server под Windows.

Читать дальше →

+61

ruslan_z Jul 3 2017 at 07:19

Классификация текста с помощью нейронной сети на Java

12 min

81K

Designing and refactoring*Programming*Machine learning*Open source*Java*

Tutorial

– Наша Лена уходит в декрет, – сообщил начальник, – поэтому нам надо искать замену на время ее отсутствия. Часть задач мы распределим, а вот как быть с задачей перенаправления обращений пользователей?

Лена – это наш сотрудник технической поддержки. Одна из ее обязанностей – распределение поступающих на электронную почту обращений между специалистами. Она анализирует обращение и определяет ряд характеристик. Например, «Тип обращения»: ошибка системы, пользователю просто нужна консультация, пользователь хочет какую-то новую функциональность. Определяет «Функциональный модуль системы»: модуль бухгалтерии, модуль паспортизации оборудования и т.д. Проставив все эти характеристики, она перенаправляет обращение соответствующему специалисту.

– Давай я напишу программу, которая это будет делать автоматически! – ответил я.

На этом увлекательный роман заканчиваем и переходим к технической части.

Читать дальше →

+29

apiwoman Jul 1 2017 at 10:00

VK Streaming API Contest

1 min

11K

VK corporate blogOpen data*Programming*VK API*

Привет! Мы запустили бета-тестирование нового продукта для получения публичных данных из ВКонтакте в реальном времени — Streaming API.

Он призван заменить методы публичного API для поиска и парсинга данных (newsfeed.search, wall.search, wall.get) и стать более удобным решением задачи аналитики упоминаний в соцсети.

Читать дальше →

+26

dim2r Jun 30 2017 at 06:28

Оценка связанности событий с помощью Байеса

6 min

11K

Algorithms*Entertaining tasksMathematics*

В своей книге Нейт Сильвер приводит такой пример: допустим требуется разместить инвестиции в нескольких предприятиях, которые могут обанкротиться с вероятностью

$5\%$ . Требуется оценить свои риски. Чем выше вероятность банкротства, тем меньше мы будем вкладывать денег. И наоборот, если вероятность банкротства стремится к нулю, то можно инвестировать без ограничений.

Если имеется 2 предприятия, тогда вероятность того, что они оба обанкротятся, и мы потеряем все вложения

$P = 0.05 \cdot 0.05 = 0.0025$ . Так учит стандартная теория вероятности. Но что будет, если предприятия связаны, и банкротство одного ведет к банкротству другого?

Крайним случаем является ситуация, когда предприятия полностью зависимы. Вероятность двойного банкротства

$inline$ ( банкрот1 & банкрот2 ) =

$inline$ ( банкрот1 ), тогда вероятность потери всех вложений равна

$inline$ . Методика оценки риска имеет большой разброс

$inline$ от 0.05 до 0.0025 и реальное значение зависит от того, насколько правильно мы оценили связанность двух событий.

При оценке инвестиций в

$inline$ предприятий имеем

$inline$ от

$inline$ до

$inline$ . То есть максимальная возможная вероятность остается большой

$inline$ , и старая поговорка «не клади яйца в одну корзину» не сработает, если упадет прилавок со всеми корзинами сразу.

Таким образом наши оценки имеют колоссальный разброс, и сколько куда вкладывать остается вопросом. А ведь надо хорошо считать, прежде чем вкладывать. Нейт Сильвер говорит, что незнание этих простых законов аналитиками привело к крахам фондового рынка в 2008 году, когда рейтинговые агенства США оценивали риски, но не оценивали связанность рисков. Что в конце концов привело к эффекту домино, когда сначала свалился крупный игрок и увлек за собой других.

Попробуем разобрать эту проблему, решив простую математическую задачу после ката.

Читать дальше →

+14

combonik Jun 27 2017 at 13:29

Украина подверглась самой крупной в истории кибератаке вирусом Petya

5 min

148K

Information Security*

Сегодня утром ко мне обратились мои клиенты с паническим криком «Никита, у нас все зашифровано. Как это произошло?». Это была крупная компания 1000+ машин, с последними обновлениями лицензионного Windows, настроенным файрволом, порезанными правами для юзеров и антифишинг фильтрами для почтовиков.

Спустя час позвонили представители другой крупной компании, у них тоже все зашифровано, под 2000 машин. Атака началась с крупных бизнес структур и уже час или два спустя я узнал, что «Ощадбанк», «УкрПочта», «ТАСКомерцбанк», «ОТР банк» под атакой (полный список в UPD5).

Что случилось? И о развитии ситуации под катом.

Читать дальше →

+66

Scorobey Jun 24 2017 at 17:36

Подбор закона распределения случайной величины по данным статистической выборки средствами Python

6 min

48K

Python*Mathematics*Development for Windows*

О чём могут «рассказать» законы распределения случайных величин, если научиться их «слушать»

Законы распределения случайных величин наиболее «красноречивы» при статистической обработке результатов измерений. Адекватная оценка результатов измерений возможна лишь в том случае, когда известны правила, определяющие поведение погрешностей измерения. Основу этих правил и составляют законы распределения погрешностей, которые могут быть представлены представлены в дифференциальной (pdf) или интегральной (cdf) формах.

К основным характеристикам законов распределения относятся: наиболее вероятное значение измеряемой величины под названием математическое ожидание (mean); мера рассеивания случайной величины вокруг математического ожидания под названием среднеквадратическое отклонение (std).

Дополнительными характеристиками являются – мера скученности дифференциальной формы закона распределения относительно оси симметрии под названием асимметрия (skew) и мера крутости, огибающей дифференциальной формы под названием эксцесс (kurt). Читатель уже догадался, что приведенные сокращения взяты из библиотек scipy. stats, numpy, которые мы и будем использовать.

Читать дальше →

+10

NIX_Solutions Jun 22 2017 at 06:41

Волшебное введение в алгоритмы классификации

17 min

17K

NIX corporate blogProgramming*Algorithms*

Translation

Перевод статьи Брайна Беренда.

Когда вы впервые приступаете к изучению теории анализа и обработки данных, то одними из первых вы изучаете алгоритмы классификации. Их суть проста: берётся информация о конкретном результате наблюдений (data point), на основании которой этот результат относится к определённой группе или классу.

Хороший пример — спам-фильтр электронной почты. Он должен помечать входящие письма (то есть результаты наблюдений) как «спам» или «не спам», ориентируясь на информацию о письмах (отправитель, количество слов, начинающихся с прописных букв, и так далее).

Это пример хороший, но скучный. Спам-классификацию приводят в качестве примера на лекциях, презентациях и конференциях, так что вы наверняка уже не раз слышали о нём. Но что если поговорить о другом, более интересном алгоритме классификации? Каком-то более странном? Более… волшебном?

Всё верно! Сегодня мы поговорим о Распределяющей шляпе (Sorting Hat) из мира Гарри Поттера. Возьмём какие-то данные из сети, проанализируем и создадим классификатор, который будет сортировать персонажей по разным факультетам. Должно получиться забавно!

+22

nitro2005 Jun 21 2017 at 15:03

Магия SSH

11 min

534K

*nix*Configuring Linux*Server Administration*System administration*

С SSH многие знакомы давно, но, как и я, не все подозревают о том, какие возможности таятся за этими магическими тремя буквами. Хотел бы поделиться своим небольшим опытом использования SSH для решения различных административных задач.

Оглавление:

1) Local TCP forwarding
2) Remote TCP forwarding
3) TCP forwarding chain через несколько узлов
4) TCP forwarding ssh-соединения
5) SSH VPN Tunnel
6) Коротко о беспарольном доступе
7) Спасибо (ссылки)

Читать дальше →

+97

mechkladenets Dec 28 2012 at 17:28

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года

6 min

35K

Data Mining*Data visualization*

Recovery Mode

Это логическое продолжение статьи "Построение графа социальной сети с помощью Drupal и Feeds"

Я в составе группы занимался собором информации из блогосферы. Задачей было оценить напряженность, активность политических дискуссий в период избирательной кампании выборов в Государственную Думу. Забегая вперед скажу, что исследование позволило выдвинуть гипотезы, которые позже подтвердились. В частности, по результатам, о которых вы прочтете ниже можно понять, кто же будет выходить на площади и выводить за собой людей. И главное, за кем они пойдут.

Читать дальше →

+30

AterCattus Jun 19 2017 at 14:30

Архитектура и алгоритмы индексации аудиозаписей ВКонтакте

8 min

38K

VK corporate blogGo*Algorithms*Programming*

Расскажем о том, как устроен поиск похожих треков среди всех аудиозаписей ВКонтакте.

Зачем всё это надо?

У нас действительно много музыки. Много — это больше 400 миллионов треков, которые весят примерно 4 ПБ. Если загрузить всю музыку из ВКонтакте на 64 ГБ айфоны, и положить их друг на друга, получится башня выше Эйфелевой. Каждый день в эту стопку нужно добавлять еще 25 айфонов — или 150 тысяч новых аудиозаписей объёмом 1.5 ТБ.

Конечно, далеко не все эти файлы уникальны. У каждого аудио есть данные об исполнителе и названии (опционально — текст и жанр), которые пользователь заполняет при загрузке песни на сайт. Премодерации нет. В результате мы получаем одинаковые песни под разными названиями, ремиксы, концертные и студийные записи одних и тех же композиций, и, конечно, совсем неверно названные треки.

Если научиться достаточно точно находить одинаковые (или очень похожие) аудиозаписи, можно применять это с пользой, например:

не дублировать в поиске один трек под разными названиями;
предлагать прослушать любимую композицию в более высоком качестве;
добавлять обложки и текст ко всем вариантам песни;
усовершенствовать механизм рекомендаций;
улучшить работу с жалобами владельцев контента.

Читать дальше →

+86

PatientZero Jun 20 2017 at 08:24

Введение в алгоритм A*

10 min

197K

Game development*Algorithms*

Translation

При разработке игр нам часто нужно находить пути из одной точки в другую. Мы не просто стремимся найти кратчайшее расстояние, нам также нужно учесть и длительность движения. Передвигайте звёздочку (начальную точку) и крестик (конечную точку), чтобы увидеть кратчайший путь. [Прим. пер.: в статьях этого автора всегда много интерактивных вставок, рекомендую сходить в оригинал статьи.]

Для поиска этого пути можно использовать алгоритм поиска по графу, который применим, если карта представляет собой граф. A* часто используется в качестве алгоритма поиска по графу. Поиск в ширину — это простейший из алгоритмов поиска по графу, поэтому давайте начнём с него и постепенно перейдём к A*.

+68

Kaspersky_Lab Jun 17 2017 at 07:03

Security Week 24: 95 фиксов от Microsoft, роутер сливает данные светодиодами, для MacOS появился рансомвар-сервис

4 min

16K

«Лаборатория Касперского» corporate blogInformation Security*

Этот вторник патчей – просто праздник какой-то! Microsoft решила порадовать админов и выпустила 95 фиксов для Windows всех поддерживаемых версий, Office, Skype, Internet Explorer и Edge. 18 из них – для критических уязвимостей, включая три RCE. Кто не знает, это дыры, позволяющие удаленно запускать код без аутентификации, то есть самые опасные из всех. Первые две, согласно Microsoft, уже под атакой.

CVE-2017-8543 содержится в поисковом движке Windows Search Service (WSS). Сервис удобный, но, как оказалось, с дырой. Хакер, подключившись по SMB, может тотально поработить системы, например, изменять, удалять файлы, создавать новые учетные записи. Проблема имеется как в актуальных версиях Windows, так и в Windows XP и Server 2003. Для ее решения Microsoft снова выпустила отдельные патчи к неподдерживаемым системам. Похоже, это входит у компании в привычку. Вот все бы вендоры так делали!

Читать дальше →

+18

Menaskop Jun 16 2017 at 03:26

Законы и проекты, которые изменят лицо российского IT. Часть I

8 min

26K

FreelanceIT TerminologyPatenting*Language localisation*Legislation in IT

Делаю эту публикацию, так как после предыдущих вопросов возникло много: у разных людей и по разным поводам. Этот пост призван в первую очередь:

Помочь начинающим коллегам, которые только начинают путь в it-юриспруденции (название весьма условное);
Рассказать тем, кто работает в IT, что и когда их ждёт;
Оставить онлайн-заметку о том, что же думаю по этому поводу я здесь-и-сейчас, в 2017 гг. или даже раньше;
Познакомить апологетов «жёсткого государственного регулирования» с иным взглядом на право, которое есть связующее звено между управленцами и управляемыми;
Рассказать подписчикам (коих не много) и постоянным читателям (их уже несколько сотен) о том, как же я вижу положительные возможности в законотворчестве it-сектора.

Читать дальше →

+43

k0shk Jun 15 2017 at 09:22

Совет по открытым данным: раскрытие транспортных данных

7 min

6.2K

«Информационная культура» corporate blogGeoinformation services*Open data*

Источник фото: сайт Открытого Правительства

24 мая прошло очередное заседание совета по открытым данным, повесткой которого стало раскрытие транспортных данных. По сравнению с предыдущими заседаниями, “ляпов” было меньше, дополнительное финансирование в размере полуторного бюджета ведомства никто в этот раз не запрашивал, а об эмоциональной оценке деятельности Росгидромета уже написано в официальном пресс-релизе на сайте Открытого Правительства. Остается только пройтись по пунктам повестки и рассказать об опубликованных и планируемых датасетах.

Читать дальше →

+25

sergeypid Jun 6 2017 at 09:27

40+ приложений технологии машинного обучения для бизнеса

6 min

8.7K

Machine learning*

Перевод поста Филиппа Ходжетта, выступавшего недавно на конференции Hollywood Professional Association Tech Retreat. Надеюсь, собранный в одном месте список актуальных сервисов, готовых к интеграции в ваши проекты, и примеров работающего бизнеса на основе машинного обучения будет полезен разработчикам. Предлагаю делиться вашими собственными результатами успешного внедрения проектов, связанных с глубинным обучением.

Пытаясь определить для себя, как мы могли бы использовать машинное обучение в нашем софтовом бизнесе, я составил этот список. Я был слегка шокирован разнообразием способов использования М.О. По сообщению TechCrunch, уже вложено более 10 миллиардов долларов в 1500 стартапов, связанных с М.О. и искусственным интеллектом. В 2017 году прогнозируется увеличение этой суммы в четыре раза! Захотелось поделиться с вами этим списком...

Читать дальше →

+4

wunder_editor Jun 5 2017 at 12:54

Обзор исследований в области глубокого обучения: обработка естественных языков

15 min

28K

Wunder Fund corporate blogNatural Language Processing*Machine learning*

Translation

Это третья статья из серии “Обзор исследований в области глубокого обучения” (Deep Learning Research Review) студента Калифорнийского университета в Лос-Анджелесе Адита Дешпанда (Adit Deshpande). Каждые две недели Адит публикует обзор и толкование исследований в определенной области глубинного обучения. В этот раз он сосредоточил свое внимание на применении глубокого обучения для обработки текстов на естественном языке.

Читать дальше →

+23

6

7 8 ...