Alexander Komarov @izard

software optimization: CPU, GPU

wunder_editor Apr 19 2017 at 13:43

Алгоритм Джонкера-Волгенанта + t-SNE = супер-сила

9 min

32K

Wunder Fund corporate blogMachine learning*Algorithms*

Translation

До:

После:

Заинтригованы? Но обо всем по порядку.

t-SNE

t-SNE — это очень популярный алгоритм, который позволяет снижать размерность ваших данных, чтобы их было проще визуализировать. Этот алгоритм может свернуть сотни измерений к всего двум, сохраняя при этом важные отношения между данными: чем ближе объекты располагаются в исходном пространстве, тем меньше расстояние между этими объектами в пространстве сокращенной размерности. t-SNE неплохо работает на маленьких и средних реальных наборах данных и не требует большого количества настроек гиперпараметров. Другими словами, если взять 100 000 точек и пропустить их через эту волшебный черный ящик, на выходе мы получим красивый график рассеяния.

Читать дальше →

+63

olemskoi Apr 25 2017 at 03:37

Проблемы со скоростью выполнения системных вызовов «gettimeofday» и «clock_gettime» в AWS EC2

8 min

6.5K

Слёрм corporate blogAmazon Web Services*Development for Linux*

Translation

Кадр из фильма «Матрица: Революция»

В этой статье мы подробно рассмотрим детали одной интересной находки: два часто используемых системных вызова (gettimeofday, clock_gettime) в AWS EC2 выполняются очень медленно.

В Linux реализован механизм по ускорению этих двух часто используемых системных вызовов, благодаря которому их код выполняется в пространстве пользователя, что позволяет избежать переключениям в контекст ядра. Это сделано с помощью предоставляемой ядром виртуальной общей библиотеки (virtual shared library), которая отображается в адресное пространство всех запущенных программ.

Два вышеназванных системных вызова не могут использовать vDSO (virtual Dynamic Shared Object) в AWS EC2, поскольку виртуализированный источник временных меток (virtualized clock source) в xen (и некоторых конфигурациях kvm) не поддерживает получение информации о времени через vDSO.

Обойти эту проблему не получится. Можно поменять источник информации о времени на tsc, но это небезопасно. Далее мы рассмотрим вопрос более подробно и проведем сравнительное тестирование с помощью microbenchmark.

Читать дальше →

+14

sylvio Aug 6 2011 at 21:07

Монады с точки зрения теории категорий

9 min

36K

Programming*

Translation

Введение

Кажется, монады в программировании стали загадкой века. И для этого есть две причины:

недостаточное знание теории категорий;
многие авторы стараюстся не упоминать категории вообще.

Это как говорить об электричестве не используя мат. анализ. Достаточно для замены предохранителя, не хватит, чтобы спроектировать усилитель.

Мы начнём с простого введения в категории и функторы, затем дадим определение монады, приведём простые примеры монад в категориях и в конце приведём монадическую терминологию используемую в языках программирования.

Я уверен, что монады с точки зрения категорий почти элементарны.

Содержание

Категория
Функтор
Естественное преобразование
Монада
Монады исключения и состояния
Монады в программировании
Ссылки

Читать дальше →

+84

151

prokofyev Apr 21 2017 at 10:20

Монадные трансформеры для практикующих программистов

6 min

12K

Scala*Functional Programming*

Translation

Прикладное введение в монадные трансформеры, от проблемы к решению

Представьте, что вы сидите за рабочим столом, допиваете кофе и готовитесь к написанию кода на Scala. Функциональное программирование оказалось не так страшно, как его малюют, жизнь прекрасна, вы усаживаетесь поудобнее, сосредотачиваетесь и начинаете писать новый функционал, который нужно сдать на этой неделе.

Всё как обычно: несколько лаконичных однострочных выражений (да, детка, это Scala!), несколько странных ошибок компилятора (о, нет, Scala, нет!), лёгкое сожаление о том, что вы написали такой запутанный код… И вдруг вы сталкиваетесь со странной проблемой: выражение for не компилируется. «Ничего страшного», — думаете вы: «сейчас гляну на StackOverflow», как вы это делаете ежедневно. Как все мы это делаем ежедневно.

Но сегодня, похоже, неудачный день.

Читать дальше →

+25

cerevra Apr 21 2017 at 11:30

Как я писал предложение к стандарту С++

4 min

25K

Яндекс corporate blogC++*IT Standards*Programming*

Это будет история младшего разработчика из Яндекс.Паспорта о появлении предложения в стандарт С++, разработанного в соавторстве с Антоном antoshkka Полухиным. Как часто бывает в жизни, что-то новое началось с боли, а точнее — с желания её прекратить.

Жила-была библиотека у меня на поддержке. Всё у неё было хорошо: собиралась под Linux, работала, не падала. Однажды пришли люди с просьбой (требованием) собрать её под Windows. Почему бы и нет? Но с первого раза не получилось. Корнем зла оказалась рукописная криптография, которая в какой-то момент умножала два 64-битных целых числа. Для сохранения результата такого умножения потребуется число на 128 бит, и в библиотеке использовался тип __int128. Он прекрасен: имеет естественный интерфейс, поддерживается несколькими компиляторами (gcc, clang), работает без аллокации памяти, но главное — он есть.

Читать дальше →

+109

alexkbs Mar 30 2017 at 04:11

OpenSSL, ssl_ciphers и nginx: прокачиваем на 100%

11 min

95K

Nginx*Configuring Linux*Server optimization*

Tutorial

Много где написано о том, как получить 100% и A+ по тесту от Qualys. При всём при том практически везде директивы ssl_ciphers и подобные даются как эдакие магические строки, которые нужно просто вставить, и надеяться, что автор не подводит вас под монастырь. Эта статья призвана исправить это недоразумение. По прочтению этой статьи директива ssl_ciphers потеряет для вас всякую магию, а ECDHE и AES будут как друзья да братья.

Также вы узнаете почему 100% по тестам — не всегда хорошо в реальности.

Читать дальше →

+64

kana-desu Apr 1 2017 at 12:04

Вы знаете, что такое трансдьюсеры

6 min

45K

JavaScript*Functional Programming*

Трансдьюсеры были анонсированы еще в далеком 2014, с тех пор по ним было написано немалое количество статей (раз, два), но ни после одной статьи я не мог сказать, что понимаю трансдьюсеры кристально ясно. После каждой статьи у меня возникало ощущение, что я приблизительно понимаю что-то сложное, но оно все равно оставалось сложным. А потом однажды в голове что-то щелкнуло: "я ведь уже видел этот паттерн, только он назывался иначе!"

Читать дальше →

+51

AloneCoder Mar 30 2017 at 09:01

Что я изменил бы в Go

32 min

28K

VK corporate blogCompilers*High performance*Rust*Go*

Translation

В течение полугода я программировал преимущественно на Go. И я разочарован. По двум причинам:

В Go особенно трудно придерживаться функциональной парадигмы. По сути, язык препятствует функциональному программированию. Меня это разочаровало, потому что в императивном коде, который я пишу, большое количество шаблонных кусков. К тому же, как мне кажется, в этом случае выше риск ошибок, в отличие от использования функциональных абстракций.
Я считаю, что Go упускает свои шансы. В программных языках появились замечательные нововведения (особенно в сфере проверки и вывода типов — type inference), делающие код безопаснее, быстрее и чище. Мне хотелось бы, чтобы Google использовала своё влияние, чтобы поддержать некоторые из этих идей.

Я не первый, кто воспринимает Go подобным образом. Вот публикации других людей, разделяющих мои впечатления:

Ниже я добавлю свои соображения. Чтобы показать, как именно можно улучшить Go, я буду сравнивать его с Rust.

Читать дальше →

+69

180

vradchenko Mar 27 2017 at 11:28

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

28 min

287K

Open Data Science corporate blogPython*Algorithms*Mathematics*Machine learning*

Пятую статью курса мы посвятим простым методам композиции: бэггингу и случайному лесу. Вы узнаете, как можно получить распределение среднего по генеральной совокупности, если у нас есть информация только о небольшой ее части; посмотрим, как с помощью композиции алгоритмов уменьшить дисперсию и таким образом улучшить точность модели; разберём, что такое случайный лес, какие его параметры нужно «подкручивать» и как найти самый важный признак. Сконцентрируемся на практике, добавив «щепотку» математики.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Список статей серии

Читать дальше →

+54

ServPonomarev Mar 23 2017 at 11:35

Технологический стек классификации текстов на естественных языках

15 min

18K

Machine learning*Semantics*

В данном посте мы рассмотрим современные подходы, применяемые для классификации текстов на естественном языке по их тематикам. Выбранные методы работы с документами определены общей сложной спецификой задачи – зашумлёнными обучающими выборками, выборками недостаточного размера или вообще отсутствующими выборками, сильным перекосом размеров классов и так далее. В общем – реальные практические задачи. Прошу под кат.

Читать дальше →

+17

LukaSafonov Mar 1 2017 at 10:37

Начальный уровень подготовки в области практической информационной безопасности

6 min

29K

Information Security*

Вне зависимости от программ обучения, их ключевыми особенностями являются актуальный материал и практическая подготовка в пентест-лабораториях, составляющая 80% от общей программы курса. В данной статье мы разберем базис команд и полезных трюков при проведении тестирования на проникновение внешнего периметра.

Читать дальше →

+32

webhamster Feb 8 2017 at 14:00

Каково это — быть разработчиком в России, когда тебе сорок

37 min

162K

Programming*

Привет всем, я — сорокалетний программист-самоучка, а это моя история.

Пару недель назад я наткнулся на график распределения людей, интересующихся технологиями, ИТ и программированием. И он заставил меня задуматься о моей карьере.

Через каких-то 20 лет мне стукнет 60. И вероятность того, что я еще смогу заниматься тем, для чего был создан, составляет очень крошечную величину. Эти размышления привели меня туда, откуда все начиналось.

Я дебютировал в роли разработчика программного обеспечения в 1990 году, через год после того, как мне на 14-тилетие родители подарили ПЭВМ «Микроша».

Читать дальше →

+323

788

ru_vds Dec 20 2016 at 12:23

История моего стартапа: 500000 пользователей за 5 дней на стодолларовом сервере

11 min

36K

RUVDS.com corporate blogIT Infrastructure*Server optimization*Server Administration*

Translation

Похоже, все в мире стартапов согласны с тем, что первые версии приложений должны представлять собой минимально жизнеспособный продукт (MVP, Minimal Viable Product), создавая который можно не особо заботиться о его масштабировании с технической точки зрения. Мне много раз доводилось слышать о том, что самое главное в подобных делах – поскорее выпустить нечто работающее. И, до тех пор, пока бизнес-модель нормально функционирует в условиях роста клиентской базы – всё нормально. А тратить время и деньги на то, чтобы сделать систему, которая сможет выдержать внезапный наплыв пользователей, не стоит. Беспокоиться нужно лишь о проверке предположений, об оценке рынка и о раскрутке бизнеса. Масштабируемость – это то, что можно отложить на потом. К несчастью, такая вот слепая вера в шаблонные идеи уже не раз приводила к оглушительным провалам. Pokémon GO, и, в частности, связанные с этим проектом приложения, служат напоминанием об этом.

Читать дальше →

+13

lockywolf Dec 9 2016 at 10:20

Как правильно настроить Wi-Fi

11 min

466K

Wireless technologies*Configuring Linux*Server optimization*Network technologies*System administration*

Recovery Mode

Введение

Думаю, не ошибусь сильно, если у большинства из нас подключение к интернету выглядит следующим образом: есть некоторый довольно скоростной проводной канал до квартиры (сейчас уже и гигабит не редкость), а в квартире его встречает роутер, который раздаёт этот интернет клиентам, выдавая им «чёрный» ip и осуществляя трансляцию адресов.

Довольно часто наблюдается странная ситуация: при скоростном проводе, с роутера раздаётся совсем узенький wifi-канал, не загружающий и половины провода. При этом, хотя формально Wi-Fi, особенно в его ac-версии поддерживает какие-то огромные скорости, при проверке оказывается, что либо Wi-Fi подключается на меньшей скорости, либо подключается, но не выдаёт скорости на практике, либо теряет пакеты, либо всё вместе.

В какой-то момент и я столкнулся с похожей проблемой, и решил настроить свой Wi-Fi по-человечески. На удивление, это заняло примерно в 40 раз дольше, чем я ожидал. Вдобавок, как-то так случилось, что все инструкции по настройке Wi-Fi, которые я находил, сходились к одному из двух видов: в первом предлагали поставить роутер повыше и выпрямить антенну, для чтения второго же мне не хватало честного понимания алгоритмов пространственного мультиплексирования.

Собственно, эта заметка — это попытка заполнить пробел в инструкциях. Я сразу скажу, что задача до конца не решена, несмотря на приличный прогресс, стабильность подключения всё ещё могла бы быть лучше, поэтому я был бы рад услышать комментарии коллег по описанной тематике.

Читать дальше →

+54

111

p0b0rchy Nov 23 2016 at 13:14

Анализ доклада Сергея Куксенко с JPoint 2016

7 min

5.7K

JUG Ru Group corporate blogJava*

Сегодня открываем новую рубрику: разбор технических выступлений. Если взять в целом удачный доклад с IT-конференции и формализовать в нём те моменты, благодаря которым он хорош, то можно многому научиться в плане выступлений. А если в том же докладе формализовать ещё и моменты, которые можно улучшить, то польза будет двойная. Тем, кто собирается выступать на конференциях, это пригодится. Да и тем, кто давно и успешно там выступает, это тоже не повредит.

Сегодня вашему вниманию предлагается доклад Сергея Walrus Куксенко на JPoint 2016: «Quantum Performance Effects II: Beyond the Core».

→ Слайды тут

Дисклеймер: про Java только сам доклад, если вы его ещё не видели. Статья под катом — про доклад.

+28

xopxe Oct 31 2016 at 12:40

[ В закладки ] Зоопарк архитектур нейронных сетей. Часть 2

8 min

41K

Wunder Fund corporate blogMachine learning*Algorithms*

Translation

Публикуем вторую часть статьи о типах архитектуры нейронных сетей. Вот первая.

За всеми архитектурами нейронных сетей, которые то и дело возникают последнее время, уследить непросто. Даже понимание всех аббревиатур, которыми бросаются профессионалы, поначалу может показаться невыполнимой задачей.

Поэтому я решил составить шпаргалку по таким архитектурам. Большинство из них — нейронные сети, но некоторые — звери иной породы. Хотя все эти архитектуры подаются как новейшие и уникальные, когда я изобразил их структуру, внутренние связи стали намного понятнее.

Читать дальше →

+36

arccn Nov 17 2016 at 15:05

SDN: изменения концепции за 5 лет

5 min

12K

IT Infrastructure*Network technologies*

From sandbox

Начиная с 2011-2012 гг стали много говорить и писать про необходимость изменения архитектуры компьютерных сетей по целому ряду причин. В первую очередь причиной называли лавинообразный рост трафика и изменение его структуры и сложность масштабирования сетей. Как раз в этот период видео-трафик начал расти по экспоненте: с 2010 году Cisco сделали прогноз о 26-кратном росте видео-трафика к 2015 году. Мобильный трафик рос совсем невероятными темпами: с 2005 по 2015 год в 4 000 раз. К списку причин можно добавить еще и рост популярности облачных архитектур, потребность в снижении стоимости владения сетями, снижение зависимости от вендоров и т.д. В качестве наиболее очевидного преемника традиционной сетевой архитектуры, где Control Plane и Data Plane совмещены, называли архитектуру Software Defined Networking (SDN), при которой плоскость управления сетью выносилась на выделенный контроллер. В конечном итоге в качестве главного достоинства SDN закрепилось экономичность и независимость от вендора.

Читать дальше →

+14

lhog Nov 15 2016 at 07:49

Онкология. Моя история. Часть первая

4 min

122K

Health

From sandbox

Сказать по правде писать статью на одном из сайтов ТМ до сего дня не входило в мои планы. Зарегистрировался то я с оказией где-то в 2012 году, то ли ответить на какую то статью, то ли задать вопрос автору оной. Ни то, ни другое сделать у меня не вышло из-за read-only, вот и не логинился я с тех самых пор. Сегодня же в почтовой рассылке обнаружил ссылку на статью Isma «Рак. Что с этим делать и чего делать не надо. Личный опыт.».

Прочитал очень внимательно, включая комментарии и не смог сдержать в себе желания поделиться собственным опытом в данном вопросе. Не приведи **** окажется кому-то полезным.

Что это?

Срез спиральной компьютерной томографии.
Кто найдёт «белое пятно» из статьи ниже, тому пирожок с полочки, за то, что они нашли, а два бестолковых рентгенолога не нашли.

Интересно?

Читать дальше →

+114

276

GLaDosSystem Nov 11 2016 at 13:09

Includor.js, или @j includor

2 min

4.1K

JavaScript*

From sandbox

Вы наверняка привыкли, что для того, чтобы подключить внешний JavaScript код на вашей HTML-страничке, нужно писать длинные конструкции вроде этой:

<script src="JS/example.js"></script>

Много времени я мирился этой конструкцией, но однажды мне стало лень писать её, потому что понял, что мне вполне по силам сократить её до такой:

Читать дальше →

-22

aylarov Nov 11 2016 at 08:03

Freeform распознавание речи в реальном времени и распознавание записей звонков

7 min

21K

Voximplant corporate blogGoogle API*Programming*Website development*Development of communication systems*

Tutorial

Мы уже писали про возможность создания сценариев с распознаванием речи, но тогда функционал данной системы был несколько ограничен. Не так давно компания Google открыла доступ к системе распознавания речи. И мы, конечно же, этим воспользовались. Многие компании реализуют разные сценарии взаимодействия со своими клиентами с помощью Voximplant. Автоматизация с помощью распознавания речи и поиск в уже распознанном позволяют бизнесу тратить меньше сил на ручную работу и больше — на то, что действительно важно. Далее мы подробно расскажем про несколько основных кейсов, ради которых делали интеграцию, и про проблемы, с которыми столкнулись в процессе, а также приведем несколько примеров использования нового функционала.

Попробовать демо и почитать, как оно сделано

+26

1 2 ...

7 8

10 11 ...

18 19