Статьи / Закладки / Профиль DaylightIsBurning / Хабр

Все потоки

@DaylightIsBurning

Пользователь

ПрофильСтатьи1ПостыНовостиКомментарии2.6K

@Siarshai 6 фев 2017 в 05:38

Интересные алгоритмы кластеризации, часть первая: Affinity propagation

11 мин

59K

Машинное обучение * Математика * Алгоритмы * Data Mining *

Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Если вы спросите начинающего аналитика данных, какие он знает методы классификации, вам наверняка перечислят довольно приличный список: статистика, деревья, SVM, нейронные сети… Но если спросить про методы кластеризации, в ответ вы скорее всего получите уверенное «k-means же!» Именно этот золотой молоток рассматривают на всех курсах машинного обучения. Часто дело даже не доходит до его модификаций (k-medians) или связно-графовых методов.

Не то чтобы k-means так уж плох, но его результат почти всегда дёшев и сердит. Есть более совершенные способы кластеризации, но не все знают, какой когда следует применять, и очень немногие понимают, как они работают. Я бы хотел приоткрыть завесу тайны над некоторыми алгоритмами. Начнём с Affinity propagation.

Читать дальше →

+20

@eao197 17 июл 2019 в 05:47

A declarative data-processing pipeline on top of actors? Why not?

21 мин

2.8K

C++ * Open source * Программирование *

Some time ago, in a discussion on one of SObjectizer's releases, we were asked: "Is it possible to make a DSL to describe a data-processing pipeline?" In other words, is it possible to write something like that:

A | B | C | D

and get a working pipeline where messages are going from A to B, and then to C, and then to D. With control that B receives exactly that type that A returns. And C receives exactly that type that B returns. And so on.

It was an interesting task with a surprisingly simple solution. For example, that's how the creation of a pipeline can look like:

auto pipeline = make_pipeline(env, stage(A) | stage(B) | stage(C) | stage(D));

Or, in a more complex case (that will be discussed below):

auto pipeline = make_pipeline( sobj.environment(),
        stage(validation) | stage(conversion) | broadcast(
            stage(archiving),
            stage(distribution),
            stage(range_checking) | stage(alarm_detector{}) | broadcast(
                stage(alarm_initiator),
                stage( []( const alarm_detected & v ) {
                        alarm_distribution( cerr, v );
                    } )
                )
            ) );

In this article, we'll speak about the implementation of such pipeline DSL. We'll discuss mostly parts related to stage(), broadcast() and operator|() functions with several examples of usage of C++ templates. So I hope it will be interesting even for readers who don't know about SObjectizer (if you never heard of SObjectizer here is an overview of this tool).

+7

@m1rko 10 мая 2019 в 11:08

Свободные текстовые редакторы для совместной работы

8 мин

20K

Open source * Софт

Перевод

Много лет меня преследовал этот зуд — попытки найти «идеальный» текстовый редактор для совместной работы. Но не просто любой текстовый редактор, который поддерживает совместную работу, о нет, моя задача — найти (ну, по крайней мере, искать) открытые текстовые редакторы с групповой работой в режиме реального времени (т. е. не только обычный текст, но и структурированный контент). Таким образом, основное внимание в этой статье уделяется довольно нишевой категории инструментов с открытым исходным кодом и технологиям, на которых они работают. Если ваши интересы шире, можете обратиться к этому постоянно обновляемому списку редакторов.

Читать дальше →

+21

@MikhailSA 3 мая 2019 в 14:11

Почему Data Science командам нужны универсалы, а не специалисты

8 мин

10K

Big Data * IT-компанииКарьера в IT-индустрииУправление персоналом * Читальный зал

Перевод

HIROSHI WATANABE/GETTY IMAGES

В книге «Богатство народов» Адам Смит показывает, как разделение труда становится главным источником повышения производительности. Примером выступает линия сборки завода по производству булавок: «Один рабочий тянет проволоку, другой выпрямляет её, третий обрезает, четвертый заостряет конец, пятый обтачивает другой конец для насаживания головки». Благодаря специализации, ориентированной на определенные функции, каждый работник становится высококвалифицированным специалистом в своей узкой задаче, которая приводит к повышению эффективности процесса. Выпуск на одного работника увеличивается во много раз, а завод становится более эффективным в производстве булавок.

Такое разделение труда по функциональности настолько укоренилось в наших умах даже сегодня, что мы быстро организовали наши команды соответствующим образом. Data Science не является исключением. Комплексные алгоритмические бизнес-возможности требуют множества трудовых функций, поэтому компании обычно создают группы специалистов: исследователей, инженеров по анализу данных, инженеров машинного обучения, ученых, занимающихся причинно-следственными связями, и так далее. Работа специалистов координируется менеджером по продукту с передачей функций таким образом, который напоминает фабрику булавок: «один человек получает данные, другой моделирует их, третий выполняет их, четвертый измеряет» и так далее,

Читать дальше →

+9

@ru_vds 2 мая 2019 в 10:18

Руководство по Docker Compose для начинающих

9 мин

1.2M

Блог компании RUVDS.comВиртуализация * Веб-разработка *

Туториал

Перевод

Автор статьи, перевод которой мы сегодня публикуем, говорит, что она предназначена для тех разработчиков, которые хотят изучить Docker Compose и идут к тому, чтобы создать своё первое клиент-серверное приложение с использованием Docker. Предполагается, что читатель этого материала знаком с основами Docker. Если это не так — можете взглянуть на эту серию материалов, на эту публикацию, где основы Docker рассмотрены вместе с основами Kubernetes, и на эту статью для начинающих.

Читать дальше →

+31

@Barrayar 30 апр 2019 в 12:03

Почему data scientist — это не data engineer?

15 мин

18K

Блог компании VKBig Data * Data Engineering * Машинное обучение * Управление продуктом *

Перевод

«Ученый может открыть новую звезду, но не может создать её. Для этого ему пришлось бы обратиться к инженеру». Гордон Линдсей Глегг, «Дизайн дизайна» (1969)

Несколько месяцев назад я писал о различиях между специалистами по теории и методам анализа данных (data scientist) и специалистами по обработке данных (data engineer). Я говорил об их навыках и общих отправных точках. Произошло кое-что интересное: data scientist'ы начали наступать, утверждая, что они на самом деле так же компетентны в области инженерии данных, как и специалисты по обработке данных. Это было интересно, потому что специалисты по обработке данных не высказывали возражений и не говорили, что они являются специалистами по теории анализа данных.

Поэтому последние несколько месяцев я занимался сбором информации и наблюдением за поведением специалистов по теории анализа данных в их естественной рабочей среде. В этом посте я подробнее расскажу о том, почему data scientist не является data engineer'ом.

Читать дальше →

+23

@Scorobey 26 апр 2019 в 15:02

Вейвлет – анализ. Основы

8 мин

89K

ФизикаWindows * Научно-популярноеМатематика * Python *

Туториал

Введение

Английское слово wavelet (от французского «ondelette») дословно переводится как «короткая (маленькая) волна». В различных переводах зарубежных статей на русский язык встречаются еще термины: «всплеск», «всплесковая функция», «маловолновая функция», «волночка» и др.

Вейвлет-преобразование (ВП) широко используется для анализа сигналов. Помимо этого, оно находит большое применение в области сжатия данных. ВП одномерного сигнала – это его представление ввиде обобщенного ряда или интеграла Фурье по системе базисных функций.

$\psi _{ab}(t)=\frac{1}{\sqrt{a}}\psi \left ( \frac{t-b}{a} \right )$ , (1)

сконструированных из материнского (исходного) вейвлета

$\psi(t)$ , обладающего определенными свойствами за счет операций сдвига во времени ( b ) и изменения временного масштаба (a).

Множитель

$1/\sqrt{a}$ обеспечивает независимость нормы функций (1) от масштабирующего числа (a). Для заданных значений параметров a и b функция

$\psi_{ab}(t)$ и есть вейвлет, порождаемый материнским вейвлетом

$\psi(t)$ .

В качестве примера приведём вейвлет «мексиканская шляпа» во временной и частотной областях:

Листинг вейвлета для временной области

from numpy import*
import matplotlib.pyplot as plt
x= arange(-4,30,0.01)
def w(a,b,t):    
    f =(1/a**0.5)*exp(-0.5*((t-b)/a)**2)* (((t-b)/a)**2-1)
    return f
plt.title("Вейвлет «Мексиканская шляпа»:\n$1/\sqrt{a}*exp(-0,5*t^{2}/a^{2})*(t^{2}-1)$")
y=[w(1,12,t) for t in x]
plt.plot(x,y,label="$\psi(t)$ a=1,b=12") 
y=[w(2,12,t) for t in x]
plt.plot(x,y,label="$\psi_{ab}(t)$ a=2 b=12")   
y=[w(4,12,t) for t in x]
plt.plot(x,y,label="$\psi_{ab}(t)$ a=4 b=12")   
plt.legend(loc='best')
plt.grid(True)
plt.show()

Читать дальше →

+24

@delvin-fil 25 мар 2019 в 19:26

И снова о втором мониторе из планшета…

3 мин

39K

ГаджетыМониторы и ТВНастройка Linux *

Из песочницы

Оказавшись обладателем среднего такого планшета с нерабочим сенсором (старшенький сынуля постарался) долго думал, куда приспособить. Гуглил, гуглил и нагуглил (раз, два, Хакер №227), а так же много других рецептов с участием spacedesk, iDispla и некоторых других. Вот только незадача — у меня Linux. Погуглив ещё, я нашел несколько рецептов и путем несложного шаманства получил приемлемый результат.

Читать дальше →

+55

@SemyonSinchenko 27 мар 2019 в 11:17

Neural Quantum States — представление волновой функции нейронной сетью

8 мин

6.2K

Блог компании Райффайзен БанкФизикаМашинное обучение *

В этой статье мы рассмотрим необычное применение нейронных сетей в целом и ограниченных машин Больцмана в частности для решения двух сложных задач квантовой механики — поиска энергии основного состояния и аппроксимации волновой функции системы многих тел.

Читать дальше →

+22

@avstepanov 25 мар 2019 в 07:22

«Умный дом» — переосмысление

10 мин

60K

Умный домИнтернет вещейИнженерные системы * Будущее здесьDIY или Сделай сам

Фото https://www.instagram.com/kate_kondratova/

На Хабре уже было несколько публикаций о том, как айтишники строят себе дома и что из этого получается.

Хочу поделиться своим опытом («тестовый проект»).

Постройка собственного дома (особенно, если еще и своими силами) — крайне объемный кусок информации, поэтому я свое повествование буду вести больше про ИТ-системы (мы же все-таки сейчас на Хабре, а не на ФХ, хотя там тема тоже есть).

Читать дальше →

+43

@AndrewSu 18 мар 2019 в 19:25

Задача N тел или как взорвать галактику не выходя из кухни

34 мин

50K

GPGPU * Алгоритмы * Математика * Параллельное программирование * Физика

Не так давно я прочёл фантастический роман «Задача трёх тел» Лю Цысиня. В нём у одних инопланетян была проблема — они не умели, с достаточной для них точностью, вычислять траекторию своей родной планеты. В отличии от нас, они жили в системе из трёх звёзд, и от их взаимного расположения сильно зависела «погода» на планете — от испепеляющей жары до леденящего мороза. И я решил проверить, можем ли мы решать подобные задачи.

Читать дальше →

+174

@temkahap 7 фев 2019 в 09:44

Пишем XGBoost с нуля — часть 2: градиентный бустинг

13 мин

31K

Блог компании VKData Mining * Python * Алгоритмы * Машинное обучение *

Туториал

Всем привет!

В прошлой статье мы разбирались, как устроены решающие деревья, и с нуля реализовали
алгоритм построения, попутно оптимизируя и улучшая его. В этой статье мы реализуем алгоритм градиентного бустинга и в конце создадим свой собственный XGBoost. Повествование будет идти по той же схеме: пишем алгоритм, описываем его, в заверешение подводим итоги, сравнивая результаты работы с аналогами из Sklearn'а.

В этой статье упор тоже будет сделан на реализацию в коде, поэтому всю теорию лучше почитать в другом вместе (например, в курсе ODS), и уже со знанием теории можно переходить к этой статье, так как тема достаточно сложная.

Итак, поехали!

+53

@Vovanys 23 янв 2019 в 11:42

Вышел Orange Pi 3 — полноценный мини-пк за 30$ на Linux

2 мин

110K

Компьютерное железо

Вышла новая версия всем известного клона Raspberry Pi. Форм фактор тот же если не учитывать PCI-E.

Из нового:

PCIE

Supports RC mode
Supports x1 Gen2(5.0Gbps) lane
Complies with PCI Express Base 2.0 Specification

WIFI+BT

AP6256, IEEE 802.11 a/b/g/n/ac, BT5.0

Читать дальше →

+81

@haqreu 20 янв 2019 в 16:25

256 строчек голого C++: пишем трассировщик лучей с нуля за несколько часов

8 мин

156K

C++ * Математика * Программирование * 3D-графика * Разработка игр *

Туториал

Публикую очередную главу из моего курса лекций по компьютерной графике (вот тут можно читать оригинал на русском, хотя английская версия новее). На сей раз тема разговора — отрисовка сцен при помощи трассировки лучей. Как обычно, я стараюсь избегать сторонних библиотек, так как это заставляет студентов заглянуть под капот.

Подобных проектов в интернете уже море, но практически все они показывают законченные программы, в которых разобраться крайне непросто. Вот, например, очень известная программа рендеринга, влезающая на визитку. Очень впечатляющий результат, однако разобраться в этом коде очень непросто. Моей целью является не показать как я могу, а детально рассказать, как подобное воспроизвести. Более того, мне кажется, что конкретно эта лекция полезна даже не столь как учебный материал по комьпютерной графике, но скорее как пособие по программированию. Я последовательно покажу, как прийти к конечному результату, начиная с самого нуля: как разложить сложную задачу на элементарно решаемые этапы.

Внимание: просто рассматривать мой код, равно как и просто читать эту статью с чашкой чая в руке, смысла не имеет. Эта статья рассчитана на то, что вы возьмётесь за клавиатуру и напишете ваш собственный движок. Он наверняка будет лучше моего. Ну или просто смените язык программирования!

Итак, сегодня я покажу, как отрисовывать подобные картинки:

Читать дальше →

+236

@PatientZero 17 янв 2019 в 08:00

Генератор подземелий на основе узлов графа

11 мин

29K

Unity * Алгоритмы * Разработка игр *

Перевод

В этом посте я опишу алгоритм процедурной генерации уровней двухмерного подземелья с заранее заданной структурой. В первой части будет представлено общее описание, а во второй — реализация алгоритма.

Введение

Алгоритм был написан как часть работы на получение степени бакалавра и основан на статье Ma et al (2014). Целью работы было ускорение алгоритма и дополнение его новыми функциями. Я вполне доволен результатом, потому что мы сделали алгоритм достаточно быстрым, чтобы использовать его во время выполнения игры. После завершения бакалаврской работы мы решили превратить её в статью и отправить на конференцию Game-ON 2018.

Алгоритм

Для создания уровня игры алгоритм получает в качестве входных данных набор полигональных строительных блоков и граф связности уровня (топологию уровня). Узлы графа обозначают комнаты, а рёбра определяют связи между ними. Цель алгоритма — назначить каждому узлу графа форму и расположение комнаты таким образом, чтобы никакие две формы комнат не пересекались, и каждая пара соседних комнат могла соединяться дверьми.

+48

@antoshkka 28 ноя 2018 в 06:22

C++20 и Modules, Networking, Coroutines, Ranges, Graphics. Итоги встречи в Сан-Диего

8 мин

31K

Блог компании ЯндексПрограммирование * Компиляторы * Алгоритмы * C++ *

До C++20 осталась пара лет, а значит, не за горами feature freeze. В скором времени международный комитет сосредоточится на причёсывании черновика C++20, а нововведения будут добавляться уже в C++23.

Ноябрьская встреча в Сан-Диего — предпоследняя перед feature freeze. Какие новинки появятся в C++20, что из крупных вещей приняли, а что отклонили — всё это ждёт вас под катом.

Читать дальше →

+65

@Yuriy_Mosha 29 авг 2018 в 07:26

Как айтишнику найти работу в США и ЕС: 9 лучших ресурсов

5 мин

183K

Управление персоналом * Читальный зал

Из песочницы

Мировой рынок IT стремительно развивается. С каждым годом профессия разработчика софта становится все более востребованной — уже в 2017 году в мире насчитывался примерно 21 миллион программистов различных направлений.

К сожалению, русскоговорящий рынок IT находится еще на начальной стадии развития — уже есть крупные и успешные проекты, но рынок еще долго не сможет сравняться с европейским и американским, которые производят до 85% всех IT-продуктов мира.

Читать дальше →

+48

@Virtuos86 24 июл 2018 в 17:19

Об устройстве встроенной функциональности тестирования в Rust (перевод)

5 мин

3.3K

Из песочницы

Привет, Хабр! Представляю вашему вниманию перевод записи "#[test] в 2018" в блоге Джона Реннера (John Renner), которую можно найти здесь.

В последнее время я работал над реализацией eRFC для пользовательских тестовых фреймворков для Rust. Изучая кодовую базу компилятора, я изучил внутренности тестирования в Rust и понял, что было бы интересно этим поделиться.

Читать дальше →

+30

@Restorer 30 июл 2018 в 20:14

Процедурная генерация уровней

9 мин

47K

Алгоритмы * Разработка игр *

Работы по программированию, графике и звукам в некой новой игрухе закончены — остались только уровни. Лёгкая и приятная работа, но почему-то идёт с большим трудом. Возможно, сказывается общая усталость.

Думая, как бы упростить себе жизнь, в голову пришла идея о процедурной генерации. Ясное дело, её тоже надо будет писать, но как говорилось в одном известном произведении, "лучше день потерять, потом за пять минут долететь".

Внимание! Под катом много текста и "жирных" гифок.

Читать дальше →

+31

@PatientZero 10 июл 2018 в 08:00

Dead Cells: использование 3D-конвейера для 2D-анимации

6 мин

32K

Разработка игр * 3D-графика * Компьютерная анимация *

Перевод

Можно сказать, что девиз почти всех инди-разработчиков — это «Большие мечты при ограниченных ресурсах». Когда я начал работать над первой игрой Motion Twin для Steam Dead Cells, эта фраза стала и моим девизом.

Меня зовут Тома Вассёр, в течение целого года я был единственным художником Dead Cells. Я занимался дизайном и анимациями каждого аспекта игры. В одиночку мне пришлось создавать графический стиль, персонажей, монстров, анимации, спецэффекты (FX) и большинство фонов Dead Cells… Пока, к счастью, мне на помощь не пришёл мой злой брат-близнец Генель Массе. Количество художников Dead Cells удвоилось.

Однако нехватка рабочих рук в нашем секторе является частой ситуацией, поэтому я расскажу, как мне удалось не сойти с ума, работая в одиночку всё это время (конечно же, если я ещё не умер и это всё не иллюзия).

+22

2

3 4 ...