Как стать автором

@schpnc^{read⁠-⁠only}

Пользователь

Профиль Закладки 172

AterCattus 19 июн 2017 в 17:30

Архитектура и алгоритмы индексации аудиозаписей ВКонтакте

8 мин

38K

Блог компании VKGo*Алгоритмы*Программирование*

Расскажем о том, как устроен поиск похожих треков среди всех аудиозаписей ВКонтакте.

Зачем всё это надо?

У нас действительно много музыки. Много — это больше 400 миллионов треков, которые весят примерно 4 ПБ. Если загрузить всю музыку из ВКонтакте на 64 ГБ айфоны, и положить их друг на друга, получится башня выше Эйфелевой. Каждый день в эту стопку нужно добавлять еще 25 айфонов — или 150 тысяч новых аудиозаписей объёмом 1.5 ТБ.

Конечно, далеко не все эти файлы уникальны. У каждого аудио есть данные об исполнителе и названии (опционально — текст и жанр), которые пользователь заполняет при загрузке песни на сайт. Премодерации нет. В результате мы получаем одинаковые песни под разными названиями, ремиксы, концертные и студийные записи одних и тех же композиций, и, конечно, совсем неверно названные треки.

Если научиться достаточно точно находить одинаковые (или очень похожие) аудиозаписи, можно применять это с пользой, например:

не дублировать в поиске один трек под разными названиями;
предлагать прослушать любимую композицию в более высоком качестве;
добавлять обложки и текст ко всем вариантам песни;
усовершенствовать механизм рекомендаций;
улучшить работу с жалобами владельцев контента.

Читать дальше →

+86

kayan 18 июн 2017 в 09:43

Типичные распределения вероятности: шпаргалка data scientist-а

11 мин

131K

Математика*

Перевод

У data scientist-ов сотни распределений вероятности на любой вкус. С чего начать?

Data science, чем бы она там не была – та ещё штука. От какого-нибудь гуру на ваших сходках или хакатонах можно услышать:«Data scientist разбирается в статистике лучше, чем любой программист». Прикладные математики так мстят за то, что статистика уже не так на слуху, как в золотые 20е. У них даже по этому поводу есть своя несмешная диаграмма Венна. И вот, значит, внезапно вы, программист, оказываетесь совершенно не у дел в беседе о доверительных интервалах, вместо того, чтобы привычно ворчать на аналитиков, которые никогда не слышали о проекте Apache Bikeshed, чтобы распределённо форматировать комментарии. Для такой ситуации, чтобы быть в струе и снова стать душой компании – вам нужен экспресс-курс по статистике. Может, не достаточно глубокий, чтобы вы всё понимали, но вполне достаточный, чтобы так могло показаться на первый взгляд.

Читать дальше →

+84

xopxe 15 фев 2016 в 13:00

[ В закладки ] Алгоритмы и структуры данных в ядре Linux, Chromium и не только

9 мин

86K

Блог компании Wunder FundАлгоритмы*Программирование*Разработка под Linux*

Перевод

Многие студенты, впервые сталкиваясь с описанием какой-нибудь хитроумной штуки, вроде алгоритма Кнута – Морриса – Пратта или красно-чёрных деревьев, тут же задаются вопросами: «К чему такие сложности? И это, кроме авторов учебников, кому-нибудь нужно?». Лучший способ доказать пользу алгоритмов – это примеры из жизни. Причём, в идеале – конкретные примеры применения широко известных алгоритмов в современных, повсеместно используемых, программных продуктах.

Посмотрим, что можно обнаружить в коде ядра Linux, браузера Chromium и ещё в некоторых проектах.

Читать дальше →

+140

nesterwsx 4 июн 2017 в 19:10

Inperfo – минималистичный мониторинг сети

4 мин

22K

Системное администрирование*Сетевые технологии*IT-инфраструктура**nix*

В первую очередь Inperfo предназначен для мониторинга сетевых интерфейсов на свитчах и роутерах. Конечно же, можно мониторить сетевые интерфейсы непосредственно на серверах, когда, например, у вас нет доступа к сетевому оборудованию, но есть десятки или сотни арендуемых серверов (физических или виртуальных).

Читать далее

+10

RomanGN 10 июн 2017 в 20:35

Дело было вечером. Автомасштабируемый веб-сервис с балансировкой нагрузки на примере Bitrix в Google Cloud Platform

7 мин

11K

1С-Битрикс*Google Cloud Platform*Тестирование веб-сервисов*

Из песочницы

Сразу стоит оговориться, что данная статья написана скорее не для того, чтобы показать возможность работы данного продукта на Google Cloud Platform (GCP), он и без этого будет на ней работать. Bitrix был взят для опытов просто как популярная платформа. Он и сам умеет строить пулы, ноды и прочее в своем “веб окружении”, правда со своими грабельками. И именно поэтому были взяты даже машины на Debian для тестов, а не любимый всеми CentOS.

На самом деле материал применим ко многим веб-проектам. Точнее это простенький гайд по построению отказоустойчивых и распределенных приложений на базе виртуальных машин Google Compute Engine, баз Google Cloud SQL и балансировщика нагрузки Google.

Читать дальше →

+11

m1rko 2 июн 2017 в 16:18

Как сделано интро на 64k

13 мин

38K

Компьютерная анимация*Работа с видео*Звук

Перевод

Введение в интро

Демосцена — это о создании классных штук, которые работают в реальном времени (как бы «крутятся в вашем компьютере»). Их называют демки. Некоторые из них по-настоящему маленькие, скажем, 64k или меньше — такие называются интро. Название происходит от рекламирования или представления взломанных программ (crack intro). Итак, интро — это просто маленькая демка.

Я заметил, что многим интересны произведения демосцены, но они не имеют понятия, как в реальности делаются демки. В этой статье — мозговой дамп и посмертное вскрытие нашего свежего интро Guberniya. Надеюсь, будет интересно и новичкам, и опытным ветеранам. Статья затрагивает практически все техники, которые используются в демках, и должна дать хорошее представление о том, как их делать. В этой статье я буду называть людей по никам, потому что именно так принято на сцене.

Бинарник под Windows: guberniya_final.zip (61.8 kB) (немного ломается на картах AMD)

+89

markus_saar 23 мая 2017 в 11:10

$126 за 5 минут: как использовать ценовую разницу для стран против маркетологов

4 мин

91K

Блог компании HideMy.nameКопирайтЛайфхаки для гиков

Привет, Geektimes! Не за горами 12 июня, а значит, нас снова ждут длинные выходные. Как и в мае, многие россияне улетят в небольшой отпуск, чтобы отдохнуть от суеты. Поэтому в преддверии июньских выходных мы решили коснуться интересной и прикладной темы — как сэкономить деньги, используя VPN.

Самое простое — экономия на аренде автомобиля.

Пример: бронируем автомобиль в Брисбане (Австралия), сначала используя швейцарский IP:

Теперь меняем IP-адрес на США и пробуем снова:

Сэкономили $9 в день. Представьте, что вы едете путешествовать по Австралии на 2 недели. Соответственно, вы сэкономите $126, что очень неплохо. Сервисы по аренде автомобилей предлагают разные цены и предложения в зависимости от страны. Если вы попробуете забронировать автомобиль, допустим, из США, России и Бангкока, цены будут отличаться.

Разберем подробнее и другие примеры:

Читать дальше →

+116

OsipovRoman 15 апр 2017 в 11:22

Как говорить с искусственным интеллектом?

11 мин

16K

Блог компании Wolfram ResearchСемантика*Машинное обучение*Математика*Занимательные задачки

Перевод

Перевод поста Стивена Вольфрама (Stephen Wolfram) "How Should We Talk to AIs?".
Выражаю огромную благодарность Полине Сологуб за помощь в переводе и подготовке публикации

Содержание

— Вычисления — это сила
— Язык вычислительного мышления
— Понимание ИИ
— Что будет делать ИИ?
— Постановка целей для ИИ
— Разговор одного ИИ с другим
— Сбор информации: обзор миллиарда лет
— А что, если бы каждый мог писать код?
— Действительно ли это будет работать?
— Скажу больше

Еще совсем недавно идея иметь компьютер, который может отвечать на вопросы на английском языке, казалась научной фантастикой. Но когда мы в 2009 году выпустили Wolfram|Alpha, одним из самых больших сюрпризов (по крайней мере, для меня!) стало то, что мы сумели сделать наш продукт реально работающим. И теперь люди ежедневно задают личным помощникам несметное количество вопросов — на обычном разговорном языке.

Все это достаточно неплохо работает (хотя мы всегда стараемся сделать лучше!). Но как насчет более сложных вещей? Как общаться с искусственным интеллектом?

Я долго думал об этом, пытаясь совместить философию, лингвистику, неврологию, информатику и другие области знания. И я понял, что ответ всегда был перед моим носом, и лежал он в той сфере, которой я занимался последние 30 лет: Wolfram Language.

Может быть, это как раз тот случай, когда у вас есть молоток, и вы видите вокруг одни гвозди. Хотя я уверен, что дело не только в этом. По крайней мере, продумывание этого вопроса — хороший способ понять больше об искусственном интеллекте и его взаимоотношениях с людьми.

Читать дальше →

+28

acherednychenko 14 мар 2017 в 19:46

No free lunch. Введение в участие в соревнованиях по анализу данных на платформе Kaggle

14 мин

14K

Машинное обучение*

Туториал

Цель статьи — познакомить широкую аудиторию с соревнованиями по анализу данных на Kaggle. Я расскажу о своем подходе к участию на примере Outbrain click prediction соревнования, в котором я принимал участие и занял 4ое место из 979 команд, закончив первым из выступающих в одиночку.

Для понимания материала желательны знания о машинном обучении, но не обязательны.

Читать дальше →

+24

f1af 15 апр 2017 в 21:38

Заметки о Cisco Catalyst: настройка VLAN, сброс пароля, перепрошивка операционной системы IOS

11 мин

101K

Cisco*IT-инфраструктура*Сетевые технологии*Системное администрирование*Стандарты связи*

Пошаговое руководство по выполнению наиболее типовых задач, связанных с обслуживанием коммутаторов Cisco Catalyst 2950. А именно: настройка VLAN, сброс пароля, переустановка повреждённой операционной системы Cisco IOS. Подробно рассмотрен вопрос подключения, в том числе через com-порт.

Читать дальше →

+11

ScientificDimension 10 мая 2017 в 12:35

О возникновении спиралей в циклическом клеточном автомате

6 мин

8.4K

Математика*Алгоритмы*

Из песочницы

О циклических клеточных автоматах было написано в этой статье. Целью данной статьи является рассмотрение условий возникновения спиралей, также известных как демоны. Средством достижения цели является изменение начальных условий и слежение за развитием клеточного автомата. В результате будут сделаны обобщающие выводы об условиях образования спиралей.

Кратко опишем циклический клеточной автомат.

Решетка представляет собой замкнутую двумерную ортогональную сетку квадратных клеток, каждая из которых находится в одном из 15 возможных состояний, в пределах от 0 до 14.

Каждая ячейка взаимодействует со своими четырьмя соседями — окрестностью фон Неймана. Окрестность фон Неймана — это ячейки, которые расположены горизонтально и вертикально. Ниже приведен набор правил циклического клеточного автомата.

Первое поколение начинается со случайных состояний в каждой из ячеек. Следующее поколение создается путем применения вышеуказанных правил одновременно к каждой ячейке предыдущего поколения. Изменение состояния происходит для каждой ячейки одновременно. Другими словами, каждое поколение является чистой функцией предыдущего. Правила продолжают применяться неоднократно, создавая новые поколения.

Как видно из рисунка выше, клеточный автомат проходит три этапа:

1. Случайное поле.
2. Цветные области.
3. Спирали, также известные как демоны.

Добавим еще одно измерение к решетке. В этом измерении мы отобразим состояние ячейки. Ячейка будет подниматься до тех пор, пока она не достигнет вершины кубоида, а затем она упадет вниз. Такая модель является хорошим представлением об изменении состояния клеточного автомата.

Выберем несколько (например 12) случайных ячеек и рассмотрим изменение их состояний во времени.

Читать дальше →

+30

AlexeyAB 11 мая 2017 в 00:43

Делаем любой объект потокобезопасным

30 мин

75K

C++*Параллельное программирование*Программирование*

В этих 3-ех статьях я детально расскажу об атомарных операциях, барьерах памяти и о быстром обмене данными между потоками, а так же о «sequence-points» на примере «execute-around-idiom», а заодно постараемся вместе сделать что-нибудь полезное — умный указатель, который делает любой объект потоко-безопасным для любых операций с его членами переменными или функциями. А затем покажем как используя его достичь производительности высоко-оптимизированных lock-free алгоритмов на 8 — 64 ядрах.

Читать дальше →

+57

Plarium 8 мая 2017 в 13:26

Мин-Лун Чоу: Что я разрабатывал для Uncharted 4. Часть 1

3 мин

12K

Блог компании PlariumCGI (графика)*Дизайн игр*Компьютерная анимация*

Перевод

Официальный релиз игры Uncharted 4 уже состоялся, и теперь я могу рассказать, что именно разрабатывал для этого проекта. В основном я был занят созданием искусственного интеллекта для неигрового персонажа (НП) из одиночной игры и для ботов из мультиплеера, а также работал над кое-какой игровой логикой. Я не буду останавливаться на вещах, не вошедших в финальную версию, и на незначительных особенностях, о которых слишком долго писать.

Читать дальше →

+20

zloddey 26 окт 2010 в 07:55

Удачная модель ветвления для Git

10 мин

995K

Перевод

Перевод статьи Vincent Driessen: A successful Git branching model

В этой статье я представляю модель разработки, которую использую для всех моих проектов (как рабочих, так и частных) уже в течение года, и которая показала себя с хорошей стороны. Я давно собирался написать о ней, но до сих пор не находил свободного времени. Не буду рассказывать обо всех деталях проекта, коснусь лишь стратегии ветвления и управления релизами.

В качестве инструмента управления версиями всего исходного кода она использует Git.

Читать дальше →

+162

Leono 1 мая 2017 в 21:48

Введение в криптографию и шифрование, часть вторая. Лекция в Яндексе

21 мин

39K

Блог компании ЯндексАлгоритмы*Информационная безопасность*Криптография*

Мы возвращаемся к самому краткому введению в криптографическую теорию от Владимира ivlad Иванова. Это вторая половина лекции — первую часть мы опубликовали несколько дней назад. К ней даже можно присылать пуллреквесты на гитхабе.

Под катом — расшифровка и часть слайдов.

+49

AloneCoder 28 апр 2017 в 14:20

Функциональное программирование в JavaScript с практическими примерами

20 мин

92K

Блог компании VKФункциональное программирование*Проектирование и рефакторинг*Программирование*JavaScript*

Перевод

Функциональное программирование (ФП) может улучшить ваш подход к написанию кода. Но ФП непросто освоить. Многие статьи и руководства не уделяют внимания таким подробностям, как монады (Monads), аппликативность (Applicative) и т. д., не приводят в качестве иллюстраций практические примеры, которые могли бы помочь нам в повседневном использовании мощных ФП-методик. Я решил исправить это упущение.

Хочу подчеркнуть: в статье сделан упор на том, ЗАЧЕМ нужна фича Х, а не на том, ЧТО такое фича Х.

Читать дальше →

+23

dharrya 28 апр 2017 в 17:11

Gixy — open source от Яндекса, который сделает конфигурирование Nginx безопасным

10 мин

36K

Блог компании ЯндексOpen source*Информационная безопасность*

Nginx, однозначно, один из крутейших веб-серверов. Однако, будучи в меру простым, довольно расширяемым и производительным, он требует уважительного отношения к себе. Впрочем, это относится к почти любому ПО, от которого зависит безопасность и работоспособность сервиса. Признаюсь, нам нравится Nginx. В Яндексе он представлен огромным количеством инсталляций с разнообразной конфигурацией: от простых reverse proxy до полноценных приложений. Благодаря такому разнообразию у нас накопился некий опыт его [не]безопасного конфигурирования, которым мы хотим поделиться.

Но обо всем по порядку. Нас давно терзал вопрос безопасного конфигурирования Nginx, ведь он — полноправный кубик веб-приложения, а значит, и его конфигурация требует не меньшего контроля с нашей стороны, чем код самого приложения. В прошлом году нам стало очевидно, что этот процесс требует серьезной автоматизации. Так начался in-house проект Gixy, требования к которому мы обозначили следующим образом:

— быть простым;
— но расширяемым;
— с возможностью удобного встраивания в процессы тестирования;
— неплохо бы уметь резолвить инклюды;
— и работать с переменными;
— и про регулярные выражения не забыть.

Читать дальше →

+112

LukaSafonov 25 апр 2017 в 13:37

Hacksplaining — интерактивный курс по веб-уязвимостям

4 мин

39K

Блог компании OWASPИнформационная безопасность*

Hacksplaining представляет каталогизированный и наглядный онлайн-туториал по основным веб-уязвимостям. По каждой уязвимости представлено подробное описание, насколько часто встречается, как сложно ее эксплуатировать и уровень ее критичности. К каждой уязвимости приложено подробное описание, вектор эксплуатации, уязвимый код и рекомендации по устранению и защите. В качестве примера в статье приведен разбор одного из заданий по взлому виртуального онлайн-банкинга с помощью эксплуатации sql-инъекции.

Читать дальше →

+30

temujin 22 апр 2017 в 21:31

Pthreads: Потоки в русле POSIX

10 мин

161K

C*Разработка под Linux*IT-стандарты*Open source*

Современные операционные системы и микропроцессоры уже давно поддерживает многозадачность и вместе с тем, каждая из этих задач может выполняться в несколько потоков. Это дает ощутимый прирост производительности вычислений и позволяет лучше масштабировать пользовательские приложения и сервера, но за это приходится платить цену — усложняется разработка программы и ее отладка.

В этой статье мы познакомимся с POSIX Threads для того, чтобы затем узнать как это все работает в Linux. Не заходя в дебри синхронизации и сигналов, рассмотрим основные элементы Pthreads. Итак, под капотом потоки.

Читать дальше →

+18

Leono 23 апр 2017 в 15:17

Введение в криптографию и шифрование, часть первая. Лекция в Яндексе

20 мин

248K

Блог компании ЯндексАлгоритмы*Информационная безопасность*Криптография*

Чтобы сходу понимать материалы об инфраструктуре открытых ключей, сетевой безопасности и HTTPS, нужно знать основы криптографической теории. Один из самых быстрых способов изучить их — посмотреть или прочитать лекцию Владимира ivlad Иванова. Владимир — известный специалист по сетям и системам их защиты. Он долгое время работал в Яндексе, был одним из руководителей нашего департамента эксплуатации.

Мы впервые публикуем эту лекцию вместе с расшифровкой. Начнём с первой части. Под катом вы найдёте текст и часть слайдов.

+88

1 2 ...

8