Articles / Bookmarks / Profile of yaneblog / Habr

How to become an author

Серега @yaneblog

Пользователь

ProfileArticles19PostsNewsComments489

cortwave Jan 14 2015 at 14:54

Conditional indexing. Оптимизируем процесс полнотекстового поиска

3 min

7.7K

В этой статье я хочу поговорить про интеграцию Apache Lucene и Hibernate Search. Если быть более точным, то про один из механизмов Hibernate Search, который может здорово увеличить производительность на проекте с полнотекстовым поиском.

Читать дальше →

+9

dmatora Jan 15 2015 at 16:18

Производительность shared-папок в Vagrant

3 min

18K

Руководя крупной и регулярно пополняющейся командой программистов, столкнулся с необходимостью быстро разворачивать среду разработки без танцев с бубном в духе «странно, у меня этот же код работает, а у тебя какая версия такой-то библиотеки?»

Получив однажды ссылку от заказчика на Vagrant с вопросом «а почему мы это сих пор это не используем?» принялся осваивать это чудо.

Читать дальше →

+17

tagir_valeev Jan 16 2015 at 10:09

Ещё раз (надеюсь, последний) про double-checked locking

4 min

53K

Java*Concurrent computing*

Статей про double-checked locking на Хабре было столько, что казалось бы ещё одна — и Хабр лопнет. Вот только по Java неплохие публикации: Реализация Singleton в JAVA, Правильный Singleton в Java, А как же всё-таки работает многопоточность? Часть II: memory ordering или вот замечательный пост от TheShade (слава web-archive!). В наши дни, наверно, каждый Java-разработчик слышал, что если используешь DCL, будь добр объявить переменную volatile. Найти сегодня в коде известных опенсорсных проектов DCL без volatile довольно трудно, но оказалось, что проблемы ещё не полностью решены. Поэтому я добавлю небольшую заметку по теме с примерами из реальных проектов.

Иногда складывается ощущение, что программисты не включают мозги и не пытаются понять, как что работает, а просто следуют простым и понятным правилам вроде «объяви переменную volatile, используй DCL, и всё будет хорошо». К сожалению, такой подход в программировании не всегда работает.

Читать дальше →

+44

madcat1991 Jan 14 2015 at 12:57

Неперсонализированные рекомендации: метод ассоциаций

5 min

20K

Онлайн-кинотеатр Иви corporate blogBig Data*Algorithms*Python*

Персональные рекомендации позволяют познакомить пользователя с объектами, о которых он, возможно, никогда не знал (и не узнал бы), но которые могут ему понравиться с учетом его интересов, предпочтений и поведенческих свойств. Однако, часто пользователь ищет не новый объект, а, к примеру, объект A похожий на объект B («Форсаж 2» похож на «Форсаж»), или объект A, который приобретается/потребляется с объектом B (сыр с вином, пиво с детским питанием, гречка с тушенкой и т.д.). Построить такие рекомендации позволяют неперсонализированные рекомендательные системы (НРС).

Рекомендовать похожие/сопутствующие объекты можно, ориентируясь на знания об объектах (свойства, теги, параметры) или на знания о действиях, связанных с объектами (покупки, просмотры, клики). Преимуществом первого способа является то, что он позволяет достаточно точно определить похожие по свойствам объекты («Форсаж 2» и «Форсаж» — похожие актеры, похожий жанр, похожие теги, ...). Однако данный способ не сможет порекомендовать сопутствующие объекты: сыр и вино. Еще одним недостатком этого способа является тот факт, что для разметки всех объектов, доступных на сервисе, требуется не мало усилий.

В то же время почти каждый сервис логирует информацию о том, какой пользователь просмотрел/купил/кликнул какой объект. Данной информации достаточно для построения НРС, которая позволит рекомендовать как похожие, так и сопутствующие объекты.

Под катом описан метод ассоциаций, позволяющий построить неперсонализированные рекомендации, основываясь лишь на данных о действиях над объектами. Там же код на Python, позволяющий применить метод для большого объема данных.

Читать дальше →

+41

G1yyK Jan 14 2015 at 12:41

MyBatis как более быстрая альтернатива Hibernate

11 min

107K

В Java сообществе Hibernate framework де-факто считается стандартом для удобной работы с базой данных. Разработчику трудно выбрать другой фреймфорк, потому что порой он не знает о существовании альтернатив. В этой статье я проведу курс молодого бойца по работе с MyBatis framework. Полностью охватить весь framework не получится, но информации будет достаточно, что бы увидеть преимущества и слабые стороны данного framework'а и начать работать с MyBatis.

Читать дальше →

+15

dvapelnik Jan 10 2015 at 20:27

Создание окружения для веб-разработки на основе Docker

5 min

61K

Website development*

Под катом расскажу как я усовершенствовал автоматическое создание и разворачивание окружения для веб-разработки на основе Docker, Fig, DNSMasq и nsenter. По сути, это разворачивание LAMP сервера и запись о нем в DNSMasq, но приоритетами являются незасоренность хост-машины ненужным софтом типа web-, db-серверов на хост машине и минимальное количество команд для запуска

Читать дальше →

+17

ValdikSS Dec 28 2014 at 20:38

Почему OpenVPN тормозит?

3 min

187K

Server Administration*Network technologies*System administration*

Описанная проблема присуща только ветке OpenVPN 2.3, в 2.4 размеры буферов не меняются без требования пользователя.

Время от времени, мне встречаются темы на форумах, в которых люди соединяют несколько офисов с использованием OpenVPN и получают низкую скорость, сильно ниже скорости канала. У кого-то это может быть 20 Мбит/с при канале в 100 Мбит/с с обеих сторон, а кто-то еле получает и 400 Кбит/с на 2 Мбит/с ADSL/3G и высоким пингом. Зачастую, таким людям советуют увеличить MTU на VPN-интерфейсе до чрезвычайно больших значений, вроде 48000, или же поиграться с параметром mssfix. Частично это помогает, но скорость внутри VPN все еще очень далека от канальной. Иногда все сваливают на то, что OpenVPN — userspace-решение, и это его нормальная скорость, учитывая всякие шифрования и HMAC'и. Абсурд!

Немного истории

На дворе июль 2004 года. Типичная скорость домашнего интернета в развитых странах составляет 256 Кбит/с-1 Мбит/с, в менее развитых — 56 Кбит/с. Ядро Linux 2.6.7 вышло не так давно, а 2.6.8, в котором TCP Window Scale включен по умолчанию, выйдет только через месяц. Проект OpenVPN развивается уже 3 года как, к релизу готовится версия 2.0.
Один из разработчиков добавляет код, который устанавливает буфер приема и отправки сокета по умолчанию в 64 КБ, вероятно, чтобы хоть как-то унифицировать размер буфера между платформами и не зависеть от системных настроек.

Читать дальше →

+88

Irina_Ua Dec 22 2014 at 22:44

Руководство хакера по нейронным сетям. Глава 2: Машинное обучение. Бинарная классификация

4 min

18K

PAYSTO corporate blogJavaScript*

Translation

Содержание:

Глава 1: Схемы реальных значений

   Введение   
      Базовый сценарий: Простой логический элемент в схеме
      Цель
         Стратегия №1: Произвольный локальный поиск

         Стратегия №2: Числовой градиент

         Стратегия №3: Аналитический градиент

      Схемы с несколькими логическими элементами
         Обратное распространение ошибки

         Шаблоны в «обратном» потоке 
      Пример "Один нейрон"

      Становимся мастером обратного распространения ошибки

Глава 2: Машинное обучение

      Бинарная классификация

      Обучение сети на основе метода опорных векторов (SVM)

      Обобщаем SVM до нейронной сети

      Более традиционный подход: Функции потерь

В последней главе мы рассматривали схемы с реальными значениями, которые вычисляли сложные выражения своих исходных значений (проход вперед), а также мы смогли рассчитать градиенты этих выражений по оригинальным исходным значениям (обратный проход). В этой главе мы поймем, насколько полезным может быть этот довольно простой механизм в обучении машины.

Читать дальше →

+11

vadims06 Dec 19 2014 at 08:46

Поговорим о VPN-ах? Типы VPN соединений. Масштабирование VPN

82 min

195K

IT Infrastructure*Network technologies*

Коллеги, здравствуйте. Меня зовут Семенов Вадим и я хочу представить статью, посвященную вопросу масштабируемости VPN-ов, причем тех VPN-ов, которые доступны для настройки в обычной корпоративной сети предприятия, а не со стороны провайдера. Надеюсь, данная статья станет справочным материалом, который может потребоваться при дизайне сети, либо при её апгрейде, либо для того, чтобы освежить в памяти принцип работы того или иного VPN-на.

Читать дальше →

+52

moat Dec 7 2014 at 13:38

Обзор наиболее интересных материалов по анализу данных и машинному обучению №25 (1 — 7 декабря 2014)

4 min

13K

Data Mining*Big Data*

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Читать дальше →

+30

Caiiiycuk Mar 19 2014 at 07:06

Play! Lift! Srsly?

13 min

17K

Website development*Scala*

Tutorial

Play! и Lift, — эти два фреймворка являются олицетворением того, куда движется основной поток Scala веб-разработчиков. Воистину, попробуйте поискать на Stack Overflow фреймворки для Scala и вы поймете что я прав. Я верю, что процент здравомыслящих людей, которым надоели сложные комбайны, велик, поэтому расскажу про «другой» фреймворк Xitrum.

Читать дальше →

+28

sashaeve Aug 2 2009 at 19:53

Анализ рыночной корзины и ассоциативные правила

3 min

29K

В продолжении темы о Data Mining поговорим о том, с чего все начиналось. А начиналось все с анализа рыночной корзины (market basket analysis).

Из глоссария BaseGroup:

Анализ рыночной корзины — процесс поиска наиболее типичных шаблонов покупок в супермаркетах. Он производится путем анализа баз данных транзакций с целью определения комбинаций товаров, связанных между собой. Иными словами, выполняется обнаружение товаров, наличие которых в транзакции влияет на вероятность появления других товаров или их комбинаций.

Результаты, полученные с помощью анализа рыночной корзины, позволяют оптимизировать ассортимент товаров и запасы, размещение их в торговых залах, увеличивать объемы продаж за счет предложения клиентам сопутствующих товаров. Например, если в результате анализа будет установлено, что совместная покупка макарон и кетчупа является типичным шаблоном, то разместив эти товары на одной и той же витрине можно «спровоцировать» покупателя на их совместное приобретение.

Читать дальше →

+27

jinxu Oct 28 2014 at 11:15

Парные товары. Размещения товаров в торговом зале

2 min

23K

datawiz.io corporate blogMathematics*Big Data*Algorithms*

В этом небольшом и простом кейсе мы расскажем, что такое парные товары, и как с помощью ассоциативных взаимосвязей увеличить доходность бизнеса.

Итак, Пары — это товары, часто покупаемые вместе. В паре один товар является ключевым (якорным), а второй — сопутствующим. On-line сервис Datawiz.io выявляет парные взаимосвязи товаров при помощи алгоритма APRIORI.

Читать дальше →

+12

wildmandnd Dec 7 2011 at 09:06

Data Mining в онлайн играх

11 min

32K

Аион

Во всех онлайн сервисах и играх самая большая доля аудитории уходит прямо на старте – в первые же минуты и часы знакомства с продуктом. Этой теме уже посвящены сотни книг и статей с самыми различными гипотезами успеха и причин лояльности аудитории – уникальность, простота, юзабилити, бесплатность, обучение или инструкция, эмоциональность, и еще множество факторов считаются крайне важными.

Мы захотели узнать, почему уходят игроки и можно ли предсказать их уход. Предмет исследования – ММОРПГ Аион, однако наши результаты оказались применимы к широкому кругу игр и онлайн сервисов.

Заглянуть в будущее

+198

halamyzer Sep 10 2012 at 16:49

Если Xerox PARC изобрела PC, то Google изобрел интернет

Easy

8 min

73K

History of ITIT-companies

Retrospective

Джефф Дин и Санджай Гемават

Правда о Джеффе Дине всплыла 1 апреля 2007 года. На внутреннем ресурсе Google появился список забавных фактов о Дине, одном из первых и самых ценных сотрудников Google.

«Однажды Джефф Дин провалил тест Тьюринга. Он вычислил 203-е число Фибоначчи меньше чем за секунду.

Джефф Дин компилирует и запускает свой код до сабмита только чтобы проверить компилятор и центральный процессор на наличие багов.

Раньше скорость света в вакууме была всего 35 миль в час. Джефф Дин оптимизировал физику света за выходные».

Все эти факты были, конечно же, выдумкой. Но не такой уж далекой от правды. Их придумал Кентон Варда (другой сотрудник Google) по аналогии с фактами про Чака Норриса. Варда постарался остаться инкогнито, но Дин его все-таки вычислил.

Читать дальше →

+77

TipTop Mar 18 2011 at 21:34

This Is Russia

1 min

522

Команда уволенных талисманов олимпиады подрабатывает, снимаясь в рекламе, и представляет Россию такой, какой иностранцы её ещё не видели. Показывают, так сказать, всё что скрыто.

+34

begoon Mar 5 2010 at 08:40

Трейдинговые системы для чайников

10 min

18K

В данной статье я попытаюсь рассказать некоторых идеях, лежащих в основе трейдинговых систем. Изложение будет максимально простым, по возможности без технических и экономических заумностей.

+5

webrover Jan 12 2010 at 12:55

Анализ хаков — 2

6 min

934

Понимая отрывочность сведений в предыдущем посте, решил нарыть сколько смогу инфы на представленные мной хаки.
Дополнения приветствуются, т.к. некоторые вещи пришлось домысливать почти без опоры на хоть какое либо объяснение.
Заранее прошу извинить за обилие ссылок — честно приводил все пруфлинки, к этим сайтам сам никакого отношения ни имею.

Читать дальше →

+6

runcore Nov 24 2009 at 04:00

Сумма прописью на Java

11 min

15K

Здравствуйте.

Буду краток.
Понадобилось «по работе» выводить в отчетах сумму прописью. Проект на Java. Посмотрев что есть готового, как всегда, пришел в выводу что «своя рубашка ближе к телу». К тому же хотелось именно самому написать, набраться опыта, так как на Java перешел не так давно…

Матерые явисты уже давно нашли или сами решили подобную задачу, а начинающим, возможно, пригодится:

Читать дальше →

-3

kal1sha Oct 8 2009 at 12:56

10 минут аномалий от NASA

1 min

952

Popular science

На видео вырезки не объяснимых вещей, которые были засняты камерами NASA. Что правдоподобно, а что нет решать вам…

+54

2

3 4 ...