Антон Казенников @kzn

Пользователь

ZlodeiBaal Jan 11 2016 at 20:27

Про волнения в головах

13 min

24K

Algorithms*Website development*Machine learning*

Tutorial

Пару месяцев назад мне захотелось поэкспериментировать с нейроинтерфейсом. Никогда этой темой не занимался, но вдруг стало любопытно. Вроде как лет 5-10 назад обещали бум нейроустройств, а всё что мы сейчас имеем на рынке — устройство чтобы махать ушами, устройство чтобы светить камешком, да устройство чтобы левитировать шаром. Где-то на подходе устройство чтобы будить вовремя. Вот тут есть неплохая статья про всё это дело. В то же время регулярно появляются какие-то исследования, где рассказывают, что люди могут научиться двигать роботическими руками-ногами или писать тексты (1, 2, 3, вот тут есть подборка). Но это всё опытное, в единственном экземпляре, со стоимостью аппаратуры как хорошее авто.

А где что-то посередине? Что-то полезное обычному пользователю? Пусть даже не везде, а в каких-то отдельных применениях. Ведь даже навскидку придумывается несколько вещей: детектор засыпания для водителя, повышение работоспособности (например через выбор музыки, или управление перерывами!). Можно выбрать что-то более специфическое. Например смотреть и анализировать своё состояние в киберспорте. Для этого же даже трекеры зрачков выпускают и используют. Почему нет таких применений? Этот вопрос мучил меня. В итоге решил почитать куда наука движется, а так же купить простенькую нейрогарнитуру и затестить. В статье — попытка разобраться в теме, немного исходников и много анализа текущих достижений потребительской электроники.

Читать дальше →

+43

Yu-Leo Aug 28 2023 at 08:22

Обзор электронной книги Meebook P10 Pro

Easy

9 min

21K

Gadgets

Review

Электронная книга Meebook P10 Pro была куплена мне в подарок примерно год назад. По прошествии этого времени я сделал её обзор, основанный на личном опыте использования.

+17

rikki_tikki Jun 16 2023 at 13:19

Дорожная карта для изучения Java

Easy

7 min

62K

OTUS corporate blogJava*Professional literature*

Translation

Java — настолько популярный и развитый язык, что контента на любую связанную с ним тему хоть отбавляй. Будь то технические разборы, обзоры популярных библиотек с открытым исходным кодом, статьи о поиске работы Java-программистом, сравнение с другими языками — всего не перечесть. Поиск по слову «java» в гугле выдал мне около 1,56,00,00,000 (?) результатов.

Bryzgalova Apr 25 2023 at 12:50

Теория ограничений Голдратта и проектное управление. Диагональный буфер

Easy

5 min

3.7K

Project management*

Диагональный буфер — это часть решения по управлению проектами в Теории Ограничений Голдратта (ТОС). Это только часть решения, части проблем. Решения не бывают хорошими или плохими вне контекста. В предыдущей заметке я описала проблему, которую решает диагональный буфер, время прочтения — 4 минуты. Посыл — срок задачи в проекте не работает как хотелось бы.

Решение ТОС для проектного управления называется метод Критической цепи. Отличается от метода Критического пути тем, что мы уходим от срока задачи.

Диагональный буфер — это инструмент приоритизации. Если у нас не будет сроков задач, то непонятно как в каждый момент времени ответить на вопросы: мы успеваем, или пора торопиться, или уже пора разговаривать с заказчиком о переносе срока? А если я могу приступить к выполнению нескольких задач из одного, или даже разных проектов, как выбрать, с какой начать?

Пишем подробный план

Мы начинаем с того, что строим обычную диаграмму Ганта. Выписываем задачи и распределяем их в порядке выполнения. Чем подробнее будет ваш план, тем лучше. Что такое подробный план? Если, например, нам нужно написать ТЗ, то нельзя отделаться одной задачей: «Написать ТЗ«. И даже если вы добавите «Согласовать ТЗ», этого тоже будет недостаточно. Подробный: написать ТЗ, показать, доработать, показать, доработать и т. д. Чем лучше такой план? Тем что задача «написать ТЗ» будет оценена мной в 2 недели. А набор из 6 мелких задач будет оценён мной в 3.5 дня. Это не значит, что я оставлю себе на это 3.5 дня, но это значит, что дальнейшие мои расчёты будут реалистичнее.

paulBerg73 Feb 9 2022 at 08:18

1-1. Правила и практики

10 min

65K

Personnel Management*

From sandbox

Предполагаю, что каждый человек, который читает эту статью, хотя бы в общих чертах знает что такое встречи 1-1. Поэтому я не буду углубляться в теорию, а напишу текст опираясь на свой опыт, где попытаюсь раскрыть выводы и детали к которым я пришел за несколько лет своей работы.

4p4 May 5 2018 at 14:35

(Законы Акина) законы космической инженерии

3 min

39K

Professional literature*Development Management*

1. Инженерная разработка — это цифры. Анализ без цифр — это просто мнение.

2. Создание правильной ракеты занимает бесконечное количество времени. Поэтому следует создавать ракеты, в которых что-то неправильно.

Читать дальше →

+69

sergey-sw May 25 2022 at 12:04

Как мы делали свой поиск в Ozon: эволюция архитектуры от SQL до O2

16 min

31K

Ozon Tech corporate blogHigh performance*Search engines*System Analysis and Design*Microservices*

Technotext 2022

Привет, Хабр! Меня зовут Сергей, я руководитель команды поиска в Ozon. Сегодня я расскажу об эволюции наших поисковых систем: как всё начиналось более 20 лет назад с обычных SQL-запросов, как мы осваивали Sphinx и Elasticsearch и как сейчас наш собственный поисковый движок O2 на базе Apache Lucene выдерживает нагрузку в десятки тысяч RPS в сезон распродаж. Исторические хроники восстанавливались по воспоминаниям современников и представлены для полноты картины. Новейшая история описана на основе собственного опыта, поэтому подробностей будет на порядок больше. Поехали!

+56

dimakarp1996 Oct 7 2018 at 15:52

Задача о многоруком бандите — сравниваем эпсилон-жадную стратегию и Томпсоновское сэмплирование

12 min

22K

Machine learning*Increasing Conversion Rate*

From sandbox

Привет, Хабр! Представляю вашему вниманию перевд статьи Solving multiarmed bandits: A comparison of epsilon-greedy and Thompson sampling.

Задача о многоруком бандите

Задача о многоруком бандите – одна из самых основных задач в науке о решениях. А именно, это задача об оптимальном распределении ресурсов в уcловиях неопределенности. Само название «многорукий бандит» пошло от старых игровых автоматов, которыми управляли при помощи ручек. Эти автоматы получили прозвище «бандиты», потому что после общения с ними люди обычно чувствовали себя ограбленными. А теперь представьте, что таких машин несколько и шанс выиграть у разных машин разный. Раз уж мы взялись играть с этими машинами, мы хотим определить, у какой этот шанс выше и использовать (exploit) эту машину чаще, чем другие.

Проблема в следующем: как нам эффективнее всего понять, какая машина подходит лучше всего, и при этом перепробовать много возможностей в реальном времени? Это не какая-то теоретическая проблема, это проблема, с которой бизнес сталкивается все время. Например, у компании есть несколько вариантов сообщений, которые надо показывать пользователям (в число сообщений, например, входят и реклама, сайты, изображения) так, чтобы выбранные сообщения максимизировали некое бизнес-задание (конверсию, кликабельность и пр.)

Читать дальше →

+13

PashaPodolsky Mar 21 2021 at 07:56

Устройство поисковых систем: базовый поиск и инвертированный индекс

24 min

31K

Rust*Algorithms*System Analysis and Design*Search engines*Programming*

Под капотом почти каждой поисковой строки бьется одно и то же пламенное сердце — инвертированный индекс. Именно инвертированный индекс принимает текстовые запросы и возвращает пользователю список документов, а пользователь смотрит на всё это дело и радуется котиками, ответам с StackOverflow и страничкам на вики.

В статье описано устройство поиска, инвертированного индекса и его оптимизаций с отсылками к теории. В качестве подопытного кролика взят Tantivy — реализация архитектуры Lucene на Rust. Статья получилась концентрированной, математикосодержащей и несовместимой с расслабленным чтением хабра за чашкой кофе, осторожно!

Читать дальше →

+37

boygenius Jan 21 2022 at 11:02

CatBoost, XGBoost и выразительная способность решающих деревьев

42 min

63K

Open Data Science corporate blogProgramming*Mathematics*Machine learning*Artificial Intelligence

Сейчас существенная часть машинного обучения основана на решающих деревьях и их ансамблях, таких как CatBoost и XGBoost, но при этом не все имеют представление о том, как устроены эти алгоритмы "изнутри".

Данный обзор охватывает сразу несколько тем. Мы начнем с устройства решающего дерева и градиентного бустинга, затем подробно поговорим об XGBoost и CatBoost. Среди основных особенностей алгоритма CatBoost:

• Упорядоченное target-кодирование категориальных признаков
• Использование решающих таблиц
• Разделение ветвей по комбинациям признаков
• Упорядоченный бустинг
• Возможность работы с текстовыми признаками
• Возможность обучения на GPU

В конце обзора поговорим о методах интерпретации решающих деревьев (MDI, SHAP) и о выразительной способности решающих деревьев. Удивительно, но ансамбли деревьев ограниченной глубины, в том числе CatBoost, не являются универсальными аппроксиматорами: в данном обзоре приведено собственное исследование этого вопроса с доказательством (и экспериментальным подтверждением) того, что ансамбль деревьев глубины N не способен сколь угодно точно аппроксимировать функцию $y = x_1 x_2 \dots x_{N+1}$ . Поговорим также о выводах, которые можно из этого сделать.

+48

Takagi Dec 14 2021 at 14:32

Постановка задачи автоматического реферирования и методы без учителя

8 min

9.7K

Natural Language Processing*Artificial IntelligenceMachine learning*

Всем привет!

Для написания кандидатской диссертации я недавно составил обзор различных методов автоматического реферирования, суммаризации. Обзор получился субъективно хорошим, поэтому я публикую его и здесь. Он очень объёмный, и я разбил его на несколько частей, которые и буду постепенно выкладывать. По мере публикации ниже будут появляться ссылки на остальные части цикла.

Статьи цикла:
1) Постановка задачи автоматического реферирования и методы без учителя ⬅️
2) Извлекающие методы автоматического реферирования
3) Секреты генерирующего реферирования текстов

Это первая статья цикла, посвящённая самой задаче и методам без учителя, которым не нужен эталонный корпус рефератов: методу Луна, TextRank, LexRank, LSA и MMR.

Читать дальше →

+11

netcitizen Nov 16 2021 at 13:17

Разбор статей конференции RecSys 2021

21 min

ОК corporate blogMachine learning*

Привет, Хабр! Прошедший год был богат на интересные научные результаты в области рекомендательных систем. Крупнейшая конференция по рекомендательным системам RecSys 2021 в этом году приняла рекордные 49 статей в основную программу, 3 – в трек воспроизводимости и 23 исследования – в late breaking results.

В традиционном разборе RecSys в Одноклассниках в этом году приняли участие коллеги из других проектов VK. Вместе мы выбрали 10 самых интересных на наш взгляд статей и сделали их конспекты, а теперь как и в прошлом году, делимся ими с вами.

Вперед к статьям

+14

dmgening Nov 11 2021 at 08:14

Вы «продоете теплых кросовок»: ищем идеальную пару обуви с помощью Elasticsearch

9 min

7.3K

Lamoda Tech corporate blogSearch engines*Development for e-commerce*Search engine optimization*

Привет, эту статью мы пишем вместе — Дмитрий Генинг, руководитель направления разработки R&D, и Александр Желубенков, руководитель направления ранжирования и навигации в компании Lamoda.

Одна из самых важных систем, с которой мы работаем — это поиск. Ежедневно на Lamoda пользователи вводят тысячи самых разных запросов: белые ботинки, сумочка с леопардовым рисунком, очки-авиаторы и другие вещи для обновления гардероба. Наша задача — сделать поиск таким, чтобы он буквально угадывал желания пользователей и находил сразу то, что нужно.

В этой статье мы расскажем:

• что находится «под капотом» поиска в Lamoda;

• как мы понимаем пользователей и разбираем поисковые запросы;

• как обогащаются атрибуты товаров и по какой логике формируется запрос к Elasticsearch;

• над чем работаем сейчас и какие есть планы на будущее.

+20

geniyoctober Sep 10 2021 at 05:19

Kubernetes для разработчиков: какие знания нужны?

10 min

14K

Слёрм corporate blogKubernetes*Studying in ITDevelopment Management*IT Infrastructure*

В преддверии запуска Вечерней школы по Kubernetes, в этот раз для разработчиков, подготовили интервью с Павлом Селивановым архитектором в Mail.ru Cloud Solutions и Марселем Ибраевым CTO Слёрма. Речь пойдет о том, какие конкретно знания нужны разработчику в компаниях с Kubernetes, Павел и Марсель поделятся кейсами из своей практики.

Читать

+19

Sergey-Titkov Sep 2 2021 at 10:56

Planning Poker или White Elephant, что выбрать для оценки СЛОЖНОСТИ задач?

10 min

5.8K

Ростелеком corporate blogProject management*

Сейчас во многих статьях указывается приблизительное время чтения в минутах, поддержу тренд, но чуть- чуть по-другому :) Первый вопрос, который задает себе читатель: а эта статья она вообще о чем? Нужно ли мне ее читать? Что я узнаю нового для себя? Спрашивали? Отвечаем! :) Обычно в статьях по технике планирования Planning Poker рассматривается вопрос КАК проводить сессию, подробно, красиво, с примерами успешных кейсов. Но статья, которую вы сейчас читаете сфокусирована на другом. На нормах деятельности, которым нужно следовать при проведении сессий по оценки сложности задач. Она отвечает на вопрос ЧТО вы должны делать, чтобы сессия оценки сложности задач была успешна и ЧЕМ следует руководствоваться при выборе той или иной техники.

fotol Sep 2 2021 at 12:16

Как мы в SIGIR-соревновании участвовали

10 min

2.9K

Т-Банк corporate blogMachine learning*Big Data*Algorithms*Data Mining*

Летом этого года на конференции SIGIR проводился Workshop On eCommerce, посвященный прогнозам намерений и рекомендаций. По традиции к воркшопу приурочили небольшое соревнование, посвященное использованию последних наработок в области RecSys. Мы в Tinkoff.AI решили немного развеяться и поучаствовать.

Если вам интересно, как решали поставленные задачи мы и другие участники, добро пожаловать под кат.

+16

wadik69 Mar 15 2021 at 18:16

OpenCV в Python. Часть 4

5 min

65K

Python*Image processing*

Tutorial

Привет, Хабр! В этой статье я бы хотел рассказать как с помощью только OpenCV распознавать объекты, на примере игральных карт:

+10

Takagi Feb 28 2020 at 15:49

Новостной агрегатор за две недели

8 min

19K

C++*Python*Machine learning*

18 ноября Telegram запустил соревнование по кластеризации данных: Data Clustering Contest. Нужно было за две недели сделать свой новостной агрегатор. Ограничения, которые были установлены в этом соревновании отпугнули кучу людей, но не меня и моих коллег. Я расскажу от том, каким путём мы прошли, какие выборы сделали и с какими сложностями столкнулись. Решение, которое мы заслали в соревнование обрабатывало 1000 документов за 3,5 секунды, занимало 150 Мб, заняло 6 место на публичном голосовании и 3 место в итоговых результатах. Мы допустили много ошибок, из-за которых не заняли место повыше, большинство из них сейчас исправлены. Весь код и все модели можно найти в репозитории. Все скрипты для обучения моделек перенесены на Colab.

Топ из публичного голосования

Читать дальше →

+17

pgladkov Jan 29 2020 at 15:26

Простое руководство по дистилляции BERT

8 min

24K

AvitoTech corporate blogNatural Language Processing*Python*Machine learning*

Если вы интересуетесь машинным обучением, то наверняка слышали про BERT и трансформеры.

BERT — это языковая модель от Google, показавшая state-of-the-art результаты с большим отрывом на целом ряде задач. BERT, и вообще трансформеры, стали совершенно новым шагом развития алгоритмов обработки естественного языка (NLP). Статью о них и «турнирную таблицу» по разным бенчмаркам можно найти на сайте Papers With Code.

С BERT есть одна проблема: её проблематично использовать в промышленных системах. BERT-base содержит 110М параметров, BERT-large — 340М. Из-за такого большого числа параметров эту модель сложно загружать на устройства с ограниченными ресурсами, например мобильные телефоны. К тому же, большое время инференса делает эту модель непригодной там, где скорость ответа критична. Поэтому поиск путей ускорения BERT является очень горячей темой.

Нам в Авито часто приходится решать задачи текстовой классификации. Это типичная задача прикладного машинного обучения, которая хорошо изучена. Но всегда есть соблазн попробовать что-то новое. Эта статья родилась из попытки применить BERT в повседневных задачах машинного обучения. В ней я покажу, как можно значительно улучшить качество существующей модели с помощью BERT, не добавляя новых данных и не усложняя модель.

Читать дальше →

+28

Nadya_STAR Jan 22 2020 at 16:12

Как не сдохнуть на проекте или 5 лайфхаков

4 min

14K

GTD*Lifehacks for geeks

Technotext 2020

From sandbox

В моем опыте аналитика за почти 7 лет (хоть он и не очень большой на самом деле) было много разных интересных историй, но самый забавный момент — это когда я оказалась в патовом проекте, который нельзя было не сдать, но туда свалились все беды: и смена заказчика, и распределенная команда, и локальна я одна, и новая предметная область для меня, и близкий дедлайн.

И вот как то раз мне предложили выступить на конференции аналитиков.

Я начала думать, чем же можно поделиться, какие знания передать….какие-то специфичные знания как проектировать в uml или как писать правильно по ГОСТ не хочется рассказывать, потому что это интересно одним аналитикам и не интересно другим. Ну хотя бы потому, что роль аналитика на столько многогранна и в каждой фирме, на каждом проекте аналитик выполняет те или иные функции, и знания ему нужны определенные.

И вот в голову пришла идея, что есть советы, которые подойдут для любого уровня аналитика на любом проекте, а уж для нового патового проекта тем более должны быть актуальными.
Именно о них и будет говориться в этой статье.

Итак, это всего ПЯТЬ советов:

1. Прими как данность специфику проектной деятельности

… все эти цейтноты, дедлайны, какие-то стендапы и планерки — в общем все, что обычного человека выводит из равновесия, все это необходимо аналитику в его работе.

Прими, чтобы потом заказчик тебя не отпаивал коньяком, когда твои нервы уже на исходе.
Была у меня такая история, когда заказчику все не нравилось, а команда разработчиков постоянно ругалась, что нужно все переделывать, и все это как снежный ком. И конечно после очередного высказывания в нашу сторону мои нервы не сдали.

Читать дальше →

2 3 4