Articles / Bookmarks / Profile of andruekonst / Habr

Андрей Константинов @andruekonst

Пользователь

Profile Publications 1Comments 102Bookmarks 87

dmitrybitman Mar 9 2011 at 17:05

OAuth 2.0 простым и понятным языком

7 min

789K

VK corporate blog

На хабре уже писали про OAuth 1.0, но понятного объяснения того, что такое OAuth 2.0 не было. Ниже я расскажу, в чем отличия и преимущества OAuth 2.0 и, как его лучше использовать на сайтах, в мобильных и desktop-приложениях.

Что такое OAuth 2.0

OAuth 2.0 — протокол авторизации, позволяющий выдать одному сервису (приложению) права на доступ к ресурсам пользователя на другом сервисе. Протокол избавляет от необходимости доверять приложению логин и пароль, а также позволяет выдавать ограниченный набор прав, а не все сразу.

Читать дальше →

+138

SharplEr Nov 30 2023 at 17:54

Производительность базового поиска в Ozon как культурный феномен

Medium

22 min

22K

High performance*Search engines*Programming*Java*Ozon Tech corporate blog

✏️ Technotext 2023

В этой статье я расскажу вам о том, как мы в Ozon оптимизируем базовый поиск: как у нас выстроены процессы, как найти бутылочное горлышко, конкретные рекомендации по написанию горячего кода, реальные примеры значимых оптимизаций и что делать, когда все низко висящие фрукты уже сорваны, а хочется ещё.

+71

ferluht Dec 10 2023 at 13:48

Как обучить нейросеть рисовать в стиле любого художника

Medium

4 min

16K

Image processing*Artificial IntelligenceThe future is here

Tutorial

Прошло 3 года с момента когда я обучал StyleGAN на панельках и мне стало интересно что там сейчас с генерацией картинок. А там - ого - можно дообучить целый stable diffusion на любом стиле любого художника! Как? А вот щас расскажу

+26

0serg Sep 2 2023 at 10:33

Ортографическая проекция в фотографии и прочие интересные фокусы с объективами

Medium

30 min

22K

Working with 3D-graphics*Popular sciencePhotographic equipmentPhysicsSystems engineering*

Review

С тем как работает фотоаппарат мы знакомимся еще со школьной программы. Однако привычное нам из школьного курса сведение объектива к "тонкой линзе" на самом деле не отвечает на массу практических вопросов. Например как удается создавать объективы с ортографической проекцией применяемые в системах технического зрения?

Да-да, такие тоже бывают не только в компьютерной графике, но и в фотографии: попробуйте-ка это объяснить оперируя исключительно в терминах "тонкой линзы". Размер изображения предмета в таких системах (почти) не зависит от того на каком расстоянии от объектива они находятся и это весьма удобно для измерения размеров предмета. В этой статье мы поговорим о том как этого удается добиться, как работает автофокус и пленоптические камеры и о многих других интересных вещах

Так как же работает объектив?

+160

andreybrylb Aug 30 2023 at 17:44

Единственное в мире число-субфакторион — это 148349. Что это такое?

Easy

2 min

205K

С понятием факториала знакомы все, но в математике есть еще и субфакториал. Разобравшись с ним, мы подойдем к уникальному в своём роде числу 148 349

+120

MoZZes Jul 14 2018 at 10:35

Запускаем LDA в реальном мире. Подробное руководство

12 min

34K

Python*Programming*Data Mining*Machine learning*Artificial Intelligence

Tutorial

From sandbox

Предисловие

На просторах интернета имеется множество туториалов объясняющих принцип работы LDA(Latent Dirichlet Allocation — Латентное размещение Дирихле) и то, как применять его на практике. Примеры обучения LDA часто демонстрируются на "образцовых" датасетах, например "20 newsgroups dataset", который есть в sklearn.

Особенностью обучения на примере "образцовых" датасетов является то, что данные там всегда в порядке и удобно сложены в одном месте. При обучении продакшн моделей, на данных, полученных прямиком из реальных источников все обычно наоборот:

Много выбросов.
Неправильная разметка(если она есть).
Очень сильные дисбалансы классов и 'некрасивые' распределения каких-либо параметров датасета.
Для текстов, это: грамматические ошибки, огромное кол-во редких и уникальных слов, многоязычность.
Неудобный способ харнения данных(разные или редкие форматы, необходимость парсинга)

Исторически, я стараюсь учиться на примерах, максимально приближенных к реалиям продакшн-действительности потому, что именно таким образом можно наиболее полно прочувстовать проблемные места конкретного типа задач. Так было и с LDA и в этой статье я хочу поделиться своим опытом — как запускать LDA с нуля, на совершенно сырых данных. Некоторая часть статьи будет посвящена получению этих самых данных, для того, чтобы пример обрел вид полноценного 'инженерного кейса'.

Читать дальше →

+10

flerant Feb 25 2015 at 16:15

Энтропия? Это просто!

7 min

427K

Popular sciencePhysics

Этот пост является вольным переводом ответа, который Mark Eichenlaub дал на вопрос What's an intuitive way to understand entropy?, заданный на сайте Quora

Энтропия. Пожалуй, это одно из самых сложных для понимания понятий, с которым вы можете встретиться в курсе физики, по крайней мере если говорить о физике классической. Мало кто из выпускников физических факультетов может объяснить, что это такое. Большинство проблем с пониманием энтропии, однако, можно снять, если понять одну вещь. Энтропия качественно отличается от других термодинамических величин: таких как давление, объём или внутренняя энергия, потому что является свойством не системы, а того, как мы эту систему рассматриваем. К сожалению в курсе термодинамики её обычно рассматривают наравне с другими термодинамическими функциями, что усугубляет непонимание.
энтропия

Так что же такое энтропия?

+61

Chetter2 Oct 2 2017 at 15:44

Методы приближенного поиска ближайших соседей

11 min

50K

VK corporate blogAlgorithms*Machine learning*

Довольно часто программисты и специалисты из области data science сталкиваются с задачей поиска похожих профилей пользователей или подбора схожей музыки. Решения могут сводиться к преобразованию объектов в векторную форму и поиску ближайших.

Мы тоже столкнулись с необходимостью поиска ближайших соседей в задаче распознавания лиц. Там мы формируем векторные представления лиц при помощи нейросети и ищем ближайшие векторы уже известных людей. Изначально для поиска мы выбрали Annoy, как хорошо известный и проверенный алгоритм, используемый в том числе в Spotify. Но быстро поняли, что с его аппетитами по памяти мы либо не вмещаемся в RAM, либо сильно теряем в точности. Это привело к небольшому исследованию. О результатах которого пойдет речь ниже.

Читать дальше →

+53

Efaldgent Apr 26 2022 at 14:00

Причинно-следственный анализ в машинном обучении

15 min

23K

Big Data*Machine learning*Open Data Science corporate blogPopular scienceArtificial Intelligence

Что появилось первым: курица или яйцо?
Статистики давно уже нашли ответ на этот вопрос.
Причем несколько раз.
И каждый раз ответ был разным.

А если серьезно, то для машинного обучения становятся все более актуальными вопросы причинно-следственного анализа (causal inference) - когда главной целью моделирования является не прогноз и его качество, а то, как мы можем принимать решения на основе нашего алгоритма. И как это повлияет на мир, в котором эта модель будет действовать. Сделает ли модель его лучше, чем он был? Или наоборот.

Под катом я расскажу о причинно-следственном анализе, его ключевых методах и применении в машинном обучении. В следующей статье побеседуем о ключевых трендах в развитии методов причинно-следственного анализа в машинном обучении в 2020-2021 гг.

+24

Takagi Feb 26 2023 at 15:59

О «раздутом пузыре» нейросетей

Medium

8 min

99K

Python*Programming*Machine learning*Artificial IntelligenceNatural Language Processing*

Opinion

✏️ Technotext 2023

На днях я наткнулся на одно любопытное видео.

Моей первой реакцией было ~~Братан, хорош, давай, давай, вперёд! Контент в кайф, можно ещё? Вообще красавчик! Можно вот этого вот почаще?~~ отрицание и усталость, потому что всё это я уже слышу на протяжении лет пяти с разной интенсивностью в зависимости от текущих объектов хайпа. В этом посте я попытаюсь разобраться, что из сказанного в видео является правдой.

Утверждения:

1. Закон Мура больше не выполняется из-за фундаментальных физических ограничений ⇒ масштабирование нейросетевых моделей по вычислительному бюджету невозможно.

2. Нейросетевые модели внедряются слишком медленно.

3. Ответы нейросетевых моделей неконтролируемы и неинтерпретируемы.

Дальше обсудим каждое из них.

+132

171

boygenius Jan 13 2022 at 15:34

Интерпретация моделей и диагностика сдвига данных: LIME, SHAP и Shapley Flow

38 min

29K

Algorithms*Machine learning*Open Data Science corporate blogStatistics in ITArtificial Intelligence

В этом обзоре мы рассмотрим, как методы LIME и SHAP позволяют объяснять предсказания моделей машинного обучения, выявлять проблемы сдвига и утечки данных, осуществлять мониторинг работы модели в production и искать группы примеров, предсказания на которых объясняются схожим образом.

Также поговорим о проблемах метода SHAP и его дальнейшем развитии в виде метода Shapley Flow, объединяющего интерпретацию модели и многообразия данных.

+34

malkovsky Jun 11 2018 at 22:12

Обзор градиентных методов в задачах математической оптимизации

11 min

98K

Mathematics*Machine learning*

From sandbox

Предисловие

В этой статье речь пойдет о методах решения задач математической оптимизации, основанных на использовании градиента функции. Основная цель — собрать в статье все наиболее важные идеи, которые так или иначе связаны с этим методом и его всевозможными модификациями.

Читать дальше →

+76

honyaki Oct 28 2022 at 21:06

Создание 3D-сетки из изображения с помощью Python

7 min

12K

Python*Image processing*Skillfactory corporate blogMachine learning*

Translation

Несколько лет назад генерация 3D-сетки из единственного двумерного изображения была сложной задачей. Но сегодня благодаря продвижению глубокого обучения разработано множество монокулярных моделей оценки глубины, дающих точную оценку карты глубины изображения. С помощью этой карты, выполнив реконструкцию поверхности, можно создать сетку. Подробности — к старту нашего курса по Fullstack-разработке на Python.

Читать дальше →

qbertych Jul 14 2022 at 23:46

Как это устроено: атомные часы

22 min

65K

Technotext 2022

Привет Хабр! Сегодня у нас выходит статья в Nature Physics, в которой мы рассказываем про один интересный апгрейд для атомных часов. А нашу предыдущую работу по этой теме — в тот раз в самом Nature — даже упоминали пару раз на Хабре. Но то ли наш пресс-релиз оказался слишком сложным, то ли тема слишком специфичной, короче говоря, я из тех заметок вряд ли бы что-либо понял. Поэтому сегодня попробую простым языком рассказать про то, как устроены атомные часы и что интересного нас ждет в ближайшем будущем.

Оптические атомные часы в университете Токио. Credit: H. Katori

Читать дальше →

+260

snakers4 Apr 12 2022 at 20:58

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

8 min

47K

Machine learning*DIYSoundNatural Language Processing*Voice user interfaces*

hero_image

В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.

Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:

Снизили размер модели в 2 раза;
Научили наши модели делать паузы;
Добавили один высококачественный голос (и бесконечное число случайных);
Ускорили наши модели где-то примерно в 10 раз (!);
Упаковали всех спикеров одного языка в одну модель;
Наши модели теперь могут принимать на вход даже целые абзацы текста;
Добавили функции контроля скорости и высоты речи через SSML;
Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →

+156

100

deNULL Nov 26 2021 at 17:49

Воссоздаем Minecraft-подобную генерацию мира на Python

11 min

26K

Game development*Algorithms*

Translation

Minecraft, самая продаваемая игра в мире, наиболее известная своими пикселизированными блоками и бесконечными мирами, содержит потрясающий процедурный генератор ландшафта — с пещерами, водоёмами, и даже различными биомами.

Процедурная генерация является важной частью компьютерной графики — она используется в основном в играх и в фильмах. Она помогает создавать случайные структуры, не вызывающие ощущения «машинного» стиля.

Также процедурная генерация играет важную роль в машинном обучении. Она позволяет генерировать такие данные, которые сложно собрать. Обучение моделей машинного обучения требует огромных датасетов, которые может быть затруднительно собирать и подготавливать. Генерацию данных процедурным образом можно легко адаптировать к требуемому типу данных.

В детстве мне нравилось играть в Minecraft, и мне всегда было интересно, как эта игра генерирует бесконечные миры. В данной я статье я попытаюсь воссоздать это на Python.

Прим. переводчика. Осторожно, в статье много иллюстраций (в том числе анимированных)

+57

house2008 Nov 21 2021 at 14:55

Собираем статическую библиотеку через CMake под Android

8 min

8.2K

Development for Android*

Tutorial

Являясь не Android разработчиком, но имея хорошие базовые знания в Java, мне выпала небольшая research задача под Android платформу, для решения которой нужно было интегрировать стороннюю с/c++ библиотеку в Android Studio проект. В данном статье будет:

пошаговое описание как собрать c/c++ проект, который корректно настроен под CMake систему сборки
интеграция полученной библиотеки в Android проект через Android Studio

Введение

Поиск по ключевым словам в русскоязычном сегменте интернета на удивление дал мало результатов на данную тему. Но нашлась единственная довольно подробная статья на хабре https://habr.com/ru/company/e-Legion/blog/487046/, с которой вы заметите как сходства, так и различия. Для сравнения подходов решил так же для примера использовать проект с открытым исходным кодом https://opus-codec.org, что и в указанной статье. Система на которой будут выполняться все эксперименты MacOS Big Sur имея на борту cmake версии 3.19.3.

Сразу хочу отметить, что не являюсь экспертом по CMake и Android. Все действия, описанные в статье, вы делаете на свой страх и риск и автор не несет никакой ответственности за ваше потраченное время.

Читать дальше →

den_sokolov Nov 10 2021 at 18:33

Computer Vision для iOS, Android, Web

9 min

5.3K

Development for iOS*Development for Android*Machine learning*Kotlin*Artificial Intelligence

Tutorial

Привет, я Денис Соколов, руковожу R&D в Zenia — это платформа для йоги и фитнеса, которая использует ИИ для трекинга поз человека (подробнее об этом — в другой моей статье). Наша система распознавания работает на трёх платформах — iOS, Android, Web. В этой статье поговорим о ключевых отличиях между ними. Расскажу, как устроена подготовка моделей компьютерного зрения к использованию, какими фреймворками пользуемся для запуска на устройствах клиентов, какие сложности решали и чем остались довольны. Если вы занимаетесь запуском нейронных сетей на мобильных устройствах или вебе, статья для вас.

+16

KD637 Oct 7 2021 at 22:33

Как написать генератор изображений, который вас понимает

13 min

35K

Website development*Python*Programming*Skillfactory corporate blogMachine learning*

Tutorial

Translation

Автор статьи рассказывает, как за неделю создал Text2Art.com — генератор изображений на основе VQGAN+CLIP, способный рисовать пиксель-арт и живопись, а также изображать то, что вы напишете в текстовом поле.

Для интерфейса используется Gradio, модель работает на сервере FastAPI, а системой очереди сообщений служит Firebase. Подробностями делимся к старту курса по ML и DL.

+12

Mojsha Sep 8 2021 at 21:13

Быстрый, мощный интерфейс на Python

15 min

134K

Python*Programming*Interfaces*C*Skillfactory corporate blog

Tutorial

Translation

Dear PyGui принципиально отличается от других фреймворков GUI Python. Рендеринг на GPU, более 70 виджетов, встроенная поддержка асинхронности — это лишь некоторые возможности Dear PyGui. Руководством по работе с этим пакетом делимся к старту курса по разработке на Python.

+57

2 3 4