Как стать автором
Обновить
0
0
Павел М. @arquolo

Data Scientist

Отправить сообщение

Выгодоприобретатели блокировки Youtube

Время на прочтение18 мин
Количество просмотров179K

Недавно возникшая тема с блокировкой (замедлением) Youtube коснулась практически каждого жителя РФ. При этом до сих пор нет ни одного прямого официального заявления о причастности к этой блокировке. Ни одно государственное ведомство не созналось в блокировке, открестился Google, открестились провайдеры интернета. На этом фоне мне показалось важным не только выявить и указать всех причастных, прямых и косвенных, но и установить, кто и в каком отношении является выгодоприобретателем от этой блокировки. Выявить, о каких денежных потоках идет речь и куда они в конечном итоге идут.

Чтобы это установить, я попытался по крупицам собрать открытую информацию, добавил анализ используемых технических решений и технологических возможностей и на этой базе выявил те компании, которые являются прямыми и косвенными выгодоприобретатели от блокировки. Список оказался не такой уж и маленький, и в нем представлен как российский, так и зарубежный монополистический капитал. Как мы любим, в конце я приведу общую схему, визуализирующую всех основных актеров этой пьесы и все основные отношения между ними.

Читать далее
Всего голосов 417: ↑400 и ↓17+458
Комментарии452

Краткий обзор технологии DPI — Deep Packet Inspection

Время на прочтение11 мин
Количество просмотров211K
Я уже несколько лет активно занимаюсь темой DPI, осуществляя пресейл и непосредственно внедрение этих решений. Побудило меня на написание этого топика то, что тема DPI на хабре раскрыта достаточно слабо, поэтому хотелось бы немного рассказать об устройствах, которые применяют ведущие сервис-провайдеры и крупные корпоративные пользователи для интеллектуального управления трафиком в своих сетях, а также пояснить зачем им это всё надо.
Читать дальше →
Всего голосов 39: ↑38 и ↓1+37
Комментарии99

TrueNas: когда Nas реально ТРУ

Время на прочтение8 мин
Количество просмотров58K

Вы слышали о TrueNas, но не знаете, стоит ли с ним связываться?

Представляю реальный случай применения TrueNas в качестве основного файлового хранилища в компании. Как на практике и из старого сервера и домашних дисков мы получили достаточно неплохой NAS с SMB, NFS, iSCSI, black jack, сжатием на лету, достаточной отказоустойчивостью и более чем приличной скоростью. Как ZFS позволяет экономить место на дисках при этом повышая надёжность хранения.

Читать далее
Всего голосов 12: ↑10 и ↓2+9
Комментарии57

Генерация аудио диффузионной нейросетью. Стоит ли использовать обычную диффузию для генерации мел-спектрограмм?

Время на прочтение14 мин
Количество просмотров4.7K

В уходящем году вы могли видеть множество нейросетей для генерации изображений. Скорее всего, даже ваша бабушка слышала про Stable Diffusion или DALL-E, но эти нейросети объединяет одна очень важная деталь — они основаны на методе обратной диффузии. Этот подход к генерации стал самым популярным в 2022 году. Почему бы не попробовать применить его не для генерации картинок, а для музыки или пения птиц?

В этой статье я расскажу о том, как генерировать аудио с помощью классической диффузионной нейросети, и нюансах этого подхода.
Читать дальше →
Всего голосов 26: ↑24 и ↓2+34
Комментарии9

Подкасты, книги, курс: подборка интересного по Data Science

Время на прочтение5 мин
Количество просмотров6.2K

Большая книга по теории, большая книга не только по теории, подкасты и Стэнфордский курс — под катом 6 рекомендаций для изучения от наших Data Scientist'ов Лаборатории машинного обучения. 

К рекомендациям
Всего голосов 22: ↑20 и ↓2+20
Комментарии0

Хакинг метрик качества видео или как с приходом ИИ все становится намного сложнее

Время на прочтение23 мин
Количество просмотров13K

Сейчас модно писать, что ML пришел туда и все стало отлично, DL пришел сюда и все стало замечательно. А к кому-то пришел сам AI, и там все стало просто сказочно! Возможна ли ситуация, когда к нам пришел волшебный ML/DL и все стало сложнее, тяжелее и на порядок запутаннее? Безусловно! Разберем такой пример.

Десятки лет при сравнении кодеков и алгоритмов обработки видео исследователи использовали старые добрые метрики PSNR и SSIM с довольно простыми формулами и были счастливы. Но прогресс невозможно остановить! На их место пришли новые метрики и… тут выяснилось, что они взламываются.

— Погодите, погодите… — скажет взволнованный читатель, — А как это вообще выглядит, взломать метрику??? 
— Добро пожаловать в 21 век, дорогой товарищ! Благодаря неудержимому прогрессу, сегодня можно хакнуть не только утюг, колонку, автопилот машины и домашний пылесос, но и метрику качества видео.

В этот момент собеседники обычно дружно спрашивают, кому это надо? О, поверьте, есть люди, которым не просто надо, а сильно надо! Представьте себе, что вы руководитель подразделения и у вас жесткие KPI (маркетинг требует обогнать конкурентов, от этого зависят нехилые годовые бонусы у всех сотрудников и особенно у вас). Чтобы улучшить видеокодек на условные 4%, требуются десятки человеко-месяцев труда весьма высокооплачиваемых инженеров, причем, бывает, получается, а бывает, не очень. И тут выясняется, что можно за пару недель работы одного зеленого стажера подшаманить метрику на 7%. Ваши действия? Вспоминается жизненный анекдот «тут-то мне карта и поперла»…

Далее мы популярно затронем взлом методом черного ящика, белого ящика, взлом недифференцируемых метрик (привет дистилляция!) и цирк с дифференцируемыми.

Впрочем обо всем по порядку…

Кому интересен цирк с конями взлом метрик — го под кат.

Читать далее
Всего голосов 65: ↑64 и ↓1+87
Комментарии38

Как работает Stable Diffusion: объяснение в картинках

Время на прочтение9 мин
Количество просмотров96K
Генерация изображений при помощи ИИ — одна из самых новых возможностей искусственного интеллекта, поражающая людей (в том числе и меня). Способность создания потрясающих изображений на основании текстовых описаний похожа на магию; компьютер стал ближе к тому, как творит искусство человек. Выпуск Stable Diffusion стал важной вехой в этом развитии, поскольку высокопроизводительная модель оказалась доступной широкой публике (производительная с точки зрения качества изображения, скорости и относительно низких требований к ресурсам и памяти).

Поэкспериментировав в генерацией изображений, вы можете задаться вопросом, как же она работает.

В этой статье я вкратце расскажу, как функционирует Stable Diffusion.

Читать дальше →
Всего голосов 29: ↑29 и ↓0+29
Комментарии12

Шерудим под капотом Stable Diffusion

Время на прочтение10 мин
Количество просмотров34K

Вероятно вы уже слышали про успехи нейросетей в генерации картинок по текстовому описанию.

Я решил разобраться, и заодно сделать небольшой туториал, по архитектуре модели Stable Diffusion. Сегодня мы не будем глубоко погружаться в математику и процесс тренировки. Вместо этого сфокусируемся на применении и устройстве основных компонент: UNet, VAE, CLIP.

Читать далее
Всего голосов 81: ↑81 и ↓0+81
Комментарии11

Как работает DALL-E

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров20K

В Январе 2021 года Open AI показали DALL-E, генерирующую любые изображения по текстовому описанию, на хабре уже успели разобрать тему генерации изображений нейросетями, но мне захотелось разобраться в теме более детально и показать всё в коде.

Сейчас мы разберём, как работает Text2Image нейросеть DALL-E, посмотрим на хардкор математики, а также убедимся, что это сможет повторить каждый, написав реализацию DALL-E почти с нуля.
Читать дальше →
Всего голосов 32: ↑29 и ↓3+39
Комментарии1

Груг против сложности. Я пролинтил все посты на Хабре про Python, и вот что я нашёл

Время на прочтение52 мин
Количество просмотров62K

В какой-то момент времени я превратился в педанта брюзгу. В фильмах малейшие нестыковки и провалы в логике портят мне весь просмотр. В чатах меня бесит it's вместо its. А в статьях про программирование... Всё плохо. За меня всё уже сказал @AlexanderAstafiev, я лишь процитирую:

Простите, я не могу так больше. Я слишком хорошо знаю Python, чтобы молчать при виде такого кода.
Я устал. Я не могу это читать. Простите за токсичную критику, накипело.

Самое забавное, что, по моим ощущениям, везде я вижу одни и те же классы проблем. Я даже запилил сервис, где можно закинуть код и получить код ревью, и, собрав немного статистики, понял, что 50 типов ошибок достаточно, чтобы покрыть большую часть проблем в чужом коде. Но выборка у меня была небольшая, и я подумал: а что, если проверить много кода?

И всё заверте...
Всего голосов 119: ↑114 и ↓5+134
Комментарии153

Как увеличивать робастность модели и нужно ли вообще это делать?

Время на прочтение4 мин
Количество просмотров4.3K

Владимир "ternaus" Игловиков недавно опубликовал на Хабре пост про свою библиотеку Albumentations. Этот пост - результат серии бесед с людьми из индустрии, которые используют эту либу. Я, кстати, тоже поучаствовал, правда, уже после публикации поста - получилось весьма прикольно, постарался насыпать медицинской специфики и заодно задумал в будущем написать пост про аугментации в medical imaging.

Но сегодня не об этом - среди доменов и способов использования библиотеки в посте упомянут интересный пункт - "тестирование моделей перед деплоем на устойчивость к дрифту данных". Мы как раз недавно столкнулись с этой историей. Команда Flux (рентген и флюшка лёгких) решила проверить модельку на устойчивость к небольшим трансформациям. Вот какую картину дал сдвиг изображения на пиксель

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Data Science Pet Projects. FAQ

Время на прочтение13 мин
Количество просмотров56K

Привет! Меня зовут Клоков Алексей, сегодня поговорим о пет-проектах по анализу данных. Идея написать эту статью родилась после многочисленных вопросов о личных проектах в сообществе Open Data Science (ODS). Это третья статья на Хабре, до этого был разбор алгоритма SVM и анонс крутого NLP курса от ребят из DeepPavlov. В этой статье вы найдете идеи для новых петов и другие полезности. Итак, разберем частые вопросы и дадим определение пет-проекта:


  1. Зачем делать пет-проекты?
  2. Из каких этапов может состоять разработка пет-проекта?
  3. Как выбрать тему и найти данные?
  4. Где найти вычислительные ресурсы?
  5. Как завернуть работающие алгоритмы в минимальный прод?
  6. Как оформить презентабельный вид проекта?
  7. Как и зачем искать коллабораторов?
  8. Когда проходит ODS pet project хакатон?
  9. Где посмотреть примеры пет-проектов и истории участников ODS?

Читать дальше →
Всего голосов 43: ↑43 и ↓0+43
Комментарии11

Бутстреп и А/Б тестирование

Время на прочтение10 мин
Количество просмотров62K

Привет, Хабр! В этой статье разберёмся, как с помощью бутстрепа оценивать стандартное отклонение, строить доверительные интервалы и проверять гипотезы. Узнаем, когда бутстреп незаменим, и в чём его недостатки. 

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии9

Дизайн уровней в BulletStorm: Full Clip Edition

Время на прочтение4 мин
Количество просмотров3.1K

BulletStorm является шутером, который в первую очередь развивает геймплей и может похвастаться сценарием происходящего. Поэтому в игре можно встретить при прохождении множество постановочных моментов. Но мы разберем, как всё это вплели в дизайн уровней.

Читать далее
Всего голосов 3: ↑2 и ↓1+2
Комментарии2

Albumentations: Feedback

Время на прочтение5 мин
Количество просмотров2.2K

Warning: Текст ниже сухой, так как написан больше для публичного логирования и интересен будет скорее тем, кто библиотеку уже использует.

Читать далее
Всего голосов 11: ↑10 и ↓1+12
Комментарии0

Feature Engineering или стероиды для ML моделей

Время на прочтение6 мин
Количество просмотров17K

Привет, чемпион!

Часто при построении ML моделей мало просто взять сильную модель. Оказывается, иногда грамотная предобработка данных существенно важнее. Сегодня речь пойдёт про feature engineering.

Рассмотрим несколько кейсов на эту тему более подробно. Данные будут упрощённые, но обещаю, от этого примеры не станут менее интересными ?.
Читать дальше →
Всего голосов 28: ↑27 и ↓1+38
Комментарии3

Token Pruning или «Первое слово съела корова»

Время на прочтение11 мин
Количество просмотров2K

Начнем повествование с приевшейся, шаблонной, клишированной фразы, мотивирующей сжатие нейронных сетей:

За последние несколько лет нейронные сети достигли значительных успехов в разнообразных приложениях и сферах человеческой (и нечеловеческой) деятельности, превосходя даже человека на ряде задач. Но мощь и гибкость, способность фитировать сложные зависимости, требуют значительных вычислительных ресурсов как на этапе обучения, так и на инференсе, что ограничивает зачастую применение нейронных сетей на мобильных устройствах и при наличии ограниченных вычислительных мощностей.

Поэтому по мере бурного прогресса и развития новых архитектур параллельно идет активная разработка разнообразных подходов по сжатию и повышению эффективности нейронных сетей.

И cегодня я бы хотел рассказать об одном методе, специфичном для популярной нынче архитектуры Transformer.

Поехали!
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Spore: не выученные уроки

Время на прочтение10 мин
Количество просмотров9.6K

Еще в подростковом возрасте я совершил ошибку, которую не должен повторять ни один геймер: я поверил в ту фантастическую картину, которую намалевали разработчики в своих обещаниях перед выходом игры. В тот раз речь шла о Spore. И вот, час X, я скачал из локалки городского провайдера свеженький репак и, припрыгивая от радости, запустил этап «Клетка». Не буду врать – начало игры было очень веселым. Да, это довольно примитивный двухмерный геймплей, но там присутствовало ощущение, что твой дизайн клетки хоть на что-то влияет (во всей остальной игре этого попросту нет). Из весьма ограниченного инструментария можно было выжать какое-то разнообразие: шипы, в зависимости от расположения, могли быть как оружием, так и защитой, поставил травоядную и плотоядную пасть одновременно – стал всеядным еще до поднятия «хоботка», убрал обычный хвостик и поставил гидромет – управление и движение заметно изменились вместе со стилем игры. Конечно, этого развлечения хватит не более, чем на 15-20 минут (сколько и длится этап), но дальше же нас ждет развитие этой идеи, правда ведь? Правда?..

Уже на этапе «Существо» меня ждал полнейший облом: дизайн животного перестал на что либо влиять. Нацепленные (на любое случайное место по вашему выбору и в любом количестве) органы давали лишь изменение численных параметров и виды атаки, из-за чего этап походил на какой-то недоделанный прототип RPG. Этапы «Племя» и «Цивилизация» признаются многими игроками как самые скучные и являются прототипами RTS. Один отечественный журналист, пройдя первые два этапа игры, заявил, что игра слишком сырая, а механики – примитивны, её слишком рано отдавать на растерзание игрокам. Знал бы он тогда, что Spore такой и выйдет в релиз.

Читать далее
Всего голосов 11: ↑10 и ↓1+12
Комментарии17

Семейство тестов хи-квадрат: что у них под капотом и какие выбрать для сравнения воронок

Время на прочтение32 мин
Количество просмотров21K

Всем привет, меня зовут Вячеслав Зотов, я аналитик в студии Whalekit. В этом тексте я расскажу про статистические тесты и сравнение воронок, а также мы попробуем разобраться, что объединяет χ²-тесты, какова область их применения и подробно исследуем применимость χ²-тестов к анализу воронок. И все это с примерами на Python.

Тест χ² — очень полезный аналитический инструмент, который тем не менее часто вызывает у аналитиков недопонимание и путаницу. Прежде всего это происходит из-за того, что существует целое семейство тестов χ², имеющих разные области применения. Дополнительную путаницу создает то, что тесты χ² часто рекомендуют применять для анализа продуктовых и маркетинговых воронок, а это обычно приводит к ошибочному использованию тестов.

Читать далее
Всего голосов 44: ↑44 и ↓0+44
Комментарии1

19 способов сделать сокет-сервер на Python. Эволюционный подход. Часть 1. Введение

Время на прочтение9 мин
Количество просмотров38K

Дабы исчерпать до дна тему сокетов в Python я решил изучить все возможные способы их использования в данном языке. Чтобы всех их можно было испытать и попробовать на зуб, были созданы 19 версий простого эхо-сервера: от примитивного использования класса socket до asyncio. Блокирующие и неблокирующие сокеты, процессы и потоки, select'ы и selector'ы, коллбеки и сопрограммы — все эти темы расположены в эволюционном порядке, чтобы один пример плавно перетекал в другой.

Отдельно разобрано появление асинхронности в Python. На примерах детально показано, как и зачем появились итераторы, из них — генераторы, сопрограммы. Ближе к концу построен учебный макет библиотеки asyncio с минимально необходимым кодом, чтобы любой (даже такой, как я) смог разобраться, как на самом деле устроена асинхронность, как там все внутри работает.

Пишу подробно, чтобы случайно чего не пропустить. Поэтому понятно должно быть всем.

Читать далее
Всего голосов 19: ↑17 и ↓2+16
Комментарии5
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Екатеринбург, Свердловская обл., Россия
Дата рождения
Зарегистрирован
Активность