Статьи / Закладки / Профиль volkov

Волков Даниил@volkov_ds^{read⁠-⁠only}

Data scientist

ПрофильЗакладки14

RostislavDugin 23 янв 2025 в 08:00

Кейс применения useMemo и useCallback в React для оптимизации рендеринга при изменении глобального состояния

Средний

9 мин

6.4K

ReactJS * Веб-разработка * Клиентская оптимизация *

Кейс

Я занимаюсь фронтенд разработкой на React последние 6 лет (в роли full-stack разработчика). Я знал и слышал, что существуют хуки useCallback и useMemo, которые нужны для оптимизации рендеринга. При этом про их использование я слышал только в теории или на собеседованиях.

И вот мы в проекте столкнулись с задачей, когда приложение начинает тормозить и его нужно оптимизировать. В решении нашей проблемы эти два хука дали необходимый эффект, который действительно помог ускорить рендеринг. Об этом расскажу ниже.

ozlik 15 мая 2024 в 12:45

Создаём свою стример-тян из зефира и палок

Средний

127 мин

59K

Python * Java * SQLite * Машинное обучение * Natural Language Processing *

Наверняка вы слышали о нашумевшей в своё время ИИ стримерше NeuroSama. Однако мое внимание привлекало не само шоу и эти нашумевшие самые «крутейшие» моменты стримов, а сам факт того, что нейросеть реально может полностью автономно и полноценно вести стрим, удерживая внимание зрителей! Меня очень заинтересовала такая задумка, и я решился её повторить!

В этой статье я расскажу о попытке создать свою нейро-тян для русского сегмента, которая сможет автономно и без перерывов играть и вести трансляции на различных стриминг-платформах и ~~буллить кожаных мешков~~ конечно же развлекать зрителей и игроков, не получая баны! В результате получился самый настоящий ~~гомункул~~ киборг-убийца (мозгов) квадратных людей, поэтому запасайтесь бочкой кваса и ванной попкрона, как и в прошлый раз, приключение обещает быть жарким, но не только потому, что скоро лето, а ещё потому, что сейчас весна (и сопутствующее весеннее обострение), ведь мы с вами будем создавать настоящую (виртуальную) девушку-стримера!

Может, немного опоздал с трендом, но не пропадать же добру просто так! Кому-нибудь да пригодится (хотя бы для того, чтобы посмеяться или кринжануть с человека, который год занимался никому не нужной фигнёй).

Статья получилась без преувеличения огромной из-за совмещения просто ТУЧИ разных технологий и необходимости погружения в тонкости некоторых, так что отправьте ссылку себе на комп, расположитесь поудобнее и предупредите свою попу, что она рискует не отрываться от стула на протяжении целого часа!

Будет весело, сложно и очень интересно как опытному «бойцу», так и простому обывателю!

Читать далее →

+62

ozlik 8 мая 2023 в 21:12

Делаем анализатор ников на новой FRED-T5. Тотальный разнос

Средний

9 мин

13K

Python * Машинное обучение *

Из песочницы

Недавно вышла новая языковая модель от сбера — FRED-T5! В тестах она превзошла все остальные и стала SOTA (лучшей по пониманию) для русского языка. Это статья про нейросеть, с помощью которой мы попробуем создать анализатор никнеймов в интернете. Никакого файн-тюна (дообучения)! Все действия будут производиться на искомой модели прямиком скачанной с хг, несмотря на то, что авторы рекомендуют файн-тюнить модель для конкретных задач.

Разумеется, сравним её в тех же задачах с существующими на данный момент сетками. Спойлер: FRED... он волшебник!

Читать дальше →

+16

Nastaa 4 июн 2023 в 09:01

ML System Design: основные способы деплоя и тестирования моделей машинного обучения в продакшене

6 мин

12K

Машинное обучение * Big Data * Анализ и проектирование систем * Тестирование IT-систем *

Обзор

Перевод

Разберем популярные паттерны проектирования ML-систем для ответа на следующие вопросы:

1. Какой способ выбрать для деплоя модели в production?

2. Как затащить составной ML-пайплайн в real-time сервис?

3. Каким способом тестировать новую версию модели?

X5Tech 21 сен 2021 в 15:34

Построение архитектуры проекта при работе с PySpark

19 мин

10K

Блог компании X5 TechPython * Анализ и проектирование систем * Big Data * Data Engineering *

В настоящее время уже сложно найти крупную компанию, которая не использовала бы возможности накопления и использования больших данных. Меня зовут Никита Сурков и я работаю в проекте ценообразования "Пятёрочки" X5 Group. Проект является ярким примером использования больших данных, так как Пятёрочка -- это 18000 магазинов по всей стране. Чтобы построить систему ценообразования в такой сети требуется обработка миллиардов строк информации из чеков, данных по остаткам, себестоимостей и многих других данных. Для всего этого преимущественно используется PySpark, как один из популярных инструментов для работы с расперделёнными системами. В данной статье будет представлен один из методов написания кода на PySpark таким образом, чтобы он был более читаем, легко тестируем и поддерживаем. Сразу оговорюсь, что не представляю здесь единственное правильное решение, но оно доказало свою жизнеспособность на примере того проекта, в котором я работал.

baltachev 20 ноя 2022 в 13:48

Что я бы хотел знать про ML System Design раньше

6 мин

38K

Блог компании Open Data ScienceКарьера в IT-индустрииМашинное обучение *

Около года назад я начал проходить собеседования в разные компании на позицию Machine Learning Engineer. Одним из этапов в каждой компании было проектирование ML системы. В данной статье я делюсь опытом и ресурсами, которые помогли мне пройти собеседования. В том числе в команду MLE Ленты, в которой сейчас тружусь.

+10

XHuviX 24 мар 2022 в 09:16

Что лучше: Spark Structured Streaming или полное прекращение работы прода?

9 мин

14K

Блог компании Ozon TechData Engineering * Машинное обучение * Big Data * Python *

Туториал

Правильное построение ETL-процессов (преобразования данных) — сложная задача, а при большом объёме обрабатываемых данных неизбежно возникают проблемы с ресурсами. Поэтому нам требуется выискивать новые архитектурные решения, способные обеспечить стабильность расчётов и доступность данных, а при необходимости и масштабируемость — с минимальными усилиями.

Когда я пришел в Ozon, мне пришлось столкнуться с огромным количеством ETL-джоб. Прежде чем применить модель машинного обучения, сырые данные проходят множество этапов обработки. А само применение модели (то, ради чего существует команда) занимает всего 5% времени.

+14

cointegrated 9 июн 2021 в 23:16

Маленький и быстрый BERT для русского языка

9 мин

83K

Семантические сети * Программирование * Data Mining * Машинное обучение * Natural Language Processing *

Технотекст 2021

BERT – нейросеть, способная неплохо понимать смысл текстов на человеческом языке. Впервые появившись в 2018 году, эта модель совершила переворот в компьютерной лингвистике. Базовая версия модели долго предобучается, читая миллионы текстов и постепенно осваивая язык, а потом её можно дообучить на собственной прикладной задаче, например, классификации комментариев или выделении в тексте имён, названий и адресов. Стандартная версия BERT довольно толстая: весит больше 600 мегабайт, обрабатывает предложение около 120 миллисекунд (на CPU). В этом посте я предлагаю уменьшенную версию BERT для русского языка – 45 мегабайт, 6 миллисекунд на предложение. Она была получена в результате дистилляции нескольких больших моделей. Уже есть tinybert для английского от Хуавея, есть моя уменьшалка FastText'а, а вот маленький (англо-)русский BERT, кажется, появился впервые. Но насколько он хорош?

+56

OracleLabs 11 сен 2022 в 19:12

Что все неправильно понимают в блокчейне

14 мин

13K

Распределённые системы * Криптовалюты

Перевод

Блокчейн - это радикально новая вычислительная модель, в которой данные и приложения защищаются не централизованными посредниками, а децентрализованной сетью компьютеров. Благодаря своей безразрешительной природе блокчейн позволяет любому человеку подключиться к сети и начать независимую проверку целостности вычислений, что приводит к созданию системы сдержек и противовесов между пользователями и операторами сети.

От создания новых цифровых валют с программной денежной политикой (например, Bitcoin) до выполнения программируемых приложений с минимальным доверием (например, Ethereum), блокчейн быстро входит в общественное сознание как новая форма цифровой инфраструктуры, часто называемая Web3. Однако, несмотря на то, что всеобъемлющее ценностное предложение блокчейн признается многими, нюансы, касающиеся лежащей в основе блокчейн модели доверия, часто понимаются неправильно.

Эта статья поможет объяснить, чем модель доверия в блокчейн отличается от традиционных вычислений, рассмотрев роль самопроверяющихся полных узлов, в частности то, как они обеспечивают достоверность производителей блоков (например, майнеров/валидаторов) и как снижение стоимости проверки лежит в основе масштабируемости блокчейн.

boygenius 14 фев 2022 в 10:30

Проблемы современного машинного обучения

41 мин

46K

Блог компании Open Data ScienceМашинное обучение * Научно-популярноеИскусственный интеллектNatural Language Processing *

Технотекст 2021

Во многих популярных курсах машинного и глубокого обучения вас научат классифицировать собак и кошек, предсказывать цены на недвижимость, покажут еще десятки задач, в которых машинное обучение, вроде как, отлично работает. Но вам расскажут намного меньше (или вообще ничего) о тех случаях, когда ML-модели не работают так, как ожидалось.

Частой проблемой в машинном обучении является неспособность ML-моделей корректно работать на большем разнообразии примеров, чем те, что встречались при обучении. Здесь идет речь не просто о других примерах (например, тестовых), а о других типах примеров. Например, сеть обучалась на изображениях коровы, в которых чаще всего корова был на фоне травы, а при тестировании требуется корректное распознавание коровы на любом фоне. Почему ML-модели часто не справляются с такой задачей и что с этим делать – мы рассмотрим далее. Работа над этой проблемой важна не только для решения практических задач, но и в целом для дальнейшего развития ИИ.

+102

Syurmakov 16 июл 2019 в 21:32

Галерея лучших блокнотов по ML и Data Science

3 мин

35K

Big Data * Data Mining * Python * Машинное обучение *

Привет, читатель.

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи. Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Machine Learning, Data Science и другим сферам, связанным с анализом данных. Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

Итак, приступим.

Вводные курсы в Jupyter Notebook

Читать дальше →

+24

NewTechAudit 25 фев 2022 в 10:29

Распознавание лиц на RASPBERRY PI

7 мин

18K

Python * Программирование * Машинное обучение * Natural Language Processing *

Биометрия везде. Современные мегаполисы в России и мире окутаны сетями камер, подключенными к различным системам распознавания лиц. Насколько это правильно с точки зрения этики — каждый решает сам, но факт в том, что такие методы не только помогают раскрывать преступления, но и предотвращать их совершение.

С каждым годом расширяется область применения таких систем. Например, пользователи могут приобрести у Google систему Nest — Nest Cam IQ Indoor, стоимостью 349 долларов с интеграцией в умный дом и возможностью распознавания лиц по подписке (за 10 долларов в месяц). И отечественных аналогов для частного пользования немало. Различные СКУД (системы контроля и управления доступом) от Ростелекома, HikVision, VisionLabs и других фирм. Описание зачастую мутное, опыт работы в реальных условиях можно найти на YouTube по запросу «Умный домофон не пускает мужчину домой».

paramonov_ruvds 4 сен 2020 в 10:39

Заметки Дата Сайентиста: на что обратить внимание при выборе модели машинного обучения — персональный топ-10

7 мин

15K

Блог компании RUVDS.comBig Data * Data Engineering * Data Mining * Python *

Мы снова в эфире и продолжаем цикл заметок Дата Сайентиста и сегодня представляю мой абсолютно субъективный чек-лист по выбору модели машинного обучения.

Это топ-10 свойств задачи и просто пунктов (без порядка в них), с точки зрения которых я начинаю выбор модели и вообще моделирование задачи по анализу данных.

Совсем не обязательно, что у вас он будет таким же — здесь все субъективно, но делюсь опытом из жизни.

Читать дальше →

+29

paramonov_ruvds 20 окт 2020 в 09:12

Заметки Дата Сатаниста: честность модели

4 мин

8.8K

Блог компании RUVDS.comМашинное обучение * Математика * Искусственный интеллектData Mining *

Один из ключевых фундаментальных принципов обработки данных, согласно GDPR, это право человека на объяснение принятого решения и честность этого решения.

И сегодня мы поговорим о том, что же такое честность модели машинного обучения.

^{Картинка взята отсюда}

И разберем на простом примере выдачи кредитов: какие проблемы могут возникнуть, какие подходы к ним бывают и что из этого обычно получается.

Задача: по данным пользователя выдать решения и вероятности того, что не произойдет дефолта кредита. Причем таким образом, чтобы наши модели машинного обучения не попали под раздачу со всеми законами о дискриминации.

Читать дальше →

+29

В рейтинге: Не участвует

Откуда: Москва, Москва и Московская обл., Россия

Дата рождения: 10 августа 2000

Зарегистрирован: 5 апреля 2022

Активность: 21 мая 2025 в 06:14

Ученый по данным

Младший

Python

SQL

Анализ данных

Машинное обучение

Deep Learning

Обработка естественного языка

Кейс применения useMemo и useCallback в React для оптимизации рендеринга при изменении глобального состояния

Создаём свою стример-тян из зефира и палок

Делаем анализатор ников на новой FRED-T5. Тотальный разнос

ML System Design: основные способы деплоя и тестирования моделей машинного обучения в продакшене

Построение архитектуры проекта при работе с PySpark

Что я бы хотел знать про ML System Design раньше

Что лучше: Spark Structured Streaming или полное прекращение работы прода?

Маленький и быстрый BERT для русского языка

Что все неправильно понимают в блокчейне

Проблемы современного машинного обучения

Галерея лучших блокнотов по ML и Data Science

Вводные курсы в Jupyter Notebook

Распознавание лиц на RASPBERRY PI

Заметки Дата Сайентиста: на что обратить внимание при выборе модели машинного обучения — персональный топ-10

Заметки Дата Сатаниста: честность модели

Информация

Специализация