Евгений Ермолов @EuLeEr

User

Profile Publications Comments 18Bookmarks 55

stalkermustang Mar 6 2023 at 08:26

Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда

Easy

30 min

368K

Machine learning*Open Data Science corporate blogArtificial IntelligenceThe future is hereNatural Language Processing*

Review

✏️ Technotext 2023

В последнее время нам почти каждый день рассказывают в новостях, какие очередные вершины покорили языковые нейросетки, и почему они уже через месяц совершенно точно оставят лично вас без работы. При этом мало кто понимает — а как вообще нейросети вроде ChatGPT работают внутри? Так вот, устраивайтесь поудобнее: в этой статье мы наконец объясним всё так, чтобы понял даже шестилетний гуманитарий!

Погнали →

+343

283

blondered Aug 18 2023 at 10:00

Дропаем ранжирующие метрики в рекомендательной системе, часть 2: двухэтапные модели

Medium

9 min

3.5K

Machine learning*Open Data Science corporate blog

Case

В первой части статьи я рассказала, как мы с напарником решили выкатить модель из соревнования в онлайн рекомендации, увидели проблему popularity bias, и затем построили новую модель, сбалансированную по метрикам.

В этой части я опишу, как мы улучшали результат выдачи рекомендаций с помощью двухэтапной модели.

RecSys dive ->

blondered Aug 25 2023 at 12:47

Дропаем ранжирующие метрики в рекомендательной системе, часть 3: платформа для экспериментов

Medium

11 min

Machine learning*Open Data Science corporate blog

Case

В прошлых частях статьи я описывала, как мы экспериментировали с рекомендательными моделями на датасете онлайн-кинотеатра Kion. Считали метрики, проводили визуальный анализ, диагностировали popularity bias и другие проблемы алгоритмов, строили двухэтапные модели.

Кроме онлайн приложения мы построили небольшую, но цельную платформу для экспериментов с рекомендательными моделями. Сегодня я подробно на ней остановлюсь:
- Расскажу о workflow экспериментов и пайплайнах обработки данных.
- О том, какие инструменты мы использовали для реализации платформы.
- Нарисую полную инфраструктуру проекта.

А также опишу, как мы построили эксперименты с кросс-валидацией скользящим окном для моделей, которые используют фичи, зависящие от времени. В том числе как мы сделали валидацию для двухэтапной модели с градиентным бустингом.

Будет много MLOps для RecSys.

RecSys dive ->

madrugado Sep 6 2023 at 16:00

Пять книг про NLP, с которых можно начать

Easy

3 min

13K

Professional literature*МТС corporate blogOpen Data Science corporate blogNatural Language Processing*MTS AI corporate blog

Review

Всем привет! Меня зовут Валентин Малых, я — руководитель направления NLP-исследований в MTS AI, вот уже 6 лет я читаю курс по NLP. Он проходит на платформе ODS, а также в нескольких университетах. Каждый раз при запуске курса студенты спрашивают меня про книги, которые можно почитать на тему обработки естественного языка. Поскольку я все время отвечаю одно и то же, появилась идея сделать пост про мой список книг, заодно описав их.

+13

alex_golubev13 Dec 4 2023 at 09:51

Кто такие LLM-агенты и что они умеют?

Medium

24 min

25K

Machine learning*Open Data Science corporate blogArtificial Intelligence

Review

В последнее время большие языковые модели (Large Language Models, LLM) стали невероятно популярными — кажется, их обсуждают везде, от школьных коридоров до Сената США. Сфера LLM растёт бурными темпами, привлекая внимание не только специалистов в области машинного обучения, но и обычных пользователей. Кто-то высказывает массу опасений насчет их дальнейшего развития, а кто-то и вовсе предлагает бомбить дата-центры — и даже в Белом Доме обсуждают будущее моделей. Но неужели текстом можно кому-то навредить? А что если такая модель приобрела бы агентность, смогла создать себе физическую оболочку и полностью ей управлять? Ну, это какая-то фантастика из (не)далёкого будущего, а про агентов нашего времени я расскажу в этой статье. И не переживайте — знание машинного обучения вам не понадобится!

+23

Tavalik Jan 11 at 08:01

Помогаторы разработчика 1С

17 min

13K

1C*

Digest

Всем привет.

Данная статья написана по моему выступлению на Infostart Event 2022, на котором я рассказал об инструментах и «лайфхаках», которые использую в своей работе и которые, как мне кажется, помогают сделать работу разработчика 1С проще, удобнее, а главное, эффективней. Многие вещи, возможно, покажутся вам очевидными или совсем простыми. Но часто я вижу, что разработчики пренебрегают ими, а ведь именно такие «мелочи» и делают нашу жизнь проще.

+16

Albert_Wesker Dec 28 2023 at 17:01

Построение архитектур для обработки данных в режиме реального времени при помощи Apache Kafka, Flink и Druid

Hard

11 min

8.1K

System administration*IT Infrastructure*Timeweb Cloud corporate blogApache*Data storages*

Review

Translation

Командам, которые занимаются обработкой данных (поступающих пакетными партиями в рабочих потоках) сложно соответствовать современным требованиям по обработке данных в режиме реального времени. Почему? Потому что пакетный поток данных – от доставки данных до их дальнейшей обработки и анализа – это такая вещь, при работе с которой нужно уметь ждать.

Требуется ждать тех данных, которые пойдут на отправку в ETL-инструмент, дожидаться, пока будет обработана куча данных, ждать, пока информация будет загружена в хранилище данных и даже ждать, пока закончат выполняться сделанные запросы.

Но в опенсорсном пространстве есть решение, разработанное в опенсорсе. В сочетании друг с другом Apache Kafka, Flink и Druid, позволяют создать архитектуру для обработки данных, которая работает в режиме реального времени и позволяет исключить все эти этапы ожидания. В этом посте мы исследуем, как комбинация этих инструментов позволяет создавать широкий спектр приложений для обработки данных в режиме реального времени.

Читать дальше →

+18

wofs Oct 3 2023 at 10:00

Как собрать бюджетный умный дом. Общие принципы проектирования на оборудовании Wiren Board

Medium

28 min

38K

Wiren Board corporate blogSmart HouseIOTDIY

FAQ

Сборник коротких рецептов по автоматизации инженерных систем дома, офиса и любого другого объекта на оборудовании Wiren Board.

Статья будет полезна всем, кто задумывался о построении умного дома, офиса, теплицы и любого другого объекта с автоматизацией и диспетчеризацией.

+41

ArtDobryy Jul 19 2023 at 04:05

Каталог данных на примере DataHub. Часть I

Medium

5 min

5.1K

Big Data*Data Engineering*

Review

В современных компаниях генерируемые и собираемые объемы данных растут с поразительной скоростью, создавая необходимость в их систематизации и управлении. Каталоги данных становятся частью информационных систем, предоставляя организациям удобный и эффективный инструмент для хранения, доступа и управления различными типами данных.

Каталог данных — это центральное хранилище информации о структуре, свойствах и отношении между данными. Он позволяет различным пользователям легко находить, понимать и использовать данные для принятия решений и выполнения задач, и будет полезен аналитикам данных, бизнес-аналитикам, специалистам по DWH и управлению данными.

Погнали 🚀

georfed May 10 2023 at 23:06

Mojo: Python-совместимый язык с производительностью Си — от Криса Лэттнера

Easy

4 min

45K

Python*C*

From sandbox

2 мая 2023 года Modular (одна из компаний-лидеров в сфере AI-инфраструктуры) анонсировала язык программирования Mojo, обещающий полную совместимость с Python в сочетании со сверх-высокой производительностью.

В компании утверждают, что автоматическое низкоуровневое распараллеливание, возможности строгой типизации и статической компиляции уже на самых ранних этапах развития языка позволяют достичь скорости, превосходящей Python в 35 000 раз!

Так что это за чудо-язык такой, правда ли он заменит Python — да и где его пощупать можно?

Давайте разбираться! 🔥

+43

114

ziyodulla-baykhanov May 8 2023 at 11:32

Mojo может стать крупнейшим достижением в области разработки языков программирования за последние десятилетия

Medium

15 min

121K

Python*Julia*Machine learning*Artificial Intelligence

Opinion

From sandbox

Translation

Mojo — это новый язык программирования, основанный на Python, который устраняет имеющиеся у него проблемы производительности и развёртывания.

Об авторе: Джереми Говард (Jeremy Howard) — Data Scientist, исследователь, разработчик, преподаватель и предприниматель. Джереми является одним из основателей исследовательского института fast.ai, занимающегося тем, чтобы сделать глубокое обучение более доступным, а также он является почётным профессором Университета Квинсленда. Ранее Джереми был выдающимся научным сотрудником в Университете Сан‑Франциско, где он был основателем Инициативы Уиклоу «Искусственный интеллект в медицинских исследованиях».

Mojo – это Python++

+43

268

chemtech Apr 2 2020 at 10:16

Практика обновления версий PostgreSQL. Андрей Сальников

18 min

18K

System administration*PostgreSQL*SQL*Server Administration*Database Administration*

Предлагаю ознакомиться с расшифровкой доклада 2018 года Андрея Сальникова "Практика обновления версий PostgreSQL"

В большинстве своем, системные администраторы и ДБА бояться как огня делать мажорные обновления версий баз данных (RDBMS), особенно если эта база данных в эксплуатации и имеет достаточно высокую нагрузку. Главной причиной тому некоторый даунтайм базы данных, который всегда подразумевается при планировании таких работ.

На практике, такого рода upgrade занимает довольно длительное время и зачастую администраторам с малым опытом подобных операций приходится откатываться на старую версию баз данных из-за достаточно банальных ошибок, которые можно было бы избежать еще на этапе подготовки.

В Data Egret мы накопили огромный опыт проведения мажорных апгрейдов PostgreSQL в проектах, где нет права на ошибку. Я поделюсь своим опытом и расскажу о следующих шагах процесса: как правильно подготовиться к upgrade-у PostgreSQL? что необходимо сделать на этапе подготовки? как запланировать последовательность действий на сам upgrade? как провести процедуру upgrade-а успешно, без возврата на предыдущую версию бд? как минимизировать или вообще избежать простоя всей системы во время upgrade-а? какие действия необходимо выполнить после успешного upgrade-а PostgreSQL? Я также расскажу про две наиболее популярные процедуры апгрейда PostgreSQL — pg_upgrade и pg_dump/pg_restore, плюсы и минусы каждого из методов и расскажу про все типичные проблемы на всех этапах этой процедуры, и как их избежать.

Доклад будет интересен как новичкам так и тем ДБА которые уже давно работают с PostgreSQL, но хотят побольше узнать о том как правильно планировать и проводить upgrade максимально безболезненно.

Читать дальше →

+29

puyol_dev2 Feb 19 2020 at 13:43

Простое обнаружение проблем производительности в PostgreSQL

5 min

54K

PostgreSQL*SQL*

Recovery Mode

Translation

Существует ли в мире очень большая и крупная база данных, которая время от времени не страдает от проблем с производительностью? Держу пари, что их не так уж много. Поэтому каждый DBA (администратор базы данных), отвечающий за PostgreSQL, должен знать, как отслеживать потенциальные проблемы производительности, чтобы выяснить, что на самом деле происходит.

Повышение производительности PostgreSQL после настройки параметров

Многие думают, что изменение параметров в postgresql.conf — это реальный путь к успеху. Однако это не всегда так. Конечно, чаще всего хорошие параметры конфигурации базы данных очень полезны. Тем не менее, во многих случаях реальные проблемы будут возникать из-за странного запроса, скрытого глубоко в некоторой логике приложения. Даже вполне вероятно, что запросы, вызывающие реальные проблемы, не являются теми, на которые вы обратили внимание. Возникает естественный вопрос: как мы можем отследить эти запросы и выяснить, что на самом деле происходит? Мой любимый инструмент для этого — pg_stat_statements, который всегда должен быть включен по моему мнению, если вы используете PostgreSQL 9.2 или выше (пожалуйста, не используйте его в более старых версиях).

Читать дальше →

+25

hawk911 Aug 14 2018 at 14:06

Vanessa-Automation — инструмент автодокументирования прикладных решений на платформе «1С: Предприятие». Кино и BDD

5 min

8.6K

IT systems testing*

From sandbox

Что это и для чего надо

Cinema

Меня не интересуют истории, которые оставляют зрителя безразличным. Я хочу, чтобы выходя из кинотеатра человек думал: «Черт возьми, мне нужно выпить». (с) Киллиан Мёрфи
Так, что это значит Кино и BDD?! Добро пожаловать под кат.

Читать дальше →

amarao Jul 2 2020 at 11:21

Основы Ansible, без которых ваши плейбуки — комок слипшихся макарон

12 min

134K

Configuring Linux*System administration*Cloud computing*Server Administration*DevOps*

Tutorial

Я делаю много ревью для чужого кода на Ансибл и много пишу сам. В ходе анализа ошибок (как чужих, так и своих), а так же некоторого количества собеседований, я понял основную ошибку, которую допускают пользователи Ансибла — они лезут в сложное, не освоив базового.

Для исправления этой вселенской несправедливости я решил написать введение в Ансибл для тех, кто его уже знает. Предупреждаю, это не пересказ манов, это лонгрид в котором много букв и нет картинок.

Ожидаемый уровень читателя — уже написано несколько тысяч строк ямла, уже что-то в продакшене, но "как-то всё криво".

Читать дальше →

+108

ua-hosting May 7 2020 at 22:55

Как стать DevOps инженером за полгода или даже быстрее. Часть 1. Введение

8 min

124K

Programming*IT Infrastructure*ua-hosting.company corporate blogIT careerDevOps*

Translation

Целевая аудитория

Вы разработчик, который хочет повернуть свою карьеру в сторону более совершенной модели DevOps? Вы являетесь классическим Ops-инженером и хотели бы получить представление о том, что означит DevOps? Или же вы не являетесь ни тем, ни другим и, потратив некоторое время на работу в области ИТ-технологий, хотите поменять работу и понятия не имеете, с чего начать?
Если да, то читайте дальше, чтобы узнать, как можно стать инженером DevOps среднего уровня за шесть месяцев! Наконец, если вы уже много лет занимаетесь DevOps, то все равно сможете почерпнуть много полезного из этого цикла статей и узнать, где находится отрасль интеграции и автоматизации в данный момент и куда она стремится в своем развитии.

Читать дальше →

+16

vadiminshakov Feb 19 2020 at 12:27

Распределенный реестр для колесных пар: опыт с Hyperledger Fabric

7 min

3.4K

Decentralized networks*Distributed systems*

From sandbox

Привет, я работаю в команде проекта РРД КП (распределенный реестр данных для контроля жизненного цикла колесных пар). Здесь я хочу поделиться опытом нашей команды в разработке корпоративного блокчейна для данного проекта в условиях ограничений, накладываемых технологией. По большей части я буду говорить о Hyperledger Fabric, но описанный здесь подход может быть экстраполирован на любой permissioned блокчейн. Конечная цель наших изысканий — готовить корпоративные блокчейн-решения так, чтобы итоговым продуктом было приятно пользоваться и не слишком тяжело поддерживать.

Читать дальше →

Alex_Donchuk Mar 11 2019 at 14:02

Deep Learning — не только котики на мобилках или как мы производим дефектовку тележек локомотивов

5 min

24K

Python*Algorithms*Image processing*Machine learning*Open Data Science corporate blog

Буквально пару дней назад компания Aurorai передала в опытную эксплуатация систему распознавания дефектов и контроля состояния тележек для локомотивов Ермак. Задача нетривиальная и очень интересная, первым этапом которой было предложено оценить состояние тормозных колодок и ширины бандажа. Нам удалось решить задачу с точность до 1мм при скорости локоматива до 30 км/ч! Хочу отметить, что благодаря специфики можно было использовать “TTA (test-time augmentation)” – яркий пример kaggle-style хака из соревнований, который плохо ложится на прод и семантическую сегментацию на базе se_resnext50 encoder, которая даёт поразительный по точности результат в предсказании маски.

+74

sim0nsays Jun 15 2018 at 09:50

Курс о Deep Learning на пальцах

2 min

173K

Image processing*Machine learning*RoboticsArtificial Intelligence

Я все еще не до конца понял, как так получилось, но в прошлом году я слово за слово подписался прочитать курс по Deep Learning и вот, на удивление, прочитал. Обещал — выкладываю!

Курс не претендует на полноту, скорее это способ поиграться руками с основными областями, где deep learning устоялся как практический инструмент, и получить достаточную базу, чтобы свободно читать и понимать современные статьи.

Материалы курса были опробованы на студентах кафедры АФТИ Новосибирского Государственного Университета, поэтому есть шанс, что по ним действительно можно чему-то научиться.

Читать дальше →

+117

nAbdullin Feb 9 2019 at 09:18

Настройка НА-кластера Kubernetes на «голом железе» с kubeadm. Часть 1/3

18 min

51K

System administration*Server Administration*Слёрм corporate blogDevOps*

Translation

Часть 2/3 тут
Часть 3/3 тут

Всем привет! В этой статье я хочу упорядочить информацию и поделиться опытом создания и использования внутреннего кластера Kubernetes.

За последние несколько лет эта технология оркестровки контейнеров сделала большой шаг вперед и стала своего рода корпоративным стандартом для тысяч компаний. Некоторые используют ее в продакшене, другие просто тестируют на проектах, но страсти вокруг нее, как ни крути, пылают нешуточные. Если еще ни разу ее не использовали, самое время начать знакомство.

0. Вступление

Kubernetes — это масштабируемая технология оркестровки, которая может начинаться с установки на одной ноде и достигать размеров огромных НА-кластеров на основе нескольких сотен нод внутри. Большинство популярных облачных провайдеров представляют разные виды реализации Kubernetes — бери и пользуйся. Но ситуации бывают разные, и есть компании, которые облака не используют, а получить все преимущества современных технологий оркестровки хотят. И тут на сцену выходит инсталляция Kubernetes на «голое железо».

Читать дальше →

+24

2 3