Articles / Bookmarks / Profile of rotor / Habr

Валерий Дмитриев @rotor

Пользователь

ProfileArticles8PostsNewsComments255

dakhakimova Jun 26 at 07:06

10 мифов об A/B-тестировании: как избежать распространённых заблуждений в статистическом анализе

Easy

15 min

5.9K

Яндекс corporate blogIT systems testing*System Analysis and Design*Product Management*

В технологических компаниях A/B‑тестирование давно стало основой для принятия решений, основанных на данных. Меня зовут Диля Хакимова, я работаю в команде платформы экспериментов Laba в Яндекс Go, и мы с командой помогаем руководителям и аналитикам быстро получать ценную информацию с помощью A/B‑тестирования.

Мы занимаемся разработкой методологии и помогаем специалистам решать вопросы, связанные с экспериментами и статистическим анализом. За время работы мы заметили: вокруг A/B‑тестирования до сих пор существует множество заблуждений.

Эти мифы всплывают в разговорах с руководителями, на собеседованиях и даже среди коллег‑аналитиков. Иногда они кажутся безобидными — но на деле могут привести к серьёзным ошибкам в анализе, неверным решениям и упущенным возможностям.

В этой статье мы разберём 10 распространённых мифов об A/B‑тестировании, поможем разобраться в теме глубже и сделать ваши эксперименты эффективнее.

+21

Caiiiycuk Feb 14 2012 at 05:18

GCC Profile-guided optimization

6 min

24K

C++*

Profile-guided optimization (далее PGO) — техника оптимизации программы компилятором, нацеленная на увеличение производительности выполнения программы. В отличии от традиционных способов оптимизации анализирующих исключительно исходные коды, PGO использует результаты измерений тестовых запусков оптимизируемой программы для генерации оптимального кода.

Читать дальше →

+42

MaxRokatansky Jun 16 at 12:55

5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 2

Easy

15 min

5.8K

OTUS corporate blogMachine learning*Python*Big Data*

Translation

В отличие от традиционных наборов данных, где объекты часто остаются статичными, данные временных рядов обладают уникальными временными паттернами, которые необходимо использовать для извлечения значимых признаков.

В этом разделе мы рассмотрим некоторые из наиболее эффективных методов.

stas_makarov Jun 17 at 06:01

Семь иллюзий Low code

Easy

10 min

6.9K

Haulmont corporate blogSystem Analysis and Design*Visual programming*

Opinion

Low code стремительно ворвался в корпоративный ландшафт, чего от него никто не ожидал. Мы думали — ну, да, занятная вещица, пусть пользователи поиграют в программистов, лишь бы работать не мешали. А сегодня куда ни глянь, все хотят, чтоб даже у серьезных энтерпрайз-решений обязательно были какие-то хотя бы элементы лоукода. Но зачем?

+21

huraligne Jun 5 at 15:19

RAG: Дообучение модели эмбеддингов для повышения точности поиска

10 min

Первая грузовая компания (ПГК) corporate blogMachine learning*Artificial Intelligence

Привет, Хабр! Меня зовут Саприн Семён. Я занимаюсь анализом данных и машинным обучением в компании ПГК Диджитал. Сегодня мы продолжаем серию статей, в которой я рассказываю о том, как мы с командой разрабатывали ИИ-помощника. В прошлой статье мы обсудили, почему стандартные подходы к работе с документами не всегда работают, и какие шаги помогли нам повысить качество поиска без существенных затрат памяти на GPU.

Сегодня речь пойдёт о следующем этапе: дообучении (fine-tuning) модели эмбеддингов для улучшения качества поиска в RAG-системе. Это позволило нам получить более точные представления документов и пользовательских запросов, что напрямую сказалось на релевантности финальных ответов. Давайте перейдём к деталям.

cognitronn May 27 at 13:11

Синтез речи ◍ 2025: топ-4 бесплатных нейросетей для озвучки текста

Easy

19 min

32K

BotHub corporate blogArtificial IntelligenceMachine learning*The future is hereContent-marketing*

Review

Искусственный интеллект давно перестал быть набором скучных алгоритмов. Это и художник, который рисует словами, и переводчик, что ломает языковые барьеры, и музыкант, играющий на голосовых нотах. Но есть у него ещё одно дело, в котором он преуспел, — синтез речи.

Но всё ли так гладко?

Просто тараторить текст — мало. Настоящий голос должен видеть запятые, чувствовать паузы, играть интонациями и уметь погружать. Он должен звучать не как робот, а как рассказчик с характером. С душой — насколько это вообще возможно для машины.

Поэтому мы устроим кастинг четырём нейросетям. Послушаем, как они звучат, как держат паузы, как справляются с эмоциями. И главное — попробуем понять: насколько близко они подошли к имитации живого рассказчика.

А чтобы было интересно, мы вдохновились атмосферой «Хоббита». Интересно, смогла бы нейросеть рассказать о приключениях лучше самого Бильбо Бэггинса?

Сегодня алгоритмы получат Толкина, омографы, арабский язык — и замок, который может быть замком.

Готовьте Ваши уши — мы начинаем!

+34

kmoseenk May 21 at 14:44

Теневая сторона AutoML: когда no-code инструменты вредят больше, чем помогают

Medium

7 min

1.2K

OTUS corporate blogMachine learning*Artificial Intelligence

Translation

AutoML обещает лёгкий вход в машинное обучение: не нужно разбираться с пайплайнами, настраивать гиперпараметры и писать код — просто загрузи данные и получи модель. Но за удобством скрываются архитектурные риски, которые не всегда видны на первом этапе. От непрозрачных решений до «тихого дрейфа» и невозможности отката — автоматизация может не упростить, а усложнить жизнь, особенно в проде. В этой статье — разбор того, что на самом деле строит AutoML, где он действительно полезен, и почему его нельзя воспринимать как волшебную кнопку.

yadro_team May 20 at 11:39

ML на «плюсах»: 5 материалов о необычном подходе к обучению моделей

Medium

2 min

3.4K

YADRO corporate blogC++*Machine learning*Conferences

Digest

Когда мы говорим о машинном обучении, то автоматически подразумеваем Python. Это справедливо: на Python есть множество удобных ML-инструментов, например, популярная библиотека PyTorch. Тем не менее, некоторые задачи можно решать с помощью С++. И не только ради эксперимента, а для увеличения производительности сервисов и упрощения работы с кодом.

Кирилл Колодяжный, разработчик СХД в YADRO, несколько лет изучает машинное обучение на С++. Он уже написал программы для поиска лица на фото и для распознавания объектов в реальном времени. Под катом — пять материалов Кирилла, после которых инженерам захочется «пересесть» с Python на C++. Хотя бы на время.

+12

valentina-p May 20 at 07:37

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Medium

8 min

13K

SberDevices corporate blogArtificial IntelligenceMachine learning*

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB (ссылка на таблицу лидеров).

Ранее мы уже рассказывали на Хабре о создании русскоязычных задач для MTEB. Напомним, что этот бенчмарк предназначен для оценки моделей, способных создавать эмбеддинги текста — векторные представления, применяемые в различных задачах NLP.

+55

vladipirogov May 3 at 20:04

Обработка аудио на ESP32

Medium

15 min

12K

Programming microcontrollers*C*DIYMachine learning*

Tutorial

В этой статье я хочу поделиться своим опытом портирования проекта распознавания музыкальных жанров аудиозаписей на ESP32-C3. Исходный проект взят из репозитория книги TinyML-Cookbook_2E.
При анализе речи или других звуков важно выделить такие характеристики, которые отражают строение сигнала, но при этом не зависят от конкретных слов, громкости и других мешающих факторов. Для этого используют cepstrum, mel-cepstrum и MFCC - это шаги преобразования, которые переводят звук в удобную для анализа форму.

+32

dmitrifriend Apr 28 at 10:00

Чёрный ящик раскрыт: как инъекция промта заставляет ИИ говорить всё и вытягивает системный запрос

Medium

8 min

29K

BotHub corporate blogArtificial IntelligenceMachine learning*Information Security*

Case

Translation

Исследователи из HiddenLayer представили универсальную технику инъекции промтов, которая успешно обходит защитные механизмы ключевых современных ИИ‑моделей. Это касается систем OpenAI (ChatGPT-4o, 4o‑mini, 4.1, 4.5, o3-mini, o1), Google (Gemini-1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude-3.5, 3.7), Meta✶ (семейства Llama-3✶ и 4), DeepSeek (V3, R1), Qwen (2.5-72B) и Mistral (Mixtral-8x22B).

Путём применения техники, связывающей правила безопасности и ролевое взаимодействие, компании удалось обойти настройки поведения моделей и получить результаты, нарушающие принципы безопасного использования ИИ. Это касается контента по темам CBRN (химические, биологические, радиологические и ядерные угрозы), а также извлечения системных промтов.

+31

pipewalker Mar 20 at 06:16

Перестаньте использовать JWT для сессий

10 min

27K

Website development*Designing and refactoring*Programming*System Analysis and Design*

From sandbox

Translation

К сожалению, в последнее время всё больше и больше людей советуют использовать JWT для управления пользовательскими сессиями в веб-приложениях. Это ужасная идея, и в этом посте я объясню, почему.

+28

ENRUStudio Mar 15 at 16:17

Переключение между контекстами убивает эффективность разработчиков на корню

10 min

30K

Нетология corporate blogProgramming*BrainHealthProject management*

Opinion

Translation

Я программист. Меня всё время отвлекают, и я хочу об этом поговорить.

Вы когда-нибудь задумывались, что сильнее всего подрывает эффективность работы? Много чего. Но мы часто недооцениваем один фактор, который выделяется на фоне остальных.

Каждое короткое сообщение, которое вы отправляете коллеге в Slack, отнимает у него 23 минуты продуктивной работы. И это далеко не всё.

Я работаю с командами разработчиков вот уже десять лет, и мы постоянно недооцениваем вред, который нам причиняют такие отвлекающие факторы. В этой статье разбираемся, почему переключение между контекстами обходится так дорого и что с этим делать.

+85

112

andbout Feb 25 at 05:58

Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе

17 min

62K

Yandex Cloud & Yandex Infrastructure corporate blogЯндекс corporate blogArtificial IntelligenceMachine learning*Open source*

✏️ Technotext 7

Привет, меня зовут Андрей Бут, я представляю команду разработки YandexGPT. Сегодня мы анонсируем новое поколение наших больших языковых моделей — YandexGPT 5.

Старшая модель — YandexGPT 5 Pro — уже применяется в чате с Алисой, а также доступна в Yandex Cloud через API. Кроме того, в чате с Алисой впервые можно переключиться на базовую версию модели, которая не использует внешнюю информацию из Поиска и не дообучалась «быть» виртуальным ассистентом.

Pretrain-версия младшей модели — YandexGPT 5 Lite Pretrain — опубликована в свободном доступе и будет полезна разработчикам, которые дообучают базовые версии моделей под свои задачи. Дообученная нами на её основе instruct-версия в ближайшее время станет доступна через API.

Под катом — более подробно о том, как мы обучали наши модели и какой опыт накопили.

+114

144

myoffice_ru Jan 31 at 14:53

Всё, что я узнал о запуске локальных языковых моделей

Easy

19 min

29K

МойОфис corporate blogArtificial Intelligence

Tutorial

Translation

В мире, где облачные решения диктуют свои правила, локальные модели дают свободу — полную приватность, работу офлайн и отсутствие ограничений. Эта статья для тех, кто хочет впервые попробовать самостоятельно запустить ИИ на своем компьютере.

В статье подробно разобраны разные виды LLM, их особенности и сценарии использования. Какие модели лучше подходят для программирования? Какие эффективнее справляются с переводами, генерацией текста или анализом больших объемов данных? Автор статьи Chris Wellons* протестировал популярные открытые модели — Mistral, Qwen, DeepSeek-Coder, Mixtral, Llama 3.1 и другие, — чтобы понять их сильные и слабые стороны. Также автор делится опытом и практическими советами, которые помогут вам запустить и использовать LLM на собственном оборудовании. Хотите разобраться, какую модель выбрать под свои задачи и как эффективно запустить её на локальном оборудовании? Тогда приступим!

*Обращаем ваше внимание, что позиция автора может не всегда совпадать с мнением МойОфис

+28

techno_mot Jan 25 at 12:32

Веб-приложения будущего: что нужно знать о WebAssembly

Easy

8 min

29K

Selectel corporate blogJavaScript*WebAssembly*Website development*Programming*

Review

Часто при разговоре о веб-разработке на ум приходят JavaScript и различные фреймворки. Но что, если бы веб-приложения могли запускаться с той же производительностью, что и нативные, а разработчики могли бы писать их на Rust, C++ или Go? Вот тут-то на сцену и выходит WebAssembly (Wasm) — инструмент, который позволяет взглянуть на веб-разработку иначе. Он открывает возможности для выполнения сложных вычислений, запуска игр, виртуальных машин и приложений для анализа данных прямо в браузере. Все это — с высокой производительностью и кроссплатформенностью, от настольных компьютеров до мобильных устройств.

В этой статье разберемся, как работает WebAssembly, чем он привлекает разработчиков и какие проблемы решает. Вы узнаете, почему его активно поддерживают такие компании, как Google, Unity и Unreal Engine, и какие перспективы открывает Wasm для будущего веб-разработки. Подробности под катом!

Читать дальше →

+33

PeterZaidel Dec 11 2024 at 07:00

ACM RecSys — 2024: тренды и доклады с крупнейшей конференции по ML в рекомендательных системах

Medium

17 min

3.2K

Яндекс corporate blogMachine learning*ConferencesArtificial IntelligenceNatural Language Processing*

Review

Привет! Меня зовут Петр Зайдель и я — старший разработчик в Музыке. Вместе с другими ребятами из Яндекса, которые развивают рекомендательные системы в разных сервисах, я в октябре побывал на международной конференции ACM RecSys — 2024 в итальянском городе Бари. Сегодня хочу поделиться с Хабром впечатлениями, трендами и, конечно, обзорами самых интересных научных статей с конференции. Думаю, мой рассказ будет полезен всем специалистам в сфере рекомендательных систем, которые следят за трендами и готовы пробовать в своей работе что‑то новое и интересное.

+23

Sivchenko_translate Oct 3 2024 at 13:23

Некоторые малоизвестные фичи, фокусы и причуды языка C

19 min

35K

Abnormal programming*Compilers*Programming*C++*C*

Translation

В этом посте разобраны некоторые фокусы, причуды и фичи языка C (некоторые из них – весьма фундаментальные!), которые, казалось бы, могут сбить с толку даже опытного разработчика. Поэтому я потрудился сделать за вас грязную работу и (в произвольном порядке) собрал некоторые из них в этом посте. Примеры сопровождаются ещё более вольными краткими пояснениями и/или листингами (некоторые из них цитируются).

Конечно же, здесь я не берусь перечислять абсолютно всё, так как факты из разряда «функция nan() не может устанавливать errno, поскольку в определённых ситуациях поведёт себя как strtod()» не слишком интересны.

ВНИМАНИЕ: сам факт попадания тех или иных вещей в эту подборку не означает автоматически, что я рекомендую или, наоборот, не рекомендую ими пользоваться! Некоторые из приведённых примеров никогда не должны просачиваться за пределы списков наподобие этого, тогда как другие примеры невероятно полезны! Уверен, что могу положиться на ваш здравый смысл, дорогие читатели.

+100

A1Ivan Sep 28 2024 at 12:45

Личный опыт: Почему нельзя оставлять честную обратную связь о работе

Easy

2 min

74K

Content-marketing*

Opinion

Около 5 месяцев я был сотрудником одной очень крупной и известной ИТ-компании. Причём 2 месяца я проходил интервью, делал задания и решал тесты. В итоге я продержался совсем недолго. Со мной просто не продлили контракт. Это стало сюрпризом не только для меня, но и для HR-менеджера. Хотя претензий к моей работе за всё это время не было ни разу. Зато был опрос о прохождении онбординга. И я ответил честно.

Ни в коем случае так не делайте!

+21

176

Bright_Translate Sep 20 2024 at 13:01

Почему Scrum так изматывает

Easy

6 min

37K

RUVDS.com corporate blogAgile*Personnel Management*Project management*Development Management*

Review

Translation

В современном мире программирование связано с высокой стрессовой нагрузкой — намного большей, чем на моей памяти было в 90-х и начале 2000-х, когда я только начинал свой путь в этой сфере. В те времена безумие начиналось в преддверии дедлайнов, но в остальное время всё шло более-менее размеренно. Сегодня же психологическая нагрузка и давление уже являются неотъемлемыми спутниками разработки ПО.

Поэтому, естественно, в целях сохранения здоровья и повышения продуктивности мне хочется с этим давлением как-то разобраться. В итоге я немного поразмышлял, почему в последние пару десятилетий всё стало настолько печально (по крайней мере, для меня).

Читать дальше →

+137

2 3 ...

52 53