Pull to refresh
43
0
Валерий Дмитриев @rotor

Пользователь

Send message

10 мифов об A/B-тестировании: как избежать распространённых заблуждений в статистическом анализе

Level of difficultyEasy
Reading time15 min
Views5.9K

В технологических компаниях A/B‑тестирование давно стало основой для принятия решений, основанных на данных. Меня зовут Диля Хакимова, я работаю в команде платформы экспериментов Laba в Яндекс Go, и мы с командой помогаем руководителям и аналитикам быстро получать ценную информацию с помощью A/B‑тестирования.

Мы занимаемся разработкой методологии и помогаем специалистам решать вопросы, связанные с экспериментами и статистическим анализом. За время работы мы заметили: вокруг A/B‑тестирования до сих пор существует множество заблуждений.

Эти мифы всплывают в разговорах с руководителями, на собеседованиях и даже среди коллег‑аналитиков. Иногда они кажутся безобидными — но на деле могут привести к серьёзным ошибкам в анализе, неверным решениям и упущенным возможностям.

В этой статье мы разберём 10 распространённых мифов об A/B‑тестировании, поможем разобраться в теме глубже и сделать ваши эксперименты эффективнее.

Читать далее

GCC Profile-guided optimization

Reading time6 min
Views24K
Profile-guided optimization (далее PGO) — техника оптимизации программы компилятором, нацеленная на увеличение производительности выполнения программы. В отличии от традиционных способов оптимизации анализирующих исключительно исходные коды, PGO использует результаты измерений тестовых запусков оптимизируемой программы для генерации оптимального кода.
Читать дальше →

5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 2

Level of difficultyEasy
Reading time15 min
Views5.8K

В отличие от традиционных наборов данных, где объекты часто остаются статичными, данные временных рядов  обладают уникальными временными паттернами, которые необходимо использовать для извлечения значимых признаков.

В этом разделе мы рассмотрим некоторые из наиболее эффективных методов.

Читать далее

Семь иллюзий Low code

Level of difficultyEasy
Reading time10 min
Views6.9K

Low code стремительно ворвался в корпоративный ландшафт, чего от него никто не ожидал. Мы думали — ну, да, занятная вещица, пусть пользователи поиграют в программистов, лишь бы работать не мешали. А сегодня куда ни глянь, все хотят, чтоб даже у серьезных энтерпрайз-решений обязательно были какие-то хотя бы элементы лоукода. Но зачем?

Читать далее

RAG: Дообучение модели эмбеддингов для повышения точности поиска

Reading time10 min
Views4K

Привет, Хабр! Меня зовут Саприн Семён. Я занимаюсь анализом данных и машинным обучением в компании ПГК Диджитал. Сегодня мы продолжаем серию статей, в которой я рассказываю о том, как мы с командой разрабатывали ИИ-помощника. В прошлой статье мы обсудили, почему стандартные подходы к работе с документами не всегда работают, и какие шаги помогли нам повысить качество поиска без существенных затрат памяти на GPU.

Сегодня речь пойдёт о следующем этапе: дообучении (fine-tuning) модели эмбеддингов для улучшения качества поиска в RAG-системе. Это позволило нам получить более точные представления документов и пользовательских запросов, что напрямую сказалось на релевантности финальных ответов. Давайте перейдём к деталям.

Читать далее

Синтез речи ◍ 2025: топ-4 бесплатных нейросетей для озвучки текста

Level of difficultyEasy
Reading time19 min
Views32K

Искусственный интеллект давно перестал быть набором скучных алгоритмов. Это и художник, который рисует словами, и переводчик, что ломает языковые барьеры, и музыкант, играющий на голосовых нотах. Но есть у него ещё одно дело, в котором он преуспел, — синтез речи.

Но всё ли так гладко?

Просто тараторить текст — мало. Настоящий голос должен видеть запятые, чувствовать паузы, играть интонациями и уметь погружать. Он должен звучать не как робот, а как рассказчик с характером. С душой — насколько это вообще возможно для машины.

Поэтому мы устроим кастинг четырём нейросетям. Послушаем, как они звучат, как держат паузы, как справляются с эмоциями. И главное — попробуем понять: насколько близко они подошли к имитации живого рассказчика.

А чтобы было интересно, мы вдохновились атмосферой «Хоббита». Интересно, смогла бы нейросеть рассказать о приключениях лучше самого Бильбо Бэггинса?

Сегодня алгоритмы получат Толкина, омографы, арабский язык — и замок, который может быть замком.

Готовьте Ваши уши — мы начинаем!

Читать далее

Теневая сторона AutoML: когда no-code инструменты вредят больше, чем помогают

Level of difficultyMedium
Reading time7 min
Views1.2K

AutoML обещает лёгкий вход в машинное обучение: не нужно разбираться с пайплайнами, настраивать гиперпараметры и писать код — просто загрузи данные и получи модель. Но за удобством скрываются архитектурные риски, которые не всегда видны на первом этапе. От непрозрачных решений до «тихого дрейфа» и невозможности отката — автоматизация может не упростить, а усложнить жизнь, особенно в проде. В этой статье — разбор того, что на самом деле строит AutoML, где он действительно полезен, и почему его нельзя воспринимать как волшебную кнопку.

Читать далее

ML на «плюсах»: 5 материалов о необычном подходе к обучению моделей

Level of difficultyMedium
Reading time2 min
Views3.4K

Когда мы говорим о машинном обучении, то автоматически подразумеваем Python. Это справедливо: на Python есть множество удобных ML-инструментов, например, популярная библиотека PyTorch. Тем не менее, некоторые задачи можно решать с помощью С++. И не только ради эксперимента, а для увеличения производительности сервисов и упрощения работы с кодом. 

Кирилл Колодяжный, разработчик СХД в YADRO, несколько лет изучает машинное обучение на С++. Он уже написал программы для поиска лица на фото и для распознавания объектов в реальном времени. Под катом — пять материалов Кирилла, после которых инженерам захочется «пересесть» с Python на C++. Хотя бы на время.

Читать далее

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Level of difficultyMedium
Reading time8 min
Views13K

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB (ссылка на таблицу лидеров).

Ранее мы уже рассказывали на Хабре о создании русскоязычных задач для MTEB. Напомним, что этот бенчмарк предназначен для оценки моделей, способных создавать эмбеддинги текста — векторные представления, применяемые в различных задачах NLP.

Читать далее

Обработка аудио на ESP32

Level of difficultyMedium
Reading time15 min
Views12K

В этой статье я хочу поделиться своим опытом портирования проекта распознавания музыкальных жанров аудиозаписей на ESP32-C3. Исходный проект взят из репозитория книги TinyML-Cookbook_2E.
При анализе речи или других звуков важно выделить такие характеристики, которые отражают строение сигнала, но при этом не зависят от конкретных слов, громкости и других мешающих факторов. Для этого используют cepstrum, mel-cepstrum и MFCC - это шаги преобразования, которые переводят звук в удобную для анализа форму.

Читать далее

Чёрный ящик раскрыт: как инъекция промта заставляет ИИ говорить всё и вытягивает системный запрос

Level of difficultyMedium
Reading time8 min
Views29K

Исследователи из HiddenLayer представили универсальную технику инъекции промтов, которая успешно обходит защитные механизмы ключевых современных ИИ‑моделей. Это касается систем OpenAI (ChatGPT-4o, 4o‑mini, 4.1, 4.5, o3-mini, o1), Google (Gemini-1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude-3.5, 3.7), Meta✶ (семейства Llama-3✶ и 4), DeepSeek (V3, R1), Qwen (2.5-72B) и Mistral (Mixtral-8x22B).

Путём применения техники, связывающей правила безопасности и ролевое взаимодействие, компании удалось обойти настройки поведения моделей и получить результаты, нарушающие принципы безопасного использования ИИ. Это касается контента по темам CBRN (химические, биологические, радиологические и ядерные угрозы), а также извлечения системных промтов.

Читать далее

Перестаньте использовать JWT для сессий

Reading time10 min
Views27K

К сожалению, в последнее время всё больше и больше людей советуют использовать JWT для управления пользовательскими сессиями в веб-приложениях. Это ужасная идея, и в этом посте я объясню, почему.

Читать далее

Переключение между контекстами убивает эффективность разработчиков на корню

Reading time10 min
Views30K

Я программист. Меня всё время отвлекают, и я хочу об этом поговорить.

Вы когда-нибудь задумывались, что сильнее всего подрывает эффективность работы? Много чего. Но мы часто недооцениваем один фактор, который выделяется на фоне остальных.

Каждое короткое сообщение, которое вы отправляете коллеге в Slack, отнимает у него 23 минуты продуктивной работы. И это далеко не всё.

Я работаю с командами разработчиков вот уже десять лет, и мы постоянно недооцениваем вред, который нам причиняют такие отвлекающие факторы. В этой статье разбираемся, почему переключение между контекстами обходится так дорого и что с этим делать.

Читать далее

Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе

Reading time17 min
Views62K

Привет, меня зовут Андрей Бут, я представляю команду разработки YandexGPT. Сегодня мы анонсируем новое поколение наших больших языковых моделей — YandexGPT 5.

Старшая модель — YandexGPT 5 Pro — уже применяется в чате с Алисой, а также доступна в Yandex Cloud через API. Кроме того, в чате с Алисой впервые можно переключиться на базовую версию модели, которая не использует внешнюю информацию из Поиска и не дообучалась «быть» виртуальным ассистентом.

Pretrain-версия младшей модели — YandexGPT 5 Lite Pretrain — опубликована в свободном доступе и будет полезна разработчикам, которые дообучают базовые версии моделей под свои задачи. Дообученная нами на её основе instruct-версия в ближайшее время станет доступна через API. 

Под катом — более подробно о том, как мы обучали наши модели и какой опыт накопили.

Читать далее

Всё, что я узнал о запуске локальных языковых моделей

Level of difficultyEasy
Reading time19 min
Views29K

В мире, где облачные решения диктуют свои правила, локальные модели дают свободу — полную приватность, работу офлайн и отсутствие ограничений. Эта статья для тех, кто хочет впервые попробовать самостоятельно запустить ИИ на своем компьютере.

В статье подробно разобраны разные виды LLM, их особенности и сценарии использования. Какие модели лучше подходят для программирования? Какие эффективнее справляются с переводами, генерацией текста или анализом больших объемов данных? Автор статьи Chris Wellons* протестировал популярные открытые модели — Mistral, Qwen, DeepSeek-Coder, Mixtral, Llama 3.1 и другие, — чтобы понять их сильные и слабые стороны. Также автор делится опытом и практическими советами, которые помогут вам запустить и использовать LLM на собственном оборудовании. Хотите разобраться, какую модель выбрать под свои задачи и как эффективно запустить её на локальном оборудовании? Тогда приступим!

*Обращаем ваше внимание, что позиция автора может не всегда совпадать с мнением МойОфис

Читать далее

Веб-приложения будущего: что нужно знать о WebAssembly

Level of difficultyEasy
Reading time8 min
Views29K


Часто при разговоре о веб-разработке на ум приходят JavaScript и различные фреймворки. Но что, если бы веб-приложения могли запускаться с той же производительностью, что и нативные, а разработчики могли бы писать их на Rust, C++ или Go? Вот тут-то на сцену и выходит WebAssembly (Wasm) — инструмент, который позволяет взглянуть на веб-разработку иначе. Он открывает возможности для выполнения сложных вычислений, запуска игр, виртуальных машин и приложений для анализа данных прямо в браузере. Все это — с высокой производительностью и кроссплатформенностью, от настольных компьютеров до мобильных устройств.

В этой статье разберемся, как работает WebAssembly, чем он привлекает разработчиков и какие проблемы решает. Вы узнаете, почему его активно поддерживают такие компании, как Google, Unity и Unreal Engine, и какие перспективы открывает Wasm для будущего веб-разработки. Подробности под катом!
Читать дальше →

ACM RecSys — 2024: тренды и доклады с крупнейшей конференции по ML в рекомендательных системах

Level of difficultyMedium
Reading time17 min
Views3.2K

Привет! Меня зовут Петр Зайдель и я — старший разработчик в Музыке. Вместе с другими ребятами из Яндекса, которые развивают рекомендательные системы в разных сервисах, я в октябре побывал на международной конференции ACM RecSys — 2024 в итальянском городе Бари. Сегодня хочу поделиться с Хабром впечатлениями, трендами и, конечно, обзорами самых интересных научных статей с конференции. Думаю, мой рассказ будет полезен всем специалистам в сфере рекомендательных систем, которые следят за трендами и готовы пробовать в своей работе что‑то новое и интересное.

Читать далее

Некоторые малоизвестные фичи, фокусы и причуды языка C

Reading time19 min
Views35K

В этом посте разобраны некоторые фокусы, причуды и фичи языка C (некоторые из них – весьма фундаментальные!), которые, казалось бы, могут сбить с толку даже опытного разработчика. Поэтому я потрудился сделать за вас грязную работу и (в произвольном порядке) собрал некоторые из них в этом посте. Примеры сопровождаются ещё более вольными краткими пояснениями и/или листингами (некоторые из них цитируются).

Конечно же, здесь я не берусь перечислять абсолютно всё, так как факты из разряда «функция nan() не может устанавливать errno, поскольку в определённых ситуациях поведёт себя как strtod()» не слишком интересны.

ВНИМАНИЕ: сам факт попадания тех или иных вещей в эту подборку  не означает автоматически, что я рекомендую или, наоборот, не рекомендую ими пользоваться! Некоторые из приведённых примеров никогда не должны просачиваться за пределы списков наподобие этого, тогда как другие примеры невероятно полезны! Уверен, что могу положиться на ваш здравый смысл, дорогие читатели.

Читать далее

Личный опыт: Почему нельзя оставлять честную обратную связь о работе

Level of difficultyEasy
Reading time2 min
Views74K

Около 5 месяцев я был сотрудником одной очень крупной и известной ИТ-компании. Причём 2 месяца я проходил интервью, делал задания и решал тесты. В итоге я продержался совсем недолго. Со мной просто не продлили контракт. Это стало сюрпризом не только для меня, но и для HR-менеджера. Хотя претензий к моей работе за всё это время не было ни разу. Зато был опрос о прохождении онбординга. И я ответил честно.

Ни в коем случае так не делайте!

Почему Scrum так изматывает

Level of difficultyEasy
Reading time6 min
Views37K

В современном мире программирование связано с высокой стрессовой нагрузкой — намного большей, чем на моей памяти было в 90-х и начале 2000-х, когда я только начинал свой путь в этой сфере. В те времена безумие начиналось в преддверии дедлайнов, но в остальное время всё шло более-менее размеренно. Сегодня же психологическая нагрузка и давление уже являются неотъемлемыми спутниками разработки ПО.

Поэтому, естественно, в целях сохранения здоровья и повышения продуктивности мне хочется с этим давлением как-то разобраться. В итоге я немного поразмышлял, почему в последние пару десятилетий всё стало настолько печально (по крайней мере, для меня).
Читать дальше →
1
23 ...

Information

Rating
Does not participate
Location
Уфа, Башкортостан(Башкирия), Россия
Date of birth
Registered
Activity