Алгоритмы *

Все об алгоритмах

СтатьиПостыНовостиАвторыКомпании

Kelbon 22 окт в 15:02

Чем вообще занимается человечество?

2 мин

16K

C++ * БраузерыGoogle ChromeАлгоритмы *

Мнение

Вот уже последние лет 10 одна половина человечества стремительно проваливается в пучину бесполезного повторения одного и того же с каждый раз всё худшими показателями, а вторая половина запрещает абы что.

в github, vscode и windows абсолютно каждое обновление уже несколько лет связано только с "ИИ", при этом ни один реальный показатель этих программ не стал лучше. В каждый поисковой запрос встроен ИИ, а качество поиска в гугле стало хуже (считал ли кто-то, сколько электричества ушло на это?)

Компилятор go переписывают на go, JavaScript существует больше 20 лет, появился TypeScript, но он... Всё также компилируется в обычный JavaScript, даже более объёмный, чем написанный вручную. До сих пор все оптимизации передачи джаваскрипта по сети не пошли дальше удаления пробелов из исходного текста, хотя на поверхности лежит трансляция TypeScript в бинарный JS, который позже напрямую быстрее интерпретируется и тратит в разы меньше сетевого трафика

Недавно я зашёл в браузер хром и решил поискать небольшую фразу в довольно объёмном файле.

+24

ph_piter 22 окт в 08:56

Передовые алгоритмы глубокого обучения

29 мин

5.6K

Блог компании Издательский дом «Питер»Машинное обучение * Алгоритмы * Python *

Привет, Хаброжители! Мы хотим поделиться с вами главой из книги «Алгоритмы машинного обучения» , которую уже можно предзаказать на нашем сайте.

В этой главе

1.Вариационные автоэнкодеры для обнаружения аномалий временных рядов

2.Сети смешанной плотности, использующие амортизированный вариационный вывод

3.Механизм внимания и трансформеры

4.Графовые нейронные сети

5. Исследования в области ML: глубокое обучение

AnnaLafleur 22 окт в 07:15

Создание интерактивного макета. Упаковка кругов в квадрат и прямоугольник. Жадный алгоритм

Средний

19 мин

6.1K

JavaScript * Алгоритмы * Веб-дизайн * Математика * Научно-популярное

Я разработала интерактивный макет для создания композиций цветов. Проблема свелась к задаче упаковки кругов в квадрат и прямоугольник. В статье я приведу разбор автоматизированного решения этой задачи с помощью жадного алгоритма, а также расскажу теорию и математически обосную практику с визуальными пояснениями.

+10

semolina_channel 21 окт в 11:35

Как RuStore читает мысли пользователей (и причём тут теги)

Простой

6 мин

6.5K

Блог компании VKПоисковые технологии * Алгоритмы * Машинное обучение *

Обзор

Когда пользователь открывает RuStore и вводит запрос вроде «тренировки дома» или «обои с кошками», он ищет не конкретное приложение, а способ решить задачу. Наша цель, как стора, — понять, какое приложение действительно поможет ему это сделать.

За этим стоит сложный ML-пайплайн: сначала модель отбирает кандидатов по смысловой близости запроса, затем ранжирует их по релевантности. А поисковые теги помогают системе уловить контекст — в каких ситуациях и по каким запросам ваше приложение должно оказаться в топе выдачи.

Меня зовут Анастасия Войцешко, я продакт-менеджер в RuStore. В этой статье расскажу, как устроен поиск внутри стора, какую роль теги играют и как подобрать их так, чтобы повысить шансы приложения попасть в релевантную выдачу.

+45

verasobol 21 окт в 10:53

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Сложный

10 мин

7.3K

Блог компании AIRIМашинное обучение * Алгоритмы * Обработка изображений * Искусственный интеллект

Кейс

Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала!

Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting. Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке.

Представьте такую ситуацию: вы хотите, чтобы модель генерировала вашу кошечку узнаваемой и в самых разных сценариях, но у вас нет времени или желания собирать обширный разнообразный датасет. А может, у вас вообще есть всего одна фотография (с хозяевами кошек так обычно не бывает, но допустим).

Хорошая новость: эту задачу можно решить, копнув поглубже в свойства диффузии! В этой статье я расскажу, как это сделать.

+10

eshibanova 21 окт в 07:00

Балконы и полигоны: как мы разметили 12 000 квартир для генерации 3D-туров

7 мин

6.7K

Блог компании ЯндексАлгоритмы * Искусственный интеллектМашинное обучение * Краудсорсинг

Те, кто имел дело с покупкой и продажей недвижимости, знает, что просмотры — очень хлопотное занятие. Неудивительно, что для экономии времени появляются предложения посмотреть квартиру онлайн или с помощью 3D‑тура. О таких виртуальных экскурсиях мы сегодня и поговорим.

В сентябре Яндекс Недвижимость рассказала о 3D‑турах для новостроек. С момента начала тестирования в июле на сервисе было сгенерировано более четверти миллиона виртуальных экскурсий по строящимся квартирам. Чтобы это стало возможным, мы обучили нейросеть анализировать планировки и превращать их в трёхмерные визуализации. Но чтобы это стало возможным, нужно было проделать большую и кропотливую работу, чтобы нейросеть понимала, где отрисовывать окно или класть плитку на пол.

Меня зовут Катя Шибанова, я работаю архитектором краудсорсинговых решений (CSA) в службе разметки данных Yandex Crowd Solutions. Недавно к нам обратились коллеги из Яндекс Недвижимости: нужно было помочь с разметкой для обучения модели компьютерного зрения, которую используют для создания 3D‑туров. Об этом интересном проекте и будет мой рассказ. Я расскажу, чем опасны миллиметровые зазоры между полигонами в разметке, почему помимо типов помещений (кухня, спальня, санузел и тому подобное) нужно размечать структурно важные элементы — двери, окна, несущие стены, а также почему приоритизация геометрической согласованности важнее «средней» точности по пикселям.

+23

PatientZero 21 окт в 05:18

Решение проблемы двойного букинга: паттерны проектирования систем

Простой

10 мин

9.1K

Базы данных * Системное программирование * Алгоритмы * Программирование *

Обзор

Перевод

Давно прошло то время, когда люди стояли в длинных очередях для покупки билетов на концерты, авиарейсы, фильмы, матчи и другие события.

Технологические компании наподобие Ticketmaster, BookMyShow, Airbnb, Delta Airlines и так далее сделали бронирование делом одного клика, позволившим покупать билеты из дома.

Эта простота стала возможной благодаря технологическим платформам и сервисам, которые прячут от пользователей всю сложность и решают неординарные инженерные задачи. Одна из таких задач — предотвращение бронирования одного места несколькими пользователями.

Представьте, в каком положении окажутся два пользователя, купившие одно и то же место на мероприятие и осознавшие это только перед его началом. Из-за этого организатор теряет доверие покупателей, а пользователи дважды задумаются, прежде чем покупать билеты на следующее мероприятие.

Поэтому важно создать надёжное решение классической задачи — двойного букинга.

Из этой статьи вы узнаете, как эту задачу решают разные технологические компании. У каждой компании свои особенности, поэтому единого универсального решения нет.

Мы рассмотрим различные архитектурные паттерны и разберёмся в их плюсах и минусах. Статья поможет вам обрести глубокое понимание и наработать знания в системном мышлении.

+24

tac 21 окт в 03:40

Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов. Часть 2

Средний

6 мин

4.1K

Машинное обучение * Алгоритмы * Обработка изображений *

Аналитика

Recovery Mode

Предисловие. Опубликовав первую часть понял, что само обучение перцептрона мало кого интересует, пока не будет экспериментальных результатов. И это разрешило мою дилемму о том, как сократить изложение для хабра. Мы пропустим разделы с объяснением архитектуры перцептрона TL&NL и начнем сразу с 4 раздела моей статьи.

4. Точность прогнозирования

В предыдущих разделах, мы стремились уменьшить число признаков (А - элементов), требуемых для решения задачи. И это понятно, т.к. обработка меньшего числа признаков требует меньше вычислительных затрат. Но выделяя только минимальное число признаков (и соответствующих A-элементов), и обучаясь только на части всех возможных примеров, мы рискуем построить слишком грубую модель. Её будет достаточно для решения задачи на обучающем множестве, но она будет плохо предсказывать. Представьте, что мы аппроксимируем окружность, и примеры нам показывают, что это многоугольник и во время прогнозирования мы исходим из того, на сколько углов мы обучили свою сеть. Поэтому, задача исследования в этом разделе состоит не в минимизации А-элементов, а в нахождении такого их количества, которое стабилизирует модель обобщения, которую строит перцептрон. Что означает стабилизация станет ясно из последующего изложения.

Для анализа точности прогнозирования будем использовать классические тесты MNIST по распознаванию рукописных цифр и MNIST Fashion по распознаванию пиктографических изображений одежды.

4.1. О методологии экспериментов

Отсутствие пред- и постобработки. Это не всегда очевидно, и различные исследователи часто явно или не явно используют некоторую предобработку обучающей и тестовой выборки. Мы должны строго разграничить обучающую выборку от тестовой, так, как например в результате некой нормализации происходит “подсказки от экспериментатора”, что не допустимо. Например, используя некие статистические характеристики и одинаково нормализуя обучающую и тестовую выборки происходит утечка информации, передача признаков тестовой выборки из обучающей выборки, или наоборот. По сути, это сводится к тому, что экспериментатор, зная тестовую выборку, косвенно подсказывает алгоритму, как ему обучаться. Поэтому важно, чтобы тестовая выборка была строго отделена от обучающей. Кроме того, мы хотим исследовать как именно работает алгоритм, а не то, как дополнительные манипуляции помогают решить задачу. Еще более важным, это становится при сравнении алгоритмов, в нашем случае перцептрона TL&NL с MLP+backprop. Поэтому в рамках наших экспериментов мы намеренно не допускаем никакой пред- и постобработки, за единственным исключением. В MNIST точки изображения даны в градации серого от 0 до 255. А нейросети удобнее работать с величинами на отрезке [0;1]. Поэтому единственную нормализацию, которую мы допускаем является разделение значения цвета на 255, как для обучающей, так и тестовой выборки.

Upgini 20 окт в 17:25

Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели

Простой

5 мин

6.3K

Natural Language Processing * Алгоритмы * Big Data * Искусственный интеллектМашинное обучение *

Туториал

Перевод

Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения.

Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете.

Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы.

Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта.

Недавно я наткнулся на интересный инструмент — Upgini. Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных.

Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала.

👉 GitHub - upgini/upgini: Data search library for Machine Learning

19blackadder97 20 окт в 08:00

EvoPress: новый подход к оптимизации и сжатию LLM от исследователей Яндекса

Средний

8 мин

8.8K

Блог компании ЯндексМашинное обучение * Искусственный интеллектАлгоритмы * Natural Language Processing *

Всем привет! Меня зовут Денис Кузнеделев, я работаю в команде Yandex Research. Моё основное направление деятельности на данный момент — задача сжатия и ускорения больших языковых и картиночных моделей. Затраты на обучение, инференс и деплой LLM стали одной из ключевых инфраструктурных проблем индустрии: дефицит вычислительных ресурсов, нехватка видеопамяти и высокие требования языковых моделей к вычислительным ресурсам препятствуют масштабированию решений.

Сегодня я расскажу о методе неравномерного сжатия нейронных сетей EvoPress, который мы предложили совместно с коллегами из ETH Zurich и представили в июле этого года на одной из ведущих конференций по машинному обучению — ICML.

+40

DenisSafronov 19 окт в 20:24

RL (RLM): Разбираемся вместе

Средний

12 мин

7.1K

Машинное обучение * Искусственный интеллектАлгоритмы *

Обзор

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

sa2304 19 окт в 12:43

Задачи по алгоритмам: избавляемся от анаграмм

Простой

4 мин

8.3K

Алгоритмы * C++ *

Задача с LeetCode.

Дан массив слов words. Слово содержит латинские буквы в нижнем регистре a-z. Проверить пары смежных слов $(w_i, w_{i+1})$ и удалить $w_{i+1}$ , когда и $w_{i+1}$ - анаграммы.

Найдем группы смежных анаграмм и оставим в массиве первую строку каждой группы.

About_it 18 окт в 13:01

Почему файлы стали меньше: форматы фото и видео (JPEG, HEIC, AV1)

Простой

11 мин

20K

Блог компании RUVDS.comАлгоритмы * Графический дизайн * Обработка изображений * Сжатие данных *

Обзор

Форматы изображений и видео вроде JPEG, HEIC и AV1 давно стали частью нашей повседневности. Мы снимаем на смартфон, пересылаем фото в мессенджерах, заливаем видео в облако — и редко задумываемся, почему одинаковый кадр может весить в три раза меньше, но выглядеть так же.

Рассмотрим, как современные кодеки экономят место, почему файлы стали компактнее и зачем это вообще понадобилось. Детали под катом.

+88

113

oneastok 18 окт в 12:00

Придумал расширение для Chrome и устранил шахматных читеров

Простой

9 мин

17K

Блог компании SelectelПрограммирование * Google ChromeАлгоритмы * Расширения для браузеров

Обзор

Перевод

Поисковая выдача по запросу «chrome extension for cheating in chess» переполнена. Инструментов для нечестной игры — десятки.

Но стоит инвертировать пожелание и поискать плагин для защиты — не найдется почти ничего. Кроме расширения, о котором сегодня пойдет речь. Ну, возможно, еще нескольких старых приложений, показывающих базовую статистику.

Удивительный дисбаланс, не правда ли?

Обо всем по порядку

+72

Alexander_Chesalov 18 окт в 08:48

Этические аспекты использования искусственного интеллекта в промышленности

Простой

22 мин

6.1K

Программирование * Исследования и прогнозы в IT * Инженерные системы * Интернет-маркетинг * Алгоритмы *

Аналитика

Recovery Mode

Аннотация. Статья посвящена анализу этически вызовов, возникающих при интеграции систем искусственного интеллекта (ИИ) в промышленность. На основе ключевых международных и национальных документов — Рекомендации по этике ИИ ЮНЕСКО, Спецификации этики искусственного интеллекта нового поколения Китая, Закона Европейского Союза об искусственном интеллекте и российского Кодекса этики в сфере ИИ — рассматриваются основные риски и принципы, которые должны лежать в основе проектирования, внедрения и эксплуатации промышленных ИИ-систем на всех этапах их жизненного цикла. Особое внимание уделяется вопросам безопасности, прозрачности, объяснимости и подконтрольности человеку промышленных ИИ-систем в контексте Индустрии 4.0.

lebron32rus 18 окт в 08:11

[Алгоритмы, Задачки] Элегантно и идиоматично обходим двоичное дерево поиска на Python 3

Простой

4 мин

7.5K

Python * Алгоритмы *

Туториал

Недавно увидел на просторах телеграмма заметка о том как решать алгоритмические задачи на деревья. Вспомнил, что в свое время у меня тоже были некоторые наработки, при этом они непохожи на то что описывается по умолчанию в статьях и курсах. Поэтому делюсь ими с вами и очень рассчитываю на ваш фидбэк, вдруг вам эта информация пригодится во время подготовки к собеседованиям.

PaGul 17 окт в 10:57

GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

Простой

4 мин

7.1K

Блог компании СберИскусственный интеллектNatural Language Processing * Алгоритмы * Машинное обучение *

Мы всё чаще делегируем ИИ-ассистентам рабочую рутину и бытовые вопросы. Но во взаимодействии с ними есть существенная проблема: модели не помнят пользователя. Между сессиями теряются имя, контекст работы, желаемые ограничения и предпочтения, значительно влияющие на то, что и как стоит ответить пользователю. В итоге диалог каждый раз начинается «с нуля», а ответы звучат усреднённо. Это снижает эффективность и подрывает доверие: когда ассистент не помнит важное о вас, он превращается в поисковик с красивыми фразами.

Мы в команде RnD для B2C SberAI хотим это исправить. Представляем вашему вниманию задачу GigaMemory: global memory for LLM. Мы предлагаем участникам построить долгосрочную персональную память для языковой модели — систему, которая хранит, обновляет и надёжно извлекает знания о конкретном пользователе. Привычки, предпочтения, ограничения и прочие факты о пользователе, которые могут пригодиться в дальнейшем общении.

Цель — научить ИИ отвечать не «в среднем по больнице», а исходя из вашего реального контекста: от прошлых задач на работе до семейных дат и спортивных планов.

+16

devozerov 16 окт в 13:52

Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

19 мин

7.4K

Блог компании CedrusDataBig Data * Data Engineering * Алгоритмы * Высоконагруженные системы *

В этой статье мы детально рассмотрим поведение аналитических движков при выполнении отдельного TPC-DS запроса на одном узле.

Это глубоко технический текст, в котором мы увидим, как (1) три родственных движка (Impala, StarRocks и Doris) с трудом справляются с конкурентной нагрузкой, (2) разработчики StarRocks и Doris затачивают дефолты своих движков под бенчмарки, (3) Trino реализует эффективный шедулер запросов, но имеет ряд дефектов, ухудшающих производительность, (4) Presto строит хорошие планы запросов, но демонстрирует катастрофически плохую производительность из-за отсутствия буквально одной фичи. Ну а победит, конечно, наш движок CedrusData.

Хочу, чтобы подгорело

+19

vorloff87 16 окт в 07:00

И в дождь, и в снег: как мы детектируем загрязнения на лидарах автономного транспорта

Простой

10 мин

8.4K

Блог компании ЯндексРобототехникаМашинное обучение * ТранспортАлгоритмы *

Ретроспектива

Всем привет, меня зовут Всеволод Орлов, я работаю в команде восприятия мира в направлении автономного транспорта Яндекса. Сегодня я хочу рассказать про то, как мы учились определять степень загрязнения лидара — лазерного сенсора, установленного на наших автономных автомобилях и грузовиках. Тема, актуальная всегда, но особенно в российских погодных реалиях осени, зимы и весны. Расскажу, почему даже малейшее загрязнение лидара — проблема, почему эту проблему не так просто решить и какие есть подходы к этому решению, а в конце поделюсь нашими результатами.

+33

Andrey-82 14 окт в 12:09

Рендеринг трёхмерных фрактальных множеств: от губки Менгера до Мандельбокса, часть 2

Сложный

10 мин

10K

Блог компании Сбер3D-графика * Математика * Алгоритмы *

Туториал

Привет, Хабр!

Меня всё также зовут Андрей Гринблат, и в первой части я начал рассказывать о такой технологии, как ray marching, и о нормированных пространствах. В этой части начнём с построения простых геометрических фракталов — губки Менгера и тетраэдра Серпинского, затем построим IFS-фракталы, рассмотрим технику орбитальных ловушек, и в завершение построим фрактал «Ящик Мандельброта», или Мандельбокс.

+52

1 2 3 4 5

7 8 ...

321 322

Алгоритмы *

Чем вообще занимается человечество?

Передовые алгоритмы глубокого обучения

Создание интерактивного макета. Упаковка кругов в квадрат и прямоугольник. Жадный алгоритм

Как RuStore читает мысли пользователей (и причём тут теги)

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Балконы и полигоны: как мы разметили 12 000 квартир для генерации 3D-туров

Решение проблемы двойного букинга: паттерны проектирования систем

Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов. Часть 2

Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели

EvoPress: новый подход к оптимизации и сжатию LLM от исследователей Яндекса

RL (RLM): Разбираемся вместе

Задачи по алгоритмам: избавляемся от анаграмм

Почему файлы стали меньше: форматы фото и видео (JPEG, HEIC, AV1)

Ближайшие события

Придумал расширение для Chrome и устранил шахматных читеров

Этические аспекты использования искусственного интеллекта в промышленности

[Алгоритмы, Задачки] Элегантно и идиоматично обходим двоичное дерево поиска на Python 3

GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

И в дождь, и в снег: как мы детектируем загрязнения на лидарах автономного транспорта

Рендеринг трёхмерных фрактальных множеств: от губки Менгера до Мандельбокса, часть 2

Вклад авторов