Обновить

Моя лента

Тип публикации
Порог рейтинга
Уровень сложности
Предупреждение
Войдите или зарегистрируйтесь, чтобы настроить фильтры
Новость

AI-диджей Spotify иногда не понимает даже простые музыкальные запросы

Время на прочтение2 мин
Охват и читатели5.6K

AI-диджей Spotify задумывался как умный помощник, который подбирает музыку и реагирует на голосовые команды пользователя. Но один из пользователей решил проверить, насколько хорошо система понимает классическую музыку — и эксперимент закончился неудачей.

Проблема начинается с того, что большинство цифровых музыкальных сервисов изначально проектировались под поп-музыку. Метаданные треков обычно строятся вокруг трёх полей: исполнитель, альбом и песня. Для современной популярной музыки этого достаточно, но для классической традиции — нет.

Классические произведения часто состоят из нескольких частей. Например, Седьмая симфония Бетховена включает четыре последовательных движения, которые обычно исполняются в строгом порядке. Однако в Spotify такие произведения часто разбиваются на отдельные треки без чёткой связи между ними.

Читать далее
Статья

Как отменить или откатить коммит в Git командами reset, revert и restore

Уровень сложностиСложный
Время на прочтение6 мин
Охват и читатели11K

Всем привет!

Если вы работаете с Git относительно недавно, почти наверняка у вас возникала потребность в отмене коммита. И, что печально, вы быстро поняли, что простого "откатить все назад" нет.

Где-то советуют git reset, где-то - git revert, а в третьих и вовсе пишется про checkout. По тому же правилу летят restore, amend, reflog и куча технологических формулировок, требующих знания git и после которых становится только сложнее, нежели понятнее.

На самом деле все это объясняется: под словами "отменить commit" можно иметь в виду совершенно разные действия, и мы разберем, для каких случаев, какая команда подходит.

Читать далее
Пост

Как мы ушли от всем известного способа градиентного спуска

Продолжаю дневник разработки "Суперраспознавалки" для демо/пилота. День третий. Основная задача: настроить TAPe-модель на датасет типа COCO под задачу detection. Вторая - дать клиентам возможность добавлять собственные классы к уже существующим. Ну и далее, при необходимости, полная адаптация модели под конкретного заказчика. Поскольку у нас есть Теория активного восприятия с ее методами, на выходе заказчик должен получить кратную эффективность и кратную экономию ресурсов.

В первые два дня настраивали базовую струтуру сегментации, детекции и классификации. Модель решает задачи на обучении уже 115 тыс параметров – в отличии от YOLO, которой мало 2 млн + параметров.

Начало здесь

Второй день здесь

Про архитектуру TAPe+ML здесь

Тут сравнение трех десятков кодировок в задаче сегментации видео в DBSCAN (включая ViT, DINO) с TAPe

День 3

Сегодня занимаемся исправлением количества ложных срабатываний. Проблема ложных срабатываний в целом в том, что мы смотрим в первую очередь на текстуру изображения (из-за особенностей методов TAPe). Поэтому приходится прибегать к менее-обычным способам для обучения разделения между текстурой заднего плана (в каком-либо виде, будь это снег, или трава) и текстурой самого объекта.

Сейчас эта проблема решается условно через определенные движения области сбора данных для выявления текстур, которые, возможно, не были найдены в области, расположенной стандартным способом (то есть начальным разбиением изображения на патчи). Это позволяет сильно уменьшить количество ложных срабатываний.

На данный момент времени около 220 объектов срабатывают без ложных срабатываний в целом. Проблема происходит только в изображениях с большим количеством маленьких деталей по типу гравия, или же травы, при этом не уменьшая общее количество правильных нахождений.

В целом, здесь помогают стандартные ML-подходы по типу увеличения батчей, чтобы сгладить ошибки. Были эксперименты с проведением аугментаций, которые не привели к улучшению результатов: большая часть аугментаций просто повторяют уже существующие данные.

Также начали эксперименты с добавлением цветовых каналов. Однако проведенные эксперименты с цветами в простой схеме объединения features по каналам не дало желаемых результатов: даже с greyscale мы забираем столько информации, что цветовая гамма по большей части их просто дублирует. Это приводит к тому, что модель опирается слишком сильно на общие черты, не “видя” при этом выдающиеся черты разницы цвета. Что в то же самое время может и являться хорошей фичей, а не багом, потому что через разницу в текстуре мы, по идее, должны найти разницу в любом случае (если это реальное изображение). Поэтому мы не полагаемся в решении на конкретную задачу, где цвет более релевантен, а полагаемся на общее решение детекции в целом.

Также на заднем плане были закончены эксперименты с разными архитектурами (эксперименты продолжались параллельно несколько дней). Нашли самую лучшую архитектуру на данный момент (самая логичная по её смыслу, как нам кажется). Тут без подробностей, но мы ушли от всем известного способа градиентного спуска, что позволяет нам после тренировки модели прийти к глобальному минимуму решения (или к чему-то очень близкому к этому – всё равно есть зависимость от задачи).

Мы собираем данные из патчей определенным образом, объединяем их в общее описание, а затем уже классифицируем конкретно эти объединения по тому, есть там объект или его нет. Классификация происходит за счет общих описаний каждого класса, который модель видит - и не тренируется отдельно, потому что исходит натурально из первичной тренировки векторов, а затем сводится к одному описанию через k-means.

В результате выходит модель с очень малым количеством ложных срабатываний – с которыми, впрочем, мы все равно боремся. Плюс есть некие проблемы центровки, так что скорее всего количество параметров увеличится. Но все равно, модель работает чрезвычайно быстро. Тренировка как таковая проходит на CPU (так проще).

Теги:
0
Комментарии0
Статья

Анатомия фишинг-кита: полиморфный CSS, гомоглифы и инфраструктура на 290+ доменов

Время на прочтение6 мин
Охват и читатели6.3K

Разбираем реальный инцидент — от фишинговой ссылки до bulletproof-хостинга. IOC, техники обфускации и инфраструктура кампании на 290+ доменов.

Читать далее
Статья

Хлеб на закваске как управляемый процесс

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели11K

Привет, Хабр!

Меня зовут Екатерина, и в ЮMoney я живу процессами: превращаю хаос в предсказуемую систему. Но есть место, где системам, казалось бы, не место — домашняя кухня. Я старший менеджер проектов, а моё хобби — выпечка хлеба на закваске.

Однажды поймала себя на мысли: «Я пеку хлеб так же, как управляю сложными проектами — с контрольными точками и анализом результатов». В статье расскажу, как процессный подход помогает печь идеальный каравай и почему это работает не только в офисе.

Читать далее
Статья

Прямая трансляция во Flutter через WebCodecs: как пришлось написать свой декодер

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели5.3K

Когда live-видео приходит как сырой H.264 поток через WebSocket, стандартные Flutter-плееры перестают работать.

В этой статье я разбираю, почему готовые решения не подошли и как я пришёл к необходимости реализации собственного декодера на C++ с использованием FFmpeg.

Читать далее
Статья

Головоломка «Создай головоломку» из университетского квеста

Время на прочтение4 мин
Охват и читатели5.6K

Создай головоломку — одно из интересных заданий игры Puzzle Hunt Мельбурнского университета 2016 года, в котором участникам предлагалось примерить на себя роль автора головоломки. Эта игра представляет собой ежегодный квест, цель которого — первыми обнаружить «сокровища», спрятанные где‑то на территории кампуса. Задания игры не содержат инструкций. Вместо этого участникам дается сюжет, который постепенно развивается, и в который встраиваются головоломки. Ответом на задание является слово или словосочетание. Таким образом, если решением головоломки является нечто иное, то должен существовать какой‑то способ, как получить из него слова. Завершает игру мета‑задание, в котором требуется некоторым образом скомбинировать все решения предыдущих заданий, чтобы получить финальный ответ, ведущий к расположению «сокровищ». Впервые этот квест организовал в 2004 году основатель Wikileaks Джулиан Ассанж. Задание «Создай головоломку» было частью третьего акта игры, а составил его Мухаммад Адиб Сурани (который помимо этого является автором заданий Mr. Game & Watch и Параллельные измерения, а также статьи Руководство к MUMS Puzzle Hunt).

Читать далее
Статья

Как создатель первой веб-камеры был вынужден продать все свои разработки: история Connectix

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели19K

Connectix за время своего недолгого существования создала первую в мире массовую веб-камеру, заложила основу части современных IT-технологий и выиграла знаковое судебное дело, которое определило правила для индустрии эмуляции. Но ни одна из этих побед не спасла бизнес — каждый успешный продукт приходилось продавать более крупным игрокам, а компания в итоге прекратила существование. Рассказываем историю Connectix Corporation и почему она пришла к концу.

Читать далее
Статья

ИИ в образовании: заменят ли нейросети репетиторов и преподавателей

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели7.6K

Представьте картину маслом: вторник, восемь вечера. Петя, ученик 9-го класса, тупит над квадратным уравнением. Рядом нет репетитора (дорого), родители заняты. Петя открывает ноутбук, заходит в ChatGPT и пишет: «Объясни квадратные уравнения просто, как будто мне 12». Через минуту он получает три разных способа решения, шутку про квадрат и контрольный пример для тренировки. Бесплатно.

А теперь представьте Марию Ивановну, учительницу математики с 30-летним стажем, которая в это же время проверяет тетради и случайно находит у Пети идеально решенную работу. Только вот почерк не Пети, а цифровой.

Вопрос, который мучает Марию Ивановну, Петю, его родителей и инвесторов Кремниевой долины: если нейросети уже умеют объяснять, решать и даже проверять, то зачем через пять лет вообще нужны живые учителя и репетиторы?

Паниковать начали не вчера. Еще в 2023 году исследование Walton Family Foundation показало, что больше половины американских студентов (51%) уже вовсю пользуются ChatGPT для учебы. Учителя тоже не отстают - каждый третий признался, что нейросеть помогает им составлять планы уроков. Российская Вышка докладывает: 2/3 преподавателей хотя бы раз ловили студента на работе, написанной нейросетью. Но те же 40% педагогов считают, что запрещать ИИ бесполезно, надо учить им пользоваться.

Пока чиновники и академики спорят о регулировании, рынок делает свое дело. В приложения вроде Photomath или Socratic от Google льются большие деньги. Идея идеального репетитора, который никогда не устает, не злится и стоит как подписка на кофе, звучит слишком соблазнительно.

Читать далее
Статья

Как из viewer для OpenClaw выросла мобильная консоль для сервера

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели7.3K

OpenClaw предлагает общаться с агентом через мессенджеры, но для управления сервером нужен полноценный интерфейс.

Читать далее
Новость

Учёные создали велоробота, который может ехать на высокой скорости и преодолевать препятствия

Время на прочтение1 мин
Охват и читатели12K

Учёные создали робота в виде велосипеда, который может двигаться на высокой скорости, успешно преодолевая препятствия, пишет Interesting Engineering.

Читать далее
Статья

Эволюция Хаоса, приквел

Уровень сложностиПростой
Время на прочтение19 мин
Охват и читатели7.2K

СЕЗОН 0. КОД ВЫЖИВАНИЯ
Эпизод 1. Термодинамика распада

Просторная, залитая мягким неоновым светом лаборатория гудела, как пчелиный улей. Вдоль одной из стен ритмично шуршала ферма из десятка кастомных 3D-принтеров. Они работали круглосуточно, печатая сложные композитные детали для черного рынка и принося Алексу более чем солидный доход. В центре комнаты возвышалась серверная стойка с топовым железом, собранным по крупицам через серые каналы. Алекс создал для себя настоящий технологический рай, автономную крепость посреди гниющего мегаполиса.

Но на огромном изогнутом мониторе реальность все равно прорывалась внутрь. Диктор с идеально синтезированным лицом вещал монотонным, гипнотическим голосом:

«...глобальная коалиция продолжает операции по стабилизации. Распад сопредельных территорий на карантинные зоны признан необходимой мерой для нашей с вами безопасности. Как заявил министр...»

Алекс небрежно смахнул окно трансляции с экрана.

— «Стабилизация», — процедил он, откидываясь в дорогом эргономичном кресле. — Они даже не пытаются договориться. Каждое правительство сейчас делает одно и то же: отправляет военных с промытыми мозгами крошить чужие страны на куски. Их логика примитивна до тошноты: давайте устроим глобальный пожар везде, чтобы на фоне этого мирового хаоса наша собственная гниющая помойка казалась островком стабильности.

Елена сидела на широком подоконнике, потягивая кофе и глядя сквозь щели в умных жалюзи. На улице было серо. Низкое свинцовое небо давило на типовые бетонные коробки, по улицам брели ссутулившиеся, похожие на тени люди.

Читать далее
Новость

В Linux предложены патчи, убирающие возможность сборки IPv6 в форме модуля ядра

Время на прочтение1 мин
Охват и читатели13K

Разработчик Фернандо Фернандес Мансера из компании SUSE предложил для включения в ветку linux‑next, на основе которой формируется функциональность ядра Linux 7.1, серию патчей, убирающих возможность сборки стека IPv6 в форме модуля ядра.

Читать далее

Ближайшие события

Новость

ИИ взломал ИИ: агент CodeWall вскрыл чат-бот McKinsey за два часа через баг из 90-х

Время на прочтение2 мин
Охват и читатели7.5K

Стартап CodeWall натравил автономного ИИ-агента на внутреннюю ИИ-платформу McKinsey & Company под названием Lilli — и за два часа получил полный доступ к ее продакшн-базе данных. Без учетных данных, без инсайдерского доступа и без участия человека в процессе. Агент сам выбрал McKinsey в качестве цели, обнаружив на HackerOne публичную политику ответственного раскрытия уязвимостей и свежие обновления платформы. Lilli — это корпоративный ИИ-чат-бот для 43 000 сотрудников: поиск по 100 000 внутренних документов, анализ файлов, RAG поверх десятилетий исследований McKinsey. Платформой пользовались более 70% сотрудников, она обрабатывала свыше 500 000 промптов в месяц.

Читать далее
Статья

Лифт не знает, куда ехать. И это лучший алгоритм, который мы придумали

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели31K

Вчера я 4 минуты стоял в подъезде и смотрел, как два лифта одновременно поехали вверх. Все два. На табло — 12, 15, 18. Я на первом. Мне на шестой. И я подумал: вот я кучу лет пишу софт, оптимизирую запросы к базе данных, кеширую всё что движется — а эти две коробки на тросах не могут разобраться, кто из них должен спуститься за мной.

Потом я погрузился в тему. И выяснил, что они не «не могут разобраться». Они математически не способны найти идеальное решение. Вообще никто не способен. Задача диспетчеризации группы лифтов — NP-трудная. То есть буквально: не существует алгоритма, который гарантированно найдёт оптимальный маршрут за разумное время.

И вот уже 60 лет лучшие инженеры мира решают эту задачу эвристиками. По сути — догадками.

Читать далее
Новость

Прорыв в робототехнике: AI2 создал роботов, обученных только в симуляции

Время на прочтение1 мин
Охват и читатели7.4K

Исследователи из AI2 разработали роботов, которые успешно работают в реальном мире без предварительного сбора данных из физической среды.

Читать далее
Новость

Peacock расширяет свою деятельность в области ИИ-видео, спортивных трансляций с мобильных устройств и игр

Время на прочтение2 мин
Охват и читатели6.7K

Стриминговый сервис Peacock, принадлежащий NBCUniversal, делает серьёзную ставку на мобильные развлечения и искусственный интеллект. По итогам пресс-мероприятия, прошедшего в марте 2026 года, стало понятно: приложение скоро будет напоминать нечто среднее между TikTok, казуальной игровой платформой и классическим стриминговым сервисом.

Читать далее
Статья

8 уровней агентной инженерии

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели12K

Способности AI в написании кода растут быстрее, чем наше умение этими способностями пользоваться. Поэтому рост баллов на SWE-bench не коррелирует с метриками продуктивности, которые волнуют инженерных руководителей. Когда команда Anthropic выкатывает продукт вроде Cowork за 10 дней, а другая команда не может довести до ума сломанный POC на тех же моделях, разница в одном: первые закрыли разрыв между возможностями моделей и практикой, вторые — нет.

Этот разрыв не закрывается за одну ночь. Он закрывается по уровням. Их 8. Большинство читающих эту статью, скорее всего, уже прошли первые несколько, и стоит стремиться к следующему, потому что каждый новый уровень — это резкий скачок производительности, а каждое улучшение моделей усиливает этот эффект ещё больше.

Читать далее
Новость

YouTube развернул на ТВ непропускаемую рекламу до 30 секунд

Время на прочтение1 мин
Охват и читатели7.9K

Видеохостинг YouTube развернул на смарт-телевизорах непропускаемые рекламные ролики продолжительностью до 30 секунд. Рекламу в формате VRC Non-skip запустили со 2 марта 2026 года. Теперь рекламодатели могут получать доступ к новой рекламе и размещать её в этом формате.

Читать далее
Новость

ChatGPT помог айтишнику создать вакцину от рака для собаки — опухоль уменьшилась на 75%

Время на прочтение2 мин
Охват и читатели9.9K

Австралийский предприниматель Пол Конингем, специалист по машинному обучению с 17-летним стажем, использовал ChatGPT, AlphaFold и собственные алгоритмы, чтобы спроектировать персонализированную мРНК-вакцину от рака для своей собаки. Опухоль уменьшилась на 75% за месяц — ученые называют это первой в мире персональной противораковой вакциной, созданной для животного.

Читать далее