Как стать автором
Поиск
Написать публикацию
Обновить
762.8

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

В два раза лучше ChatGPT o3. Представлен Grok 4

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров20K

Компания xAI представила свои новые ИИ‑модели — Grok 4 и Grok 4 Heavy, в котором несколько агентов работают над проблемой параллельно. По утверждениям xAI, это позволило добиться значительного роста в производительности.

Читать далее

Midjourney Video: как превратить картинку в видео в 2025 году?

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров6.3K

Казалось бы, только мы отдохнули от разбора второй волны нейросетей для генерации видео, как без объявления войны выходит она. Midjourney, та самая платформа, которая годами оставалась в стороне от видео-движухи, делает свой первый аккуратный, но амбициозный шаг. Встречайте: Midjourney Video V1, первая версия анимации, встроенной прямо в интерфейс.

Сегодня расскажем, как работает новая функция, что там с платформой и ценообразованием, чем отличаются режимы движения, и, конечно, как писать грамотные промпты для этой нейросети.

Приятного чтения!

Читать далее

Need for speed: оценка ошибок измерений в футбольной аналитике. Часть 1

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров5.9K

Привет! Меня зовут Артем, и я занимаюсь разработкой систем компьютерного зрения в сервисе Яндекс Спорттех. Среди основных задач нашей команды — футбольная аналитика и работа со статистическими данными.

Яндекс Спорттех обеспечил интеграцию технологических решений в РПЛ — все стадионы участников чемпионата были оборудованы камерами 6К, для клубов организована передача в режиме онлайн фитнес-данных и продвинутых данных на стыке технико-тактических действий. С помощью современных методов компьютерного зрения мы осуществляем детекцию игроков и мяча, ведём их трекинг, а также вычисляем различные ключевые спортивные метрики — пройденные дистанции, максимальные скорости, спринты и рывки, а также экстренные торможения и другие фитнес-показатели, важные как для аналитиков, так и для тренеров и поклонников игры.

В этих двух статьях мы подробно рассмотрим, почему точное измерение скорости движения и пройденной дистанции игроков критически важно для качественного анализа футбольных матчей. Расскажем, почему любые систематические ошибки и неточности могут весьма существенно исказить выводы и рекомендации для тренерского штаба и аналитиков. 

А ещё поделимся нашим опытом, расскажем о типичных источниках ошибок, возникающих при расчёте скорости и пробега, и опишем подходы, которые позволяют уменьшить их влияние. 

Читать далее

Как мы улучшили режим ночной съемки в планшетах KVADRA_T

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.8K

Привет, Хабр! На связи Полина Лукичева, инженер команды AI ML Kit в компании YADRO. В первой статье я рассказала о проблемах режима ночной съемки и методах их решения. Сегодня перехожу к практике — проведу предметное сравнение алгоритмов, выберу наиболее подходящие и покажу, как они работают в реальных условиях на планшетах KVADRA_T.

Для наших заказчиков качественные снимки в условиях низкой освещенности — рабочая необходимость. Планшет поможет снять показания со счетчика в темном подвале или сфотографировать паспорт клиента в коридоре с минимальными шумами и максимальной четкостью.

Читать далее

На пути к эмоциональному искусственному интеллекту

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2K

Привет, Хабр. Меня зовут Андрей Савченко, я научный директор Sber AI Lab. Когда речь заходит про эмоциональность и принятие решений у ИИ, нужно задать себе вопрос: «А как это устроено у людей?» Наверняка почти каждый из вас ответил бы, что он принимает решение рационально, а остальные, зачастую, иррационально. 

Нейропсихологи проводили исследования и выяснили, что большинство решений люди принимают эмоционально. С одной стороны, это экономит ресурсы мозга, а с другой — позволяет быстрее принимать решения. И поэтому очень важно учитывать нашу эмоциональность при взаимодействии с другими и при создании имитации людей или сообществ с помощью современных генеративных моделей. Условно это можно назвать эмоциональным искусственным интеллектом.

Читать далее

Google I/O 2025: Gemini, Google Beam, умные очки и другие ключевые анонсы

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.9K

В мае этого года прошла конференция Google I/O 2025, где компания представила целый ряд технологических новинок и обновлений своих флагманских продуктов. В этой статье подробно пройдёмся по ключевым анонсам мероприятия.

Читать далее

Скучная правда про LLM: эффект дают не громкие слова, а простые сценарии с очевидной ценностью

Время на прочтение6 мин
Количество просмотров7.8K

Привет, Хабр! Вы, наверное, часто слышали, как топы западных ИТ-компаний хвалятся: «Сейчас внедрим LLM вместо сотрудников и будем только смотреть, как за нас работают видеокарты». Спешу вас расстроить — к сожалению (или к счастью), этого не случится.

Меня зовут Павел Бабин, я CPO облачной платформы MWS GPT — сервиса, через который можно работать с open source LLM и моделями от МТС. В этом материале по мотивам моего доклада с True Tech Day я расскажу, что реальное применение LLM не такое крутое, как кажется по новостям, пестрящим заголовками типа «новая супер-мульти-гига-мега-агентная система сделает все за вас». На самом деле кейсы, которые дают заметные бизнес-эффекты, начинаются с простых вещей. Я приведу несколько таких примеров без сложных пайплайнов и кастомных моделей, но с понятной ценностью.

Читать далее

Вот так подкрути геймификацию и мотивация болеть не будет

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров8K

В учебнике обществознания за 9 класс есть определение экономики как науки: «Экономика — наука о том, как люди удовлетворяют свои постоянно растущие потребности в условиях ограниченности ресурсов». Точно так и в разметке — нам нужно удовлетворить свои постоянно растущие потребности в объёмах и качестве разметки, а бюджет ограничен. Помочь нам в этом может система мотивации.

Привет! Меня зовут Кузнецов Роман. Я занимаюсь разметкой и модерацией данных в Альфа-Банке. В этой статье хочу поднять извечную задачу — как мотивировать разметчиков делать много и качественно, но при этом за те же деньги (вместо разметчиков поставьте своё). Расскажу, как мы в банке нематериально мотивировали ребят, ввели геймификацию и даже повысили их творческую активность!

Читать далее

Опыт миграции DWH и сложности, которые при этом возникают

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.5K

Привет, меня зовут Владимир, я работаю во Flocktory дата-инженером и расскажу о том, как мы в процессе переезда с одного облака на другое построили фиче-стор, управленческую отчетность и о проблемах, с которыми мы столкнулись.

В 2022 году у нас появилась задача — нужно было перебраться на новое облако, перетащить порядка петабайта данных и начать использовать новые инструменты. И на фоне этого были еще две задачи:

Читать далее

Топ LLM для задач text‑to‑SQL: результаты теста DeepSeek R1-0528, Gemini 2.5 Pro, o3 (и ещё трёх моделей)

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров5.7K

В первой части мы разобрали теорию text‑to‑SQL: как LLM заменяют разработчиков, почему RAG и CoT спасают от галлюцинаций и зачем Scale AI дообучает ChatGPT-4. Но теория неполна без практики! В этом материале — жёсткое тестирование моделей (ChatGPT o3-mini‑high, ChatGPT 4.1, Claude Sonnet 4, ChatGPT o3, Gemini 2.5 Pro, DeepSeek R1–0528) на бенчмарке LiveSQLBench.

6 моделей, 10 задач, сложность от ★★ до ★★★★★★★★★★. Проверим, как они считают лунные помехи, генерируют SQL для криптобирж и ищут артефакты в музеях.

Читать далее

Современные подходы «из текста в SQL»: RAG, CoT и другие хитрости

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров4.8K

Как превратить текст «Сколько было продано камер в прошлом месяце?» в осмысленный SQL‑запрос? Это и есть задача text‑to‑SQL (ее ещё называют NL2SQL). Для многих компаний сейчас очень важна возможность задавать вопросы к данным обычным языком, без изучения SQL. Для этой задачи написаны десятки инструментов, но суть одна — генерация корректного запроса из фразы на человеческом языке.

Требование проясняется примером: бизнес‑пользователь хочет узнать: «Какие топ-5 товаров по выручке за вчерашний день?» — а система превращает это в SELECT product, SUM(revenue) ... LIMIT 5 и выдаёт результат. До недавнего времени требовались сложные пайплайны или ручное кодирование, а сейчас на сцене — большие языковые модели (LLM) и всякие прокачанные методы достучаться до них.

В этой статье мы пробежимся по ретро‑ и ультрасовременным подходам к text‑to‑SQL. Плюс обзору добавим практических инсайтов.

Читать далее

KoboldCpp — нейросеть для развлечений и работы у нас дома

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров12K

Представьте, что вы развернули у себя дома полноценную языковую модель — не платного чат-бота из облака с его фильтрами, задержками и цензурой, а вполне безлимитную LLM, которая может быть и надёжным помощником по работе, и вашей вайфу… на абсолютно любую тему. И в 2025 году это уже работает неожиданно хорошо.

Ещё год назад за достойное ролевое общение приходилось платить подиской Character.AI или бороться с ограничениями, но теперь — всё иначе. Домашний чатбот не только не уступает по качеству, но и во многом выигрывает: всего за 5 минут можно добавить генерацию изображений, озвучку (TTS), понимание речи (STT) и полную автономность — без облаков, логов и подписок.

Читать далее

Георгий Герганов, автор llama.cpp и звукового кейлогера

Время на прочтение6 мин
Количество просмотров15K

Многие пользуются YouTube, Netflix, но не подозревают о ключевых опенсорсных программах типа ffmpeg, которые работают на бэкенде этих сервисов. Похожая ситуация с нейронками, где многие знают программу Ollama для локального запуска моделей на CPU. Но мало кто понимает, что это всего лишь простенькая оболочка вокруг опенсорсной библиотеки llama.cpp на С, которая и делает инференс. Автор этой библиотеки, талантливый разработчик Георгий Герганов, мало известен широкой публике.

Читать далее

Ближайшие события

Странная физика, которая дала жизнь искусственному интеллекту

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров8.9K

Современные «мыслящие» машины возникли благодаря открытиям в области физики сложных материалов.

Спиновые стекла могут оказаться самыми полезными из бесполезных вещей, когда-либо обнаруженных. 

Эти материалы — обычно состоящие из металла, а не стекла — демонстрируют загадочное поведение, которое заинтересовало небольшое сообщество физиков в середине 20-го века. Спиновые стекла сами по себе не имеют какого-либо практического применения, но теории, разработанные для объяснения их странностей, в конечном итоге вызвали сегодняшнюю революцию в области искусственного интеллекта. 

В 1982 году учёный, изучающий физику конденсированного состояния, Джон Хопфилд, позаимствовал теорию спиновых стёкол, чтобы построить простые сети, которые могли учиться и иметь воспоминания. Сделав это, он оживил изучение запутанных сетей цифровых нейронов, которые были в значительной степени заброшены исследователями искусственного интеллекта, — и вывел физику в новую область: изучение разума, как биологического, так и механического. 

Читать далее

Оптимизация языковой модели Mamba для выполнения на CPU

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров3.2K

Как оптимизировать модель Mamba для выполнения на CPU? Ускоряем код в 20 раз по сравнению с PyTorch, нарушая в процессе все правила оптимизации.

Читать далее

Собираем комплекс для качественного офлайн-перевода текстов, работающий на самом обычном игровом компьютере

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров5.1K

Всем привет. В последнее время перевод текстов с одного языка на другой уже не вызывает такой головной боли, как раньше: есть несколько качественных онлайн-переводчиков, есть большие нейросети, которые тоже можно попросить перевести текст, — в общем, варианты есть, их довольно много, и они выдают вполне приемлемый результат. Но у всех них есть одно ограничение: они работают онлайн (удалённо). Для кого-то это ограничение несущественно, а для кого-то может быть критично. Мне же просто захотелось иметь что-то, что сможет переводить тексты на хорошем (современном) уровне офлайн (сугубо на моём компьютере). Ну, люблю я, когда всё, что мне нужно, может работать и локально тоже. В общем, ниже я делюсь с вами тем, что мне удалось в итоге собрать, запустить и даже получить удовлетворяющий меня результат.

Читать далее

Я построил Vision Transformer с нуля — и научил его обращать внимание

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5.7K

В этой статье я не просто объясню, что такое ViT — я покажу вам, как создать эту магию своими руками, шаг за шагом, даже если вы никогда раньше не работали с трансформерами для задач с изображениями.

Читать далее

Llama 3.1 и «Гарри Поттер»: сколько текста действительно запоминает ИИ?

Время на прочтение5 мин
Количество просмотров6.3K

Может ли искусственный интеллект запомнить целую книгу? А если да, что это значит для авторов, издателей и самих разработчиков ИИ? Недавнее исследование от ученых из Стэнфорда, Корнелла и Университета Западной Виргинии показало, что языковая модель Llama 3.1 может дословно воспроизвести до 42% текста «Гарри Поттера и Философского камня». Это заставляет усомниться в механизмах ограничения памяти ИИ и поднимает вопросы о защите авторских прав. Дальше — как раз об этом.

Читать далее

Разбор заданий AI CTF на Positive Hack Days Fest. Часть 1

Уровень сложностиСредний
Время на прочтение31 мин
Количество просмотров2.3K

Машинное обучение применяется везде: модели советуют врачам лекарства, помогают банкам ловить мошенников и пишут код вместо программистов. Проблемы с безопасностью в таких системах могут стоить денег, данных и репутации. Поэтому с 2019 года на конференции по безопасности PHDays мы проводим отдельный AI Track, а в рамках него — AI CTF, соревнование по взлому ML-систем.

Месяц назад мы провели AI CTF 2025 и хотим рассказать, какие задания мы придумали для участников, и какие атаки на AI и ML в них нужно было провернуть. На AI CTF 2025 было 14 заданий разного уровня и тематики, и 40 часов на их решение. В первой части мы с авторами разберем 8 заданий — те, что попроще.

Читать далее

Нейросеть приближается к опыту профессионального дерматолога

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.9K

Наконец наступило лето, а с ним и пора отпусков. Уезжая на южные моря, не забывайте: большинство из нас имеет типичную для северянина кожу с пониженным содержанием меланина — пигмента, отвечающего за защиту от ультрафиолета. Если кожа отреагировала непонятным новообразованием, вызывающим опасения, теперь можно проконсультироваться с искусственным интеллектом. Он предварительно осмотрит кожу и посоветует, бежать ли ко врачу, за которым, конечно, всегда последнее слово. К слову, данная медицинская ИИ-технология, как и публикация, не является медицинской рекомендацией: диагноз ставит лечащий врач.

Читать далее

Вклад авторов