Обновить
700.92

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Кто лучше объяснит, что такое машинное обучение: ChatGPT-4o или ChatGPT-5?

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели9.1K

Все считают 5-ю версию лучше, выше, сильнее. Но есть ли разница для обычного пользователя, который не мониторит бенчмарки и микроапдейты моделей, а просто приходит поболтать с ИИ?

Мы поставили эксперимент: сравнили 4о и 5 с точки зрения обывателя, который хочет изучить ML и пришёл за пошаговым планом обучения.

Спойлер: в конце всё равно решили подключить живого специалиста.

Читать далее

Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла

Время на прочтение18 мин
Охват и читатели13K

В этой статье я сделал обзор основных векторных баз данных: Milvus, Qdrant, Weaviate, ChromaDB, pgvector, Redis, pgvectorscale, LanceDB, ClickHouse, Vespa, Marqo, ElasticSearch.

Если вы запутались в разнообразии векторных баз данных или хочется верхнеуровнево понимать как они устроены, чем отличаются и для чего вообще нужны, то эта статья будет очень полезна. Мы пошагово соберем все ожидания от векторных БД, посмотрим бенчмарки, а затем попробуем собрать все воедино.

Читать далее

Мир после трансформеров: закат и новый рассвет больших языковых моделей

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.3K

Даже если вы избегали ChatGPT и его многочисленных аналогов, то наверняка сталкивались с обработкой текстов ИИ хотя бы в поисковой выдаче. Большие языковые модели (LLM) сейчас применяют повсюду. Проблема в том, что все они построены на одной и той же архитектуре трансформеров, поэтому страдают от общих недостатков. В этой статье эксперты из лаборатории искусственного интеллекта компании «Криптонит» расскажут о существующих ограничениях LLM, наметившихся путях их преодоления и о том, какими будут следующие большие языковые модели.

Эпоха трансформеров началась стремительно, и Marvel здесь ни при чём. Исследование OpenAI «Scaling Laws for Neural Language Models» показало, что эта архитектура с механизмом самовнимания легко масштабируется. Производительность LLM предсказуемо растёт с увеличением размера модели, объёма датасетов и доступных вычислительных ресурсов, а это — залог коммерческого успеха. Поэтому в 2020-2021 начался бум развития LLM. Каждая крупная ИТ-компания хотела представить свою модель с миллиардами параметров (и получить миллиарды долларов от инвесторов).

Однако в последующей работе «Training Compute-Optimal Large Language Models» от DeepMind появилось важное уточнение: существующие модели слабо оптимизированы по отношению данных к параметрам. Поэтому при дальнейшей разработке моделей стали фокусироваться в том числе и на качестве данных, а не только на размере. 

Поначалу простое масштабирование и увеличение доли качественных датасетов в обучающих наборах действительно приводили к экспоненциальному росту возможностей LLM. Наверняка вы помните, как с каждым релизом ChatGPT умнел (а мы глупели).  

Читать далее

«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели14K

Manuscript OCR — открытая нейросеть для чтения рукописей XIX века

Мы обучили свою OCR-модель распознавать дореформенную кириллицу, нестандартные почерки и сложные сканы. Всё — на собственных данных, с нуля. В статье — как мы это сделали и ссылки на репозиторий с кодом.

Открыть рукопись

Звёзды у нас в голове. О роли астроцитов в работе нейронных сетей

Время на прочтение10 мин
Охват и читатели16K

Продолжая тему, затронутую в статье об искусственном интеллекте и здравом смысле, хочу затронуть два принципиальных, но зачастую упускаемых из виду отличия мозга от искусственной нейронной сети. Во-первых, нейронная сеть состоит исключительно из «нейронов», а мозг – из нейронов и глиальных клеток. Оставлю здесь ссылку на интересную обзорную статью о глии, которую написала на Хабре уважаемая Василиса Белокопытова @vasilisa_b. До недавнего времени считалось, что глиальные клетки играют в мозге сугубо вспомогательную роль и функционально подобны оболочке проводов, передающих сигнал. Однако свежие исследования, в том числе, с применением искусственных нейронных сетей, привлекают всё более серьёзное внимание к астроцитам. Это небольшие звёздчатые клетки в составе глии. Они взаимодействуют как с нейронами, так и с синапсами, и вопрос о том, могут ли они передавать нейронные импульсы, рассматривался на сайте N+1 ещё около двух лет назад. Подробнее об этом — под катом.

Читать далее

Длинное мышление против жёстких пайплайнов: как DeepAgent превращает рассуждение в действие

Время на прочтение4 мин
Охват и читатели8.9K

Почему ИИ-агенты в реальных задачах за пределами академических экспериментов до сих пор часто наступают на хорошо знакомые грабли: путаются в деталях, не удерживают цель при длинных рассуждениях и теряют контекст использования инструментов? 

Неожиданная идея решения проблемы пришла в недавнем исследовании DeepAgent. Кажется, что дело вовсе не в размере модели и не в промтах для ее использования. Ключом к прогрессу явилась связная логика рассуждений на протяжении всей задачи. Агент не просто каждый раз делает привычный сценарий с паузой: «обдумал-предпринял действие» - а ведет мысль по длинному связнму сценарию, сам выбирает какой памятью ему пользоваться и когда применять нужные инструменты. 

В этом обзоре: что меняется в поведении агента, когда у него появляется возможность связанно использовать различные инструменты на протяжении всей задачи, какие методы используются и как это приближает нас к по-настоящему автономному ИИ.

Читать далее

Градиентный спуск: как «слепой в лабиринте» находит выход в миллиардном пространстве — и почему это сердце любого ML

Время на прочтение3 мин
Охват и читатели7.1K

Пошаговый разбор с метафорами, формулами и лайфхаками, которые спасут ваш fit()

Привет, хабровчане! В мире ML градиентный спуск это двигатель внутреннего сгорания: он везде, он работает, но мало кто заглядывает под капот, а ведь именно он превращает случайные веса в модель, которая угадывает котиков, переводит тексты и генерирует картинки.

Вы запускаете model.fit() - и через 100 эпох у вас есть результат, но как именно нейросеть «находит выход» из хаоса параметров? Почему иногда она перепрыгивает минимум, а иногда зависает в тупике? И как настроить learning_rate, чтобы не ждать до пенсии?

Полный разбор с нуля, с формулами и примерами. Давайте разберём по полочкам, чтобы было понятно даже новичку.

Читать далее

Итоги презентации «Алиса, что нового?»: Алиса AI, агенты и носимые устройства с нейросетями

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели15K

Мы побывали на презентации «Алиса, что нового?», на которой Яндекс представил новые нейросетевые функции. Показали универсальную нейросеть Алиса AI, которая доступна не только в чате, но и в браузере, и скоро появится в носимых устройствах. В этой статье рассказываем обо всех анонсах.

Читать далее

Ловим «взрослые» сцены на видео: как ИИ помогает редакторам

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели8.8K

Поводом для написания этой заметки стало обсуждение на недавнем отраслевом мероприятии задач мультимодерации контента: как быстро и надёжно находить «взрослые» сцены в длинных видео и автоматически подсвечивать фрагменты для ручной проверки. Похожие кейсы регулярно встречаются и в открытых соревнованиях по ИИ (например, в подборке задач Wink AI Challenge на Codenrock).

Читать далее

Магнитные материалы под прицелом искусственного интеллекта

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели6.5K

Международный коллектив ученых разработал новый метод параметризации машинно-обучаемых межатомных потенциалов для моделирования магнитных материалов, значительно повышающий надежность и точность предсказаний их свойств. Ключевым элементом нового подхода стало использование так называемых «магнитных сил» при обучении моделей межатомных взаимодействий. Статья опубликована в Computational Materials Science.

Читать далее

Как мы вырастили ML-фреймворк внутри компании: эволюция, ошибки и инсайты

Время на прочтение15 мин
Охват и читатели5.7K

Привет, Хабр! Меня зовут Юля Корышева, я разработчик машинного обучения в команде скоринга в билайне. В этой статье расскажу, как за последние пять лет в нашей команде менялся подход к разработке, валидации и поддержке моделей — с какими вызовами мы столкнулись, как их решали и к каким результатам пришли.

Читать далее

Momentum Attention: когда внимание получает инерцию

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели8.5K

Внимание в трансформерах не имеет памяти между шагами, что ведет к нестабильным градиентам. Решение Momentum Attention, где текущие Value векторы смешиваются с предыдущими через экспоненциальное скользящее среднее. Этот подход добавляет инерцию, стабилизируя фокус модели. Внутри разбор механики, корректный код на PyTorch и анализ трейд оффов

Читать далее

Делаем свой ChatGPT за 10$ в месяц: разворачиваем LLM на облаке. Подробный гайд на VPS + API-обертка

Время на прочтение13 мин
Охват и читатели22K

Еще недавно поиск в Google или Яндекс был главным инструментом инженера. Сегодня все изменилось: AI-помощники вроде ChatGPT, Gemini или Claude, понимающие запросы на естественном языке, кардинально меняют подход к работе. Однако их использование упирается в серьезные преграды: вопросы конфиденциальности корпоративных данных, географические блокировки и лимиты бесплатных тарифов стали новой головной болью.

Что, если получить все преимущества мощной языковой модели, но без этих недостатков? Решение — развернуть собственную модель на своих серверах. Эта статья —практический гид по созданию автономного чат-бота, который не уходит в облако, работает без интернета и полностью защищает данные. Я пройду путь от теории до работающего локального прототипа.

Читать дальше

Ближайшие события

Как мы в Авито сделали свою LLM — A-vibe

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели18K

Всем привет! Меня зовут Анастасия Рысьмятова, я руковожу юнитом LLM в Авито.
В этой статье я расскажу, как мы с командой создали и адаптировали нашу большую языковую модель A-vibe: зачем решили развивать собственную LLM, как построили токенизатор, собрали датасеты, провели SFT и RL и что получили в итоге. Поделюсь основными экспериментами и покажу наши результаты.

Читать далее

Краткая история машинного зрения: как инженеры научили компьютер переводить изображения из 2D в 3D

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели10K

Еще на заре создания машинного зрения возникло желание превратить изображение на фотографии из плоского двумерного в объемное трехмерное, тем более что для классической фотографии на пленке, пластике или бумаге уже давно были изобретены стереоскопы и демонстрировались стереофильмы.

Пионером в этой области стал инженер-электронщик Лоуренс (Ларри) Робертс из Лаборатории Линкольна Массачусетского технологического института. Потом он перешел на работу в Агентство перспективных оборонных исследовательских проектов МО США, где стал руководителем программы ARPANET и ныне входит в почетный список «пионеров Интернета». Но в его альма-матер, MIT, Ларри Робертса упрямо называют «отцом компьютерного зрения», потому что именно у них он в июне 1963 года защитил диссертацию на степень PhD по теме «Машинное восприятие трёхмерных тел».

Читать далее

Почему слова мешают ИИ-агентам понимать друг друга

Время на прочтение5 мин
Охват и читатели7.8K

ИИ-агенты становятся все умнее и сообразительнее, но почему, когда собирается команда из агентов, возникает неразбериха и неожиданные ошибки? Если агенты уже умеют рассуждать индивидуально, почему они продолжают спорить по простым вопросам и ошибаться там, где не споткнулся бы человек?

Новое исследование подсказывает неожиданный ответ: проблемы командной работы ИИ могут исходить не только от интеллекта модели, но и от языка, используемого для общения между собой. Оказывается, язык является узким горлышком, из-за которого сообщения теряют часть смысла, что затрудняет понимание ИИ друг друга. Исследование предполагает радикально иное решение: что, если бы ИИ делились своими мыслями напрямую, используя язык, отличный от человеческого?

Далее мы обсудим, почему текстовое общение не позволяет ИИ понять друг друга, как другой язык может помочь и почему этот «язык мыслей» не фантастика, а реальность, которую мы можем реализовать сегодня.

Читать далее

LLM как резонансно-голографическое поле смыслов

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели8.2K

Ок. Я задаю LLM один и тот же вопрос в разных формах. И этот статистический производитель ответов, архив человеческих знаний, даёт ответы, которые иногда кажутся удивительно новыми, а иногда вторичными и банальными.

Хабр говорит, что LLM не способна к новизне и творчеству. Пожалуй, соглашусь.
Хабр видит в ней искры нового разума. Пожалуй, соглашусь.

Проблема в том, что люди пытаются анализировать LLM как объект сам в себе, не до конца понимая, что такое LLM. Эта статья утверждает: вопрос не в том, что LLM знает или умеет, а в том, чем она является.

Читать далее

Умный Learning Rate Scheduler: Управляем скоростью обучения, анализируя ускорение

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели9.9K

Классический ReduceLROnPlateau снижает скорость обучения, когда уже поздно модель упёрлась в плато.

Я покажу, как сделать шедулер, который замечает замедление заранее, анализируя ускорение улучшений.

Читать далее

Как ИИ-агенты научились писать аналитические отчёты не хуже профессиональных аналитиков

Время на прочтение4 мин
Охват и читатели9.2K

Сегодня ИИ-системы, генерирующие длинные тексты, оперируют сложными понятиями и красиво структурируют материал, но загляните в документы, которые готовят для реального бизнеса или инвесторов. Вы готовы использовать или вложиться в то, что рекомендует ИИ? Оправдывает ли красивый текст потерю деталей, отсутствие ссылок на источники или объяснения каждого утверждения? На практике у многих моделей хорошо получается именно красивая подача, но страдает содержимое. Эффектная обертка — это завуалированный метод обмана пользователей.

Новое исследование делает неожиданный вывод: для достижении высокого качества текстов важна не столько конструкция модели или количество параметров, сколько тщательно продуманная система рассуждений и выполнение кода со специализированными инструментами на каждом этапе. Когда подготовка отчёта разделена между разными агентами, которые используют не только текстовые, но и специализированные инструменты (например, код, визуализацию и сбор информации), то отчёты получаются более осмысленными. При таком подходе ИИ обгоняет другие системы и даже, порой, опытных людей.

В этой статье мы рассмотрим, как мультиагентная система с исполнением кода учится собирать информацию, анализировать её, строить графики и писать содержательные отчёты, где каждая цифра, слово и выводы подтверждены данными и их анализом. Как ИИ может стать не просто писателем, а именно исследователем и помощником в сложных задачах.

Читать далее

Долгая дорога к DiT (часть 2)

Уровень сложностиСредний
Время на прочтение20 мин
Охват и читатели13K

Первая треть пути преодолена и совсем скоро мы создадим генератор картинок на целиком на архитектуре трансформеров. Но перед тем как совершить финальный скачок к Diffusion Transformers (DiT) нам сначала надо научиться работать с готовыми датасетами и освоить генерацию изображений "простым" способом - через MLP-ResNet. Статья является прямым продолжением первой части, так что советую сначала ознакомиться с ней, чтобы понимать откуда всё началось. Будет много про работу с датасетами.

И вообще статья получилась какой-то неприлично большой.

Читать далее

Вклад авторов