Как стать автором
Поиск
Написать публикацию
Обновить
760.3

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

О векторных базах данных простым языком

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров26K

Представьте, что управляете онлайн-магазином, предлагающим тысячи товаров.

Чтобы помочь пользователям находить нужные позиции, вы добавили строку поиска. Теперь посетители могут вводить интересующие их запросы, на что вы будете показывать им подходящие результаты.

Например, когда пользователь вводит «лето», вы можете показывать предметы вроде шортов, платьев, панам и пляжных зонтов.

Как бы вы реализовали такую систему?
Читать дальше →

Почему LLM так плохо играют в шахматы (и что с этим делать)

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров11K

В своём последнем посте я говорил об одной загадке: все большие языковые модели (LLM) ужасно играют в шахматы. Все, за исключением gpt-3.5-turbo-instruct, которая по какой-то причине умеет играть на уровне продвинутого любителя. И это несмотря на то, что этой модели больше года и она намного меньше новых моделей. Что происходит?

Я предложил четыре возможных объяснения:

Теория 1: достаточно большие базовые модели хороши в шахматах, но это свойство не сохраняется после их подстройки под чат-модели.

Теория 2: по какой-то причине gpt-3.5-turbo-instruct обучали на большем объёме шахматных данных.

Теория 3: в некоторых архитектурах LLM есть нечто магическое.

Теория 4: существует «конкуренция» между разными типами данных, поэтому чтобы LLM могла хорошо играть в шахматы, большая доля данных должна быть информацией о шахматных партиях.

В Интернете нашлось ещё множество других теорий. Самые распространённые из них:

Теория 5: OpenAI жульничает.

Теория 6: на самом деле LLM не могут играть в шахматы.

Я провёл новые эксперименты. Хорошие новости — ошибались все!

В этом посте я покажу, что новые чат-модели достаточно хорошо могут играть в шахматы, если вы готовы зайти достаточно далеко, чтобы разобраться в составлении промтов. А затем я изложу свою теорию о происходящем.

Читать далее

«Охота на электроовец: большая книга искусственного интеллекта» или как написать книгу про ИИ без регистрации и SMS

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров16K

История о том, как за 6 лет я написал двухтомник, посвящённый искусственному интеллекту и машинному обучению

Читать далее

Реализация подобия Apple Vision Pro

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров4.3K
Не так давно я был свидетелем запуска Apple Vision Pro. Презентация оказалась очень интересной, но больше всего моё внимание зацепила одна деталь — дистанционное управление вводом с помощью пальцев. Выглядит очень интуитивно — использовать перемещение и сведение пальцев для управления курсором на экране. Меня этот механизм заинтриговал, и я решил воссоздать его сам.
Читать дальше →

GigaChat MAX — новая, сильная модель GigaChat

Уровень сложностиСредний
Время на прочтение22 мин
Количество просмотров39K

Салют, Хабр! Прошедший сезон оказался богат на релизы: ровно год назад мы делились новостями о GigaChat Pro, затем весной рассказали об увеличении контекста и улучшении возможностей модели, а совсем недавно завершили обучение GigaChat Vision: мы научили GigaChat понимать картинки и уже пишем про это статью.

Наши модели непрерывно развиваются, обретая всё больше новых функций, и сегодня повод рассказать о них. Встречайте наш новый GigaChat MAX!

GigaChat MAX

State Space Models. Mamba

Уровень сложностиСложный
Время на прочтение15 мин
Количество просмотров8.7K

Ни для кого не секрет, что доминирующей на данный момент архитектурой в области Deep Learning являются трансформеры. Они произвели настоящий фурор и стали основой для самых известных LLM. На данный момент они используются почти во всех фундаментальных моделях, от тех, что с открытым исходным кодом, таких как Mistral, до закрытых, таких как ChatGPT. Однако, трансформеры не лишены некоторых недостатков. Сегодня мы разберём архитектуру под названием Mamba, которая претендует на то, чтобы стать соперником трансформеров и решить их уязвимости.

Читать далее

Нейронные сети (инференс MNIST) на «3-центовом» микроконтроллере

Время на прочтение5 мин
Количество просмотров11K

Вдохновившись на удивление высокой производительностью нейронных сетей и обучением с учётом квантования на микроконтроллере CH32V003, я захотел выяснить, как далеко эту идею можно развить. Насколько можно сжать нейронную сеть с сохранением высокой точности тестов на датасете MNIST? Когда речь идёт о крайне дешёвых микроконтроллерах, сложно предположить что-то более подходящее, чем 8-битные Padauk.

Эти устройства оптимизированы под простейшие и самые дешёвые приложения из доступных. Самая мелкая модель серии, PMS150C, оснащена однократно программируемой памятью в 1024 13-битных слова и 64 байтами RAM — на порядок меньше, чем в CH32V003. Кроме того, эта модель в противоположность намного более мощному набору инструкций RISC-V содержит коммерческий регистр-аккумулятор на основе 8-битной архитектуры.

Возможно ли реализовать механизм инференса MNIST, способный классифицировать рукописные числа, также и на PMS150C?
Читать дальше →

Головоломка, кофе и охапка книг, или как я искал истоки термина «Deep Learning»

Уровень сложностиСредний
Время на прочтение28 мин
Количество просмотров3.3K

Привет! Некоторое время назад я взялся написать обзорную статью о том, что такое Deep Learning. Задача не казалась сложной до тех пор, пока… я не добрался до определения. Вот вы можете в двух словах объяснить этот термин, ничего не упустив? Вот то-то и оно. Пока копался в референсах, читал статьи, монографии и книги, я понял, что это вопрос слишком интересный для простого обзора и быстрого ответа. Здесь мне хотелось бы поделиться тем, что удалось найти по поводу истории развития глубокого обучения и того, что с ним связано.
Читать дальше →

Запускаем Yolo на пятирублёвой монете или Luckfox Pico Mini

Уровень сложностиСредний
Время на прочтение29 мин
Количество просмотров28K

В данной статье речь пойдет про использование очень маленькой Luckfox Pico Mini. Я расскажу про особенности платы, её настройку, а также о том как запускать на ней нейронные сети для детекции объектов с камеры.

Мне удалось добиться скорости детекции в 15 FPS (или даже 50!), результат, который по силам далеко не каждому одноплатнику.

Читать далее

Как я с помощью нейросетей обогнала инфляцию [4 кейса, скрины, никакой рекламы]

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров63K

В своей первой статье на Хабре решила поделиться личной историей. Я учусь программировать на Python и работаю онлайн — копирайтером, менеджером маркетплейсов, email-маркетологом и модератором телеграм-канала. И проблема в том, что доходы — в рублях общая боль россиян, а расходы — в валюте. Да еще инфляция… пАразительная. А на зарплату мою живут четыре человека. И жилье — съемное, за доллары. Нет-нет, фразы «подайте кто сколько может» не будет 🙃 Я справилась и хочу рассказать, как с помощью нейросетей увеличить количество часов в сутках. Спойлер: делегирование всех задач искусственному интеллекту — инфоцыганская сказка (увы и ах).

Открыть статью с блэкджеком и шутками 🖱☕️

Bukva: алфавит русского жестового языка

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6K

Всем привет!

Недавно мы анонсировали словарь русского жестового языка (РЖЯ), а в этой статье поговорим про задачу распознавания алфавита РЖЯ, именуемого также дактильным алфавитом или дактилем. Предлагаем ознакомиться с нашей работой, в которой мы представим новый датасет Bukva — первый полноценный видеонабор данных для распознавания дактильной азбуки. Он содержит 3757 видеороликов с более чем 101 видео для каждой буквы дактиля, включая не только статические, но и динамические жесты. В статье расскажем, как мы собрали датасет для решения задачи и какие модели обучили в качестве бейзлайнов. Все данные и код открыты и доступны в репозитории команды.

Читать далее

22 омерзительные опечатки в русском переводе книги М.П. Дайзенрот «Математика в машинном обучении»

Время на прочтение4 мин
Количество просмотров22K

Возможно, это спасёт кого-то от суицида. Её подзаголовок обещал мне ровно то, что я тогда искал: «математические основы базовых концепций машинного обучения...».

На выбор имелось два варианта книги:

- бесплатная версия на английском

- изданный перевод на русский, который здесь немного рекламировался.

Я испугался общей сложности темы и выбрал русскую версию, чтобы не создавать даже небольшой дополнительный барьер. О чём позже пожалел.
Книга оказалась просто отличной.

Но…

Что "Но"?

ИИ без иллюзий. Развенчивание мифов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров35K

В своем подкасте я грозился сам почитать статью GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models ученых из Apple и разобраться. Почитал. Разобрался. Забавная статья. Забавная не по содержанию, а по выводам, которые можно сделать, если читать между строк и выйти за границы статьи.

Читать далее

Ближайшие события

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

Время на прочтение11 мин
Количество просмотров17K

Сегодня у Поиска большое обновление. Например, ответы Нейро теперь будут появляться сразу в поисковых результатах — для тех запросов, где это полезно и экономит время. Но в рамках этой статьи нас интересует другая часть обновления: Нейро поможет найти ответы в Поиске по картинкам и в Умной камере — с помощью новой мультимодальной модели Яндекса. Пользователь может не только узнать, что изображено на картинке, но и задать вопрос по каждой её детали. Например, гуляя по музею, можно сфотографировать натюрморт голландского живописца и спросить, что символизирует тот или иной предмет на картине.

Меня зовут Роман Исаченко, я работаю в команде компьютерного зрения Яндекса. В этой статье я расскажу, что такое визуально‑текстовые мультимодальные модели (Visual Language Models или VLM), как у нас в Яндексе организован процесс их обучения и какая у них архитектура. Вы узнаете, как Нейро работал с картинками и текстами раньше, и что изменилось с появлением VLM.

Читать далее

Как устроен робот-доставщик Яндекса: от восприятия до планирования движения

Время на прочтение15 мин
Количество просмотров30K

Уже пять лет по улицам Москвы колесят роботы‑курьеры Яндекса, доставляя нам еду из любимых ресторанов и магазинов быстрее, чем мы успеваем проголодаться. На пути им встречается много препятствий: от безобидной клумбы, которую можно просто объехать, до восторженных детей (и иногда взрослых), от которых порой не так просто уехать.

Нам пришлось приложить немало усилий, чтобы каждый выезд робота заканчивался успешно. Нужно было научить робота видеть мир вокруг себя, а окружающих правильно реагировать на доставщика.

Привет, меня зовут Тая, и я ML‑разработчик в команде восприятия робота‑доставщика. Сегодня я впервые детально расскажу о технологиях, благодаря которым робот‑доставщик Яндекса успешно доставляет заказы. Разберу ключевые компоненты системы, от сенсоров до алгоритмов принятия решений, и объясню, как они взаимодействуют. Из статьи вы узнаете, что происходит «под капотом» нашего робота во время его путешествий по городу.

Готовы погрузиться в мир автономной доставки?

Поехали!

Искусственный интеллект — сознание или алгоритм? Проблемы цифровой философии

Время на прочтение10 мин
Количество просмотров15K

Привет, Хабр! Проблема сознания у AI волнует философов, нейробиологов, когнитивистов, ML-специалистов и других. Обычно они делятся на два лагеря: одни поддерживают эту гипотезу, а другие — категорически против. Но ни одни, ни другие так и не нашли консенсуса в данном вопросе. В тексте постараемся сузить поток абстрактности вокруг темы и разобраться, почему и как начали изучать сознание у AI.

Автор: Александра Танюшина, преподаватель МГУ, кандидат философских наук, культурный тренд-аналитик и специалист по цифровой философии.
Читать дальше →

Знакомьтесь, «Незнакомое». Как мы сделали новый режим для Моей волны

Время на прочтение8 мин
Количество просмотров8.6K

Привет! Меня зовут Савва Степурин, я старший разработчик в группе рекомендательных продуктов в Фантехе Яндекса. Сегодня расскажу вам про то, как мы сделали «Незнакомое» для Моей волны — специальный режим для активного поиска музыкальных открытий.

«Незнакомое» позволяет вам получать от Моей волны те треки, которые вы ещё не слушали (возможно, даже не знаете про их существование), но которые с большой долей вероятности могут попасть в ваши музыкальные предпочтения. Если Моя волна в чистом виде — это идеальный баланс между любимыми композициями и чем-то новым, то «Незнакомое» помогает выйти из музыкального информационного пузыря и послушать новые треки. 

Под катом — техническая эволюция «Незнакомого» от фильтра до отдельного продукта, описание новой модели ранжирования и многое другое.

Читать далее

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Уровень сложностиПростой
Время на прочтение27 мин
Количество просмотров117K

Последние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачки: теперь можно масштабировать объем «мыслей», который модель будет тратить в процессе своей работы. В этой статье мы разберемся, чему научилась новая GPT o1, и как это повлияет на дальнейшую эволюцию ИИ.

Давайте выясним →

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

Уровень сложностиСредний
Время на прочтение30 мин
Количество просмотров69K

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества.

Узнать →

Как я выиграл $2 750 с помощью JavaScript, ИИ и банки WD-40

Время на прочтение21 мин
Количество просмотров14K

За последние десять лет я выиграл во многих маркетинговых видео-конкурсах, используя проверенные техники. Но конкретно этот случай стал первым, в котором значительную роль сыграло программирование и инструменты ИИ.

В этой статье я опишу, как с помощью ChatGPT и JavaScript выяснил, что реально могу победить в конкурсе, и как в итоге пришёл к победе.
Читать дальше →

Вклад авторов