Comments 22
Я не знаю кто ты такой, но твои статьи - это старый добрый и ламповый Хабр. Без иронии жду продолжения.
Мне вот интересно. А как ИИ учат говорить? Типа закидывают массивы данных и он начинает из читать и чего-то понимает?
Нет, ИИ не "понимает" ничего в привычном смысле. Он не знает, что значит слово, не осознаёт контекст, не формулирует свою мысль. Осмысленный текст у него получается потому что может неплохо угадывать, какие слова идут друг за другом с наибольшей вероятностью.
С чатгпт создаётся иллюзия самостоятельного мышления из-за очень высокой сложности этой модели. Если же запустить локально модель с 7 миллирадами параметров (что довольно мало для языковой модели) - это будет лучше заметно.
LLM знает, что значит слово, и прекрасно осознает контекст. Сначала каждому токену присваивается дефолтный эмбеддинг, который соответствует смыслу слова "в ваккуме". Затем, на каждом слое трансформера, этот эмбеддинг модифицируется за счет контекста, что позволяет различать одно и то же слово, употребленное в разных смыслах
Вы описываете цепи Маркова, а не LLM
Я не совсем научно корректно выразился когда говорил, что LLM не осознаёт контекст. Эмбеддинг - да, он передаёт контекст слова, из которого оно было извлечено. Модель действительно дифференцирует значения слов по их окружению, но она не оперирует абстрактными понятиями как человек, а лишь работает с паттернами в данных. То, что мы называем пониманием контекста в LLM - это очень хорошая стаститическая адаптация, а не семантическое сознание.
А потом оно не может посчитать количество букв в слове
Потому что токенизация. Модель не видит буквы, она видит слова
Вот по этому имитация, а не интеллект
А почему для интеллекта вообще релевантно, что слова состоят из букв? ИИ работает как китайцы - на вход подаются токены смысла. Китайцы не обладают интеллектом?
Кстати, если очень хочется, то можно сделать побуквенный токенизатор, и тогда считать количество разных букв в разных словах ИИ сможет гораздо лучше. Просто нужно не это, а способность решать нормальные человеческие задачи, и это получается лучше при большом словаре
Интересная заметка, спасибо!
Подскажите пожалуйста. Например я хочу нейросеть, распознающую голос, научить узнавать меня по голосу. Чтобы в процессе разговора со мной она постоянно обучалась, получая всё больше голосовых данных, произнесённых с разной интонацией, в разном настроении и т. д. Чтобы в итоге узнавание меня становилось всё более точным. Причём всё это должно происходить локально, без использования онлайн-сервисов в интернете.
Это вообще возможно? Куда посмотреть и что почитать, чтобы получить понимание, как это можно реализовать?
Скорее всего возможно но все упрется в железо и его стоимость!
Да, такое возможно - задача называется speaker identification с адаптацией. Чтобы работало локально и обучалось на ходу, нужно смотреть в сторону моделей типа x-vector, Wav2Vec 2.0 и фреймворков вроде SpeechBrain
Ну и как для любых локально ML задач, не обойтись без флагманской видеокарты или Apple Silicon
Хороший текст, без перегруза
Спасибо, @GiantLynx, за увлекательную статью, буду ждать продолжение! Особенно подкупили иллюстрации с котиками. Подскажите, пожалуйста, в какой нейросети вы генерировали эти картинки?
Текст понравился. Жду продолжения. Про скучную математику я бы поспорил. В школе и универе еле вытягивал матан на 3. Как только начал пользоваться ИИ загорелся и теперь разбираюсь хорошо. По сути математика и есть "магия" т.к. она может объяснить почти все, что нас окружает.
Ну про скуку я говорил в несколько пост-ироничном смысле, подразумевая, что когда некий чёрный ящик выдаёт нам неожиданно хорошие и комплексные результаты - это сначала вызывает эмоции, будто столкнулся с немного волшебством в реальном мире. Вспомните свои первые эмоции, когда игрались с диффузионными моделями вроде Midjourney. А когда мы этот чёрный ящик взламываем и разбираем на шестерёнки - то сразу пропадает ощущение чего-то сказочного.
Это не к тому, что разбираться не нужно (наоборот, можно и нужно), просто иллюстрация к цитате Артура Кларка "любая достаточно развитая технология неотличима от магии".
Спасибо за отличную статью! Подскажите, использовали ли вы ИИ для написания текста? Выше прочитала, что изображения были созданы с помощью GPT, а как насчёт самого текста или его черновика — применяли ли вы какие-то ИИ-инструменты? Если да, расскажите, пожалуйста, как именно вы их используете.
Я применяю LLM (Grok) только для вычитки и фактчекинга и с оговоркой, потому что любые чатботы галлюцинируют, перехваливают не к месту и часто соглашаются с ложными фактами. Хотя интернет уже наполнен текстами, которые от начала и до конца сгенерироваными ChatGPT или его аналогами, такие тексты легко "палятся" по характерным признакам, приторной тактичности и характерными для LLM речевыми оборотам. Может, напишу статью какие есть красные флаги сгенерированного текста, хотя не знаю, формат ли это хабра или какого-нибудь пикабу.
TL;DR использовать LLM для редактуры - нормально, "вайб-блогинг" - палево.
Как обучают ИИ: без формул, но с котами