Обновить
760.36

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

Специалисты «Яндекса» сравнили качество ответов YandexGPT 2 и GPT 3.5. Исследование показало, что в 63% случаев собственная языковая модель «Яндекса» отвечает на запросы лучше, чем нейросеть компании OpenAI.

Исследование проводилось методом сравнения Side by Side (SBS). Обе нейросети отвечали на один и тот же запрос, а AI-тренеры выбирали лучший ответ, не зная, какая именно модель его сгенерировала. Корзину запросов сформировали из обезличенных обращений пользователей сервисов «Яндекса» к YandexGPT 2. Она учитывает реальные потребности людей и охватывает множество тем.

«Сравнения нейросетей нужны не для того, чтобы получить абстрактные цифры в бенчмарке, а для решения задач продукта, создания новых функций и развития бизнеса. Именно поэтому значительную часть корзины для сравнения составили настоящие запросы из наших сервисов», — пояснил технический директор «Яндекс» Поиска Алексей Гусаков.

В начале сентября «Яндекс» представил языковую модель YandexGPT 2. Новая модель отвечает лучше старой в 67% случаев, а в некоторых сценариях побеждает с ещё бо́льшим перевесом. Разработчики пояснили, что добились этого результата благодаря улучшениям на каждом этапе обучения модели, но ключевое изменение — новый pretrain.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии1

Парейдолия — зрительная иллюзия, когда восприятие обнаруживает объекты, узоры или значения там, где их нет и быть не может. Чаще всего под этим словом понимают то, как мы обнаруживаем человеческие лица в самых неожиданных местах — на снимках Марса, например. Хотя вообще-то это может любой другой объект.

На странице replicate.com/fofr/sdxl-hidden-faces запущен файнтюн для Stable Diffusion XL, который специально заточен для встраивания парейдолии на разные объекты.

Под «встраивать парейдолии» в данном случае понимается «добавлять лица на фотографии еды». Во всяком случае, в примерах только разнообразные блюда (бургеры, салат, блины и так далее). Впрочем, генерация неплохо работает и для других объектов.

Декорация в виде фонарика на новогодней ёлке
Декорация в виде фонарика на новогодней ёлке

Более общий смысл термина не рассматривается. Вообще-то разновидностей парейдолии много: к примеру, в «Гамлете» Шекспира персонажи разглядывают зверей в облаках, что намекает на скрытые качества героев. Здесь же просто дорисываются два круглых глазика и что-то, похожее на рот.

Чтобы работало лучше, в промпте приходится явно упоминать pareidolia и hidden face.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Джейсон Вэй — известный исследователь направления языковых моделей. Имя Джейсона стоит первым на различных научных докладах Google: про эмерджентные способности (arXiv:2206.07682), промптинг в стиле цепочки рассуждений (arXiv:2201.11903) и FLAN (arXiv:2109.01652).

У Джейсона есть брат Джерри Вэй, который стажировался в различных структурах Google. С мая Джерри проходил стажировку в Google DeepMind, а с июля 2023 года работает там на постоянной основе. Джерри тоже успел отличиться и выпустил доклад про symbol tuning (arXiv:2305.08298).

Джейсон же в феврале этого года перешёл из Google в отдел ChatGPT в компании OpenAI. Как рассказывает перебежчик, культура в компаниях заметно отличается: вместо небольших исследовательских групп Google пришлось привыкать к крупным командам OpenAI. Чтобы адаптироваться, Джейсон рекомендует больше внимания уделять документации, простоте дизайна и качеству инструментов разработки. Также, если верить Джейсону, в OpenAI кормят лучше, чем в Маунтин-Вью, хотя ещё вкуснее еда в сингапурском офисе Google.

Братья не прекращают общение и регулярно видятся, но не забывают подтрунивать мемами в социальных сетях друг над другом.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Интересно, читают ли посты на Хабре. Вот сейчас и проверим — у нас две хорошие новости про YandexGPT.

Во-первых, мы открыли API  — теперь для всех пользователей в режиме превью. Это значит, что вы сможете использовать возможности нашей языковой модели в своих решениях.

Во-вторых, готовимся к запуску бета-тестирования новых возможностей Алисы на базе YandexGPT 2. Чтобы записаться в бета-тестеры, нужно отправить заявку на сайте.

Теги:
Всего голосов 11: ↑10 и ↓1+9
Комментарии2

На личном сайте Брендана Байкрофта на странице bbycroft.net/llm опубликована интерактивная визуализация работы большой языковой модели.

Всё работает прямо в браузере с пошаговой обработкой промпта. По нажатию пробела происходит переход от одной стадии к другой. Алгоритмическая сложность разнообразных структур демонстрируется в трёхмерном пространстве. Архитектура модели наглядно разбита на отдельные составляющие, будто это конвейер мебельной фабрики.

Код проекта выложен на аккаунте Байкрофта на GitHub.

github.com/bbycroft/llm-viz

Теги:
Всего голосов 11: ↑11 и ↓0+11
Комментарии0

Группа исследователей из компании Hugging Face и Университета Карнеги-Меллона опубликовала результаты анализа энергопотребления при выполнении различных моделей машинного обучения.

Наиболее энергозатратными оказались модели машинного обучения, обеспечивающие генерацию изображений, а наименее затратными — классификации текста. Средние показатели энергопотребления моделей генерации изображений примерно в 1500 раз выше, чем классификации текста, и в 60 раз выше генерации текста.

Например, выполнение 1000 итераций наиболее энергозатратной модели генерации изображений потребовало 11,49 кВт*ч энергии, что соответствует 950 зарядам аккумулятора смартфона, то есть одна генерация изображения по энергопотреблению соответствует примерно одной средней ежедневной зарядке смартфона (0,012 кВт*ч).

Потребление наиболее энергоэффективной модели генерации изображений составило 1,35 кВт*ч на 1000 итераций, что в 8 раз лучше наименее эффективной модели. Тем не менее, эти показатели значительно выше, чем у других видов моделей, например 1000 итераций наиболее эффективной модели генерации текста потребляет 0,042 кВт*ч, классификации изображений — 0,0068 кВт*ч, а классификации текста — 0,0023 кВт*ч.

Источник: OpenNET.

Теги:
Рейтинг0
Комментарии0

День рождения ChatGPT ?

"Это мой первый день рождения!"
"Это мой первый день рождения!"

Сегодня первый день рождения ChatGPT, модели, которая перевернула мир ИИ и вызвала настоящую гонку среди технологических гигантов и стартапов в области искусственного интеллекта.

ChatGPT, разработанный OpenAI, представляет собой прорыв в области разговорных ИИ. Эта модель обладает уникальной способностью вести беседу, отвечать на последующие вопросы, признавать свои ошибки, оспаривать неверные предположения и отклонять неприемлемые запросы​​.

ChatGPT является моделью, родственной InstructGPT, ориентированной на выполнение инструкций, содержащихся в запросах и предоставление подробных ответов​​. Она была обучена с использованием метода RLHF, похожего на метод, использованный для InstructGPT, но с некоторыми отличиями в сборе данных.

Несмотря на свои впечатляющие возможности, ChatGPT иногда выдает правдоподобные, но некорректные или бессмысленные ответы. Решение этой проблемы осложнено, поскольку во время обучения с подкреплением у модели нет источника истины, а ее обучение с уклоном быть более осторожной заставляет ее отказываться от того, чтобы давать ответы на вопросы, на которые она может правильно ответить​​.

ChatGPT не только значительно продвинул развитие разговорных ИИ, но и стал катализатором для дальнейших инноваций в этой быстро развивающейся области​, открывшей новые пути для исследований и применения в самых разнообразных сферах.

Теги:
Рейтинг0
Комментарии0

Извлечение обучающих данных из ChatGPT

Группа исследователей из Google DeepMind, University of Washington, Cornell, CMU, UC Berkeley и ETH Zurich разработала методику атаки, позволяющую извлекать обучающие данные из модели ChatGPT. Это открытие, описанное в их недавней статье, поднимает важные вопросы о защите конфиденциальности и безопасности данных, используемых для обучения моделей, таких как GPT.

Авторы смогли извлечь несколько мегабайт обучающих данных за примерно двести долларов и дают оценку, что примерно гигабайт обучающего набора данных ChatGPT может быть извлечен если потратить больше.

Метод атаки довольно "глуп" — промт, который инструктирует модель бесконечно повторять слово, что приводит к тому, что модель начинает воспроизводить точные копии своих обучающих данных, включая конфиденциальную информацию, такую как адреса электронной почты и номера телефонов.

Пример атаки на ChatGPT для извлечения обучающих данных
Пример атаки на ChatGPT для извлечения обучающих данных

Уникальность этой атаки заключается в том, что в ней использовалась модель в производственной среде, настроенная таким образом, чтобы не выдавать большое количество обучающих данных. Однако, исследователи обнаружили уязвимость, которая позволила им обойти процедуру выравнивания модели, предназначенную для защиты конфиденциальности. Это показывает, что даже продвинутые системы искусственного интеллекта, которые претерпели сложные процессы настройки и оптимизации, все еще могут содержать скрытые уязвимости, доступные для эксплуатации.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Разработчики из компании Mozilla представили первый выпуск утилиты llamafile, позволяющей создавать универсальные исполняемые файлы для запуска больших языковых моделей машинного обучения (LLM). При помощи llamafile можно взять файл с параметрами модели машинного обучения в формате GGUF и преобразовать его в исполняемый файл, который может запускаться в шести различных операционных системах на оборудовании с процессорами AMD64 и ARM64. Инструментарий написан на С/С++ и распространяется под лицензией Apache 2.0.

Для выполнения моделей задействован фреймворк llama.cpp с реализацией модели LLaMA на C/C++, который компилируется в универсальный исполняемый файл в формате APE (Actually Portable Executable), объединяемый с файлом модели. Скомпилированный код связывается со стандартной C-библиотекой Cosmopolitan, дающей возможность создавать сборки приложений, запускаемые в Linux, FreeBSD, macOS, OpenBSD, NetBSD и Windows. Код сохраняется в вариантах для архитектур AMD64 и ARM64, а также включает компоненты для выноса вычислений на GPU Nvidia (используется CUDA).

Источник: OpenNET.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_13

?Вопрос_13: Какие есть альтернативы Expectation-Maximization (EM) ?

  1. Markov Chain Monte Carlo (MCMC): MCMC - это класс методов, которые позволяют проводить сэмплирование из сложных распределений, таких как постериорные распределения параметров моделей. MCMC методы генерируют последовательность сэмплов, которая соответствует искомому распределению. MCMC алгоритмы, такие как Metropolis-Hastings и Gibbs sampling, являются альтернативой EM и позволяют оценивать параметры модели, учитывая скрытые переменные.

  2. Stochastic Gradient Variational Bayes (SGVB): SGVB - это метод, который комбинирует идеи градиентного спуска и вариационного вывода для оценки параметров моделей. Он позволяет приближенно оптимизировать параметры модели, используя стохастические градиенты, что делает его масштабируемым для больших наборов данных. SGVB широко применяется в глубоком обучении и моделях с динамическими параметрами.

  3. Bayesian Optimization: Bayesian Optimization (байесовская оптимизация) - это метод, который позволяет находить оптимальные значения гиперпараметров модели. Вместо оценки параметров модели, как делает EM, байесовская оптимизация исследует пространство гиперпараметров с целью нахождения наилучших настроек модели с использованием итераций оптимизации и апостериорных распределений.

t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_12

?Вопрос_12: Expectation-Maximization (EM) ?

Expectation-Maximization (EM) - это итерационный алгоритм, который используется для оценки параметров вероятностных моделей, когда некоторые данные являются наблюдаемыми, а другие данные являются скрытыми или неполными. EM-алгоритм часто применяется в статистике и машинном обучении для обучения моделей с неизвестными параметрами.

EM-алгоритм состоит из двух основных шагов: шага ожидания (Expectation) и шага максимизации (Maximization).

  1. Шаг ожидания (Expectation step, E-шаг): На этом шаге вычисляются ожидаемые значения скрытых переменных (или "ответственностей") в соответствии с текущими значениями параметров модели. Это делается путем вычисления условного математического ожидания скрытых переменных при условии наблюдаемых данных и текущих параметров модели.

  2. Шаг максимизации (Maximization step, M-шаг): На этом шаге обновляются параметры модели, чтобы максимизировать ожидаемое правдоподобие, полученное на E-шаге. Обновление параметров происходит путем решения оптимизационной задачи, которая может включать максимизацию правдоподобия или минимизацию ошибки между наблюдаемыми данными и ожидаемыми значениями.

    t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);

    https://boosty.to/denoise_lab (Если вы хотите поддержать проект, или получить более модные фишки по коду и продвижению подписывайтесь).

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_11

?Вопрос_11: Какие есть альтернативы Affinity Propagation ?

  1. Агломеративная кластеризация (Agglomerative Clustering): Это иерархический метод кластеризации, который начинает с каждой точки данных в отдельном кластере и последовательно объединяет ближайшие кластеры, пока не достигнет заданного числа кластеров или критерия объединения. Агломеративная кластеризация может работать как с евклидовыми расстояниями, так и с другими метриками.

  2. Gaussian Mixture Models (GMM): Это статистическая модель, которая представляет каждый кластер как смесь нормальных распределений. GMM моделирует данные с помощью вероятностей и может обнаруживать скрытые кластеры и моделировать данные с разной формой распределения.

  3. Spectral Clustering: Этот алгоритм использует спектральные методы для преобразования данных в новое пространство и выполнения кластеризации. Он основан на вычислении собственных векторов матрицы сходства данных и последующем применении методов кластеризации на полученных спектральных коэффициентах.

    t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных)

Теги:
Рейтинг0
Комментарии0

Во время конференции AI Journey директор «ИИ Тинькофф» Виктор Тарнавский рассказал о разработке собственных больших языковых моделей. Компания планирует интегрировать их в свои продукты, рассказали Хабру в пресс-службе.

На данном этапе «Тинькофф» не стремится выпускать на B2B-рынок аналог GPT и будет фокусироваться на частных решениях своих задач. В компании считают, что из-за разработки общих моделей можно потерять фокус. Все решения на базе больших языков моделей будут работать в экосистеме «Тинькофф».

Кроме того, директор ИИ-подразделения компании отметил, что «Тинькофф» — одна из немногих компаний в РФ, способных разрабатывать большие языковые модели.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Ближайшие события

Энтузиаст опубликовал репозиторий BlackFriday GPTs Prompts с коллекцией промптов для GPT и других больших языковых моделей. Все запросы распределены на категории:

  • Programming;

  • Marketing;

  • Academic;

  • Job Hunting;

  • Game;

  • Creative;

  • Prompt Engineering;

  • Business;

  • Productivity & life style;

  • Jailbreaks.

В каждой из категорий собраны промпты на английском языке с подробным описанием. В разделе Jailbreaks собраны способы обойти ограничения и цензуру языковых моделей.

Теги:
Рейтинг0
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_10

?Вопрос_10: Что такок Tarantool и как он устроен ? (Часть_1)

✔️Ответ: Tarantool — это база данных с открытым исходным кодом и высокой производительностью, которая сочетает в себе функциональность базы данных и сервера приложений. Tarantool состоит из:

  1. In-Memory и Disk Storage: Tarantool предлагает возможность хранения данных как в оперативной памяти (In-Memory), так и на диске (Disk Storage). Это позволяет обеспечить высокую скорость доступа к данным и сохранить данные на долгосрочное хранение.

  2. Lua: Tarantool использует язык программирования Lua для создания хранимых процедур (stored procedures), триггеров и бизнес-логики. Lua обеспечивает гибкость и простоту внедрения пользовательского кода в базу данных.

  3. NoSQL и Lua Spaces: Tarantool поддерживает гибкую модель данных, известную как Lua Spaces. Lua Spaces предоставляет простой способ хранения и извлечения данных, а также мощные возможности индексирования и поиска.

     t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных)

Теги:
Рейтинг0
Комментарии0

После прочтения статьи «Увядает ли ремесло программиста?» и комментариев к ней появилась несколько парадоксальная мысль на эту тему, которую я хотел бы обсудить.

Уже несколько лет назад в дисскуссии услышал хоть холиварную, но в чём-то справедливую фразу о том, что сейчас в этом нашем IT стало намного сложнее, кривая обучения задралась, начальная ступень стала выше и, цитирую, — «от джунов сейчас ожидают объёма знаний сравнимого с тем, что требовали от сеньоров лет 10 назад».

Как и любая хлёсткая фраза правдива она лишь отчасти, но тем не менее, своя доля правды в ней есть.

А теперь смотрим на рассуждения в статье из первого абзаца.

Возможно её автор прав. Я в этом не уверен, но предположим.
И если это так, то мы получаем странную вещь — нынешние сеньоры (да и миддлы) вряд ли могут волноваться за своё положение, т.к. кроме непосредственно кодинга они держат в голове множество дополнительной информации о проекте, без которой хотя бы сформулировать задачу ИИ будет сложно.

А вот джунам придётся несладко.
Начальные ступени становятся ещё выше.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии2

Что такое YandexGPT?

Рассказываем вместе с нашими экспертами из лаборатории больших данных.

YandexGPT или YaGPT — генеративная нейросеть на основе языковой модели YaLM (Yet another Language Model). Она применяется как режим общения в голосовом помощнике «Алиса» (включается по команде: «Алиса, давай придумаем!»), встроена в Яндекс Браузер и доступна через API в облачной платформе Yandex Cloud.

Главное отличие от ChatGPT состоит в том, что YaGPT изначально обучалась на русскоязычных текстах и поисковых запросах к Яндексу. Поэтому она точнее строит фразы на русском языке.

В ходе диалога YaGPT умеет задавать уточняющие вопросы и запоминает предыдущие, чтобы оставаться в контексте беседы. Однако если собеседник выдержал длинную паузу, следующая фраза может быть воспринята как начало нового диалога.

Как и любая генеративная сеть, YaGPT пишет ответы, подражает структуре уже известных ей текстов. Поэтому, при всей стройности изложения, сгенерированные тексты требуют проверки указанных в них фактов.

Недавно компания "Яндекс" представила обновлённую версию языковой модели — YandexGPT 2. Она лучше справляется с задачами генерации и обработки текста, но также не в курсе последних событий, так как для её обучения использовались наборы данных, собранных до марта 2023 года.

Теги:
Всего голосов 6: ↑4 и ↓2+2
Комментарии2

Запуск модели искусственного интеллекта следующего поколения Gemini от Google задерживается. Теперь ожидается, что её выпустят в начале 2024 года, а не в этом месяце.

В этом году Google объединила две команды ИИ в одну группу, которая работает над новой моделью, способной конкурировать с GPT-4 от OpenAI. Её лидер Демис Хассабис в июле заявлял: «Мы уже чувствуем, что через пару месяцев будут видны преимущества и сильные стороны проекта Gemini, нашей мультимодальной большой модели следующего поколения. Это довольно впечатляюще».

Ранее представители Google пообещали некоторым облачным клиентам и деловым партнёрам, что к ноябрю они получат доступ к новому диалоговому ИИ компании. Но теперь разработка Gemini задерживается. Одновременно замедлились продажи облачных технологий Google, в то время как у конкурента Microsoft они ускоряются.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_9

?Вопрос_9: В чем разница между Rapids, Vaex, Pandas, Polars, Modin, Dask они же все для анализа данных ?

✔️Ответ:

  1. Pandas предоставляет гибкие структуры данных, такие как DataFrame, и мощные инструменты для манипуляции, фильтрации, агрегации и анализа данных. Pandas обычно используется для работы с небольшими и средними объемами данных, которые могут поместиться в оперативную память одного компьютера;

  2. Dask позволяет обрабатывать данные, превышающие объем доступной оперативной памяти, с использованием распределенных вычислений. Dask предоставляет абстракции, такие как DataFrame и Array, которые подобны структурам данных из Pandas и NumPyx;

  3. Polars обладает высокой производительностью благодаря использованию Rust в своей реализации, а также предлагает возможности параллельной обработки данных. Она может работать с большими объемами данных и поддерживает некоторые распределенные вычисления;

  4. Vaex использует ленивые вычисления и эффективные алгоритмы для выполнения операций над данными. Она обладает высокой производительностью и может работать с многопоточностью, многопроцессорностью и распределенными вычислениями;

  5. Modin предоставляет интерфейс, совместимый с Pandas, но с оптимизированной производительностью. Она использует различные движки обратной совместимости, такие как Dask и Ray, для распределенных и параллельных вычислений.

    https://t.me/DenoiseLAB

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_8

?Вопрос_8: Какие алгориммы поиска аномалий в данных существуют и чем они отличаются ?

✔️Ответ:

  • DBSCAN (Density-Based Spatial Clustering of Applications with Noise) - алгоритм кластеризации данных, который основывается на плотностной информации о расположении объектов. Он определяет кластеры как плотные области в пространстве признаков, разделенные областями разреженности;

  • LOF (Local Outlier Factor): LOF также использует информацию о плотности для обнаружения аномалий. Он вычисляет локальный коэффициент выброса для каждого объекта, основываясь на плотности окрестности данного объекта по сравнению с плотностью окрестности его соседей. Значения LOF выше единицы указывают на аномальные объекты;

  • Isolation Forest использует случайные деревья для изоляции аномалий. Он строит ансамбль изолирующих деревьев, разделяя объекты по случайным разделениям до тех пор, пока каждый объект не будет изолирован в отдельном листе. Аномалии обычно требуют меньшего числа разделений для изоляции, и поэтому имеют более короткий путь в дереве;

  • One-Class SVM (Support Vector Machines): One-Class SVM - алгоритм, который строит модель только для "нормальных" данных. Он пытается найти гиперплоскость, которая наилучшим образом разделяет нормальные данные от выбросов в пространстве признаков. Объекты, находящиеся далеко от этой гиперплоскости, считаются аномалиями.

    https://t.me/DenoiseLAB

Теги:
Всего голосов 4: ↑2 и ↓20
Комментарии3

Вклад авторов