Articles / Bookmarks / Profile of Grossmend / Habr

Юрий @Grossmend

Пользователь

Profile Publications 4Comments 22Bookmarks 10

Dirac Jan 26 2021 at 13:15

Нейронная Сеть CLIP от OpenAI: Классификатор, который не нужно обучать. Да здравствует Обучение без Обучения

18 min

42K

Python*Programming*Algorithms*Machine learning*Artificial Intelligence

Tutorial

Можете представить себе классификатор изображений, решающий практически любую задачу, и который вообще не нужно обучать? Это новая нейросеть CLIP от OpenAI. Разбор CLIP из рубрики: Разбираем и Собираем Нейронные Сети на примере Звездных Войн!

Нет данных, нет разметки, но нужен классификатор изображений для конкретной задачи? Нет времени возиться с обучением нейронной сети, но нужно получить классификацию высокой точности? Все это стало возможным. Вам нужно обучение без обучения!

Готов и туториал: Собираем нейросети. Классификатор животных из мультфильмов. Без данных и за 5 минут. CLIP: Обучение без Обучения + код

Подробно и доступно разбираем что такое "обучение без обучения" и саму нейросеть CLIP от OpenAI. Стираем границы между Текстом и Изображением. Внимание: статья подходит под любой уровень: от нулевого до профи. Приятного прочтения!

Поехали!

+28

re9ulus Mar 19 at 10:00

Quantization Deep Dive, или Введение в современную квантизацию

Medium

16 min

13K

Programming*Яндекс corporate blogAlgorithms*Machine learning*Artificial Intelligence

✏️ Technotext 2023

Привет! Меня зовут Василий Землянов, я занимаюсь разработкой ML-инфраструктуры. Несколько лет я проработал в команде, которая делает споттер — специальную маленькую нейросетевую модельку, которая живёт в умных колонках Яндекса и ждёт от пользователя слова «Алиса». Одной из моих задач в этой команде была квантизация моделей. На пользовательских устройствах мало ресурсов, и мы решили, что за счёт квантизации сможем их сэкономить — так в итоге и вышло.

Потом я перешёл в команду YandexGPT. Вместо маленьких моделей я стал работать с очень крупными. Мне стало интересно, как устроена квантизация больших языковых моделей (LLM). Ещё меня очень впечатляли истории, где люди берут гигантские нейросети, квантизируют в 4 бита и умудряются запускать их на ноутбуках. Я решил разобраться, как это делается, и собрал материал на доклад для коллег и друзей. А потом пришла мысль поделиться знаниями с более широкой аудиторией, оформив их в статью. Так я и оказался на Хабре :)

Надеюсь, погружение в тему квантизации будет интересно как специалистам, так и энтузиастам в сфере обучения нейросетей. Я постарался написать статью, которую хотел бы прочитать сам, когда только начинал изучать, как заставить модели работать эффективнее. В ней мы подробно разберём, зачем нужна квантизация и в какой момент лучше всего квантизовать модель, а ещё рассмотрим разные типы данных и современные методы квантизации.

+81

kms82 May 9 2023 at 08:42

Что нас ждёт после появления сильного ИИ или неотвратимая логика социально-технологического развития

13 min

14K

Artificial IntelligenceThe future is here

From sandbox

Я материалист, и поэтому мне радостно видеть впечатляющие успехи больших языковых моделей как то GPT или PaLM. Тут и осмысленный диалог, и программирование, и сочинение сказок, и написание дипломов, и постановка диагнозов, и попытка jailbreak-а. Bing так вообще угрожает и может демонстрировать влюбленность. Эта радость - она от подтверждения правоты, что мы являемся пусть сложными, но всё таким биологическими машинами, и следовательно мы полностью познаваемы, что трансцендентной души у нас нет, что после смерти ничего не будет, а самосознание является феноменом развитой нервной системы.

Примечательно то, что публичный прорыв с большими языковыми моделями случился внезапно. Не было какой-то долгой разбежки на протяжении десятков лет (сама GPT модель разрабатывалась с середины 2018, что по меркам истории просто мгновение). ChatGPT выпрыгнул как чёрт из табакерки в конце 2022 и явил собой качественно новое явление. Явление, которое подтверждает второй закон диалектики: количество переходит в качество. Просто возьми много-много текстов, заставь нейросеть на трансформер-архитектуре предсказывать очередное слово и вуа-ля - получи на выходе почти мыслящую сущность. Если угодно, то душа, сознание и характер распределятся у неё где-то на миллиардах весов, как и у каждого из нас в мозгу.

Интересный вопрос - а что такого выучила та же GPT, что позволяет ей вести разумный диалог? За счёт чего магия? При этом помним, что модель не является просто сборищем ответов на заранее известные вопросы. То есть она не похожа на Граммофон из “Сумма технологии” С. Лема, на который записано 100 триллионов ответов. Модель умеет генерировать новое, умеет понимать контекст. По мне, так модель выявила внутреннюю логику и закономерности повествования, следуя которым можно получить любой текст. Эта логика представлена в виде внутренней системы понятий и смыслов, которые активируются в зависимости от текущего диалога. И когда мы что-то спрашиваем у модели, то для неё это может выглядеть так: сюжетная линия №3429643, ситуация №93752, роли №122997 и №88223, действующее лицо №33554, стилистика №7622 и т.д. Соединив и перемножив всё это вместе, получаем небольшой репертуар слов, из которого можно выбрать очередное. Так как всевозможных комбинаций этих сущностей просто космическое, то модель в состоянии генерировать новое и постоянно удивлять нас.

126

took_the_lead Apr 21 2023 at 17:01

MiniGPT-4, ты что за зверь такой?

Easy

4 min

15K

Timeweb Cloud corporate blogOpen data*Machine learning*Artificial Intelligence

Review

Не проходит и недели, чтобы что-то новое и очень крутое в области LLM не появилось в сети. На этот раз отличились сотрудники из Научно-технологического университета имени короля Абдаллы (технический исследовательский университет в Саудовской Аравии). Они предложили способ наделения языковой модели функцией мультимодальности. Их ресерч называется «Улучшение понимания языка зрения с помощью усовершенствованных больших языковых моделей» (Enhancing Vision-language Understanding with Advanced Large Language Models).

Читать дальше →

+28

mr-pickles Apr 24 2023 at 11:15

StackLLaMA: практическое руководство по обучению LLaMA с помощью RLHF

Hard

15 min

11K

Python*Algorithms*Machine learning*Wunder Fund corporate blogArtificial Intelligence

Tutorial

Translation

ChatGPT, GPT-4 и Claude — это мощные языковые модели, которые дообучают, используя метод, который называется «обучение с подкреплением на основе отзывов людей» (Reinforcement Learning from Human Feedback, RLHF). Благодаря этому такие модели лучше отражают наши ожидания в плане их поведения, они лучше соответствуют тому, как мы собираемся их использовать.

В этом материале мы рассмотрим процесс обучения модели LLaMa c использованием RLHF. Модель будет учиться отвечать на вопросы с сайта Stack Exchange.

+24

Nastaa Apr 25 2023 at 17:47

Алгоритм, сделавший ChatGPT таким «человечным» — Reinforcement Learning from Human Feedback

8 min

12K

Data Mining*Algorithms*Machine learning*Artificial IntelligenceThe future is here

ChatGPT генерирует разнообразный и привлекательный для человека текст. Но что делает текст «хорошим»? Это субъективно и зависит от контекста. Например, если вы попросите сочинить историю, нужен творческий подход. Если вы запрашиваете информацию, то хотите, чтобы она была правдивой. А если вы просите написать код, то ожидаете, что он будет исполняемым.

Вы наверняка слышали о том, что OpenAI привлекали сотрудников из Африки для помощи в разметке токсичности их ассистента. Менее известен факт найма реальных разработчиков, чтобы подготовить данные с пояснениями к коду на человечском языке.

Именно данные с фидбеком от людей позволили дообучить их языковую модель и сделать продукт таким «человечным».

Разберем алгоритм, который позволяет согласовать модель машинного обучения со сложными человеческими ценностями.

+14

murat_apishev May 4 2023 at 15:11

Зоопарк трансформеров: большой обзор моделей от BERT до Alpaca

Hard

59 min

18K

Machine learning*Just AI corporate blogArtificial IntelligenceNatural Language Processing*

Review

Авторский обзор 90+ нейросетевых моделей на основе Transformer для тех, кто не успевает читать статьи, но хочет быть в курсе ситуации и понимать технические детали идущей революции ИИ.

+28

vignatovic May 6 2023 at 04:58

Google: «У нас нет преимущества перед открытым кодом, и у OpenAI тоже нет»

Medium

12 min

27K

Open source*Research and forecasts in IT*CopyrightArtificial IntelligenceThe future is here

Analytics

Translation

Утекший внутренний документ Google утверждает, что открытый исходный код AI обойдет Google и OpenAI.

В Google много обсуждали OpenAI. Кто первым преодолеет следующий рубеж? Каким будет следующий шаг? Но неприятная правда заключается в том, что мы не готовы выиграть эту гонку вооружений, и OpenAI тоже. Пока мы ссорились, третья сторона тихо забирала наш обед. Я, конечно, говорю об открытом исходном коде. Проще говоря, они опережают нас. То, что мы считаем "основными открытыми проблемами", уже решено и находится в руках людей. Достаточно назвать лишь несколько примеров...

+44

ITSoftWeb Sep 8 2021 at 18:06

Проект Altos Labs. Как миллиардеры Кремниевой долины хотят жить вечно

5 min

39K

BiotechnologiesThe future is hereITSOFT corporate blog

Джефф Безос и Юрий Мильнер — одни из инвесторов проекта

В октябре прошлого года большая группа ученых приехала в гигантский особняк Юрия Мильнера в холмах неподалеку от Пало-Альто. Они были протестированы на Covid-19 и в масках собрались в театре особняка на двухдневную научную конференцию. Еще несколько сотен ученых присоединились с помощью видеозвонков. Тема конференции: как можно использовать биотехнологии для омоложения людей.

Так при помощи Джеффа Безоса и несколько других миллиардеров была основана Altos Labs — компания, занимающаяся технологиями биологического перепрограммирования. Сейчас она изучает несколько перспективных методов, которые могли бы помочь обратить вспять процесс старения.

Читать дальше →

+51

240

NIX_Solutions Jan 18 2019 at 11:36

Нейросетевой синтез речи с помощью архитектуры Tacotron 2, или «Get alignment or die tryin'»

13 min

16K

Algorithms*Machine learning*NIX corporate blog

Нашей команде поставили задачу: повторить результаты работы искусственной нейронной сети синтеза речи Tacotron2 авторства DeepMind. Это рассказ о тернистом пути, пройденном нами в ходе реализации проекта.

Читать дальше →