Comments 233
Огонь!
Начиная от 3:97 в пользу ChatGPT, нам удалось добиться результата 30:70 в финальной версии модели.
Т.е. не догнали даже gpt 3.5? ) А уже GPT 4, да еще и с Wolfram )
размеры моделей несопоставимы вообще-то. У GPT 3.5 175 млрд. параметров, а вы хотите чтобы ее догнала модель с 13 млрд. параметров?
LLama не в 10 раз меньше, а по компьюту при обучении большая LLama вообще +- то же самое, что GPT-3 175B
Не видел таких утверждений у них. Может, где-то пропустил.
В целом я очень советую вот эти три пейпера для понимания, то что там «на самом деле» :)
https://arxiv.org/abs/2206.04615
https://arxiv.org/abs/2203.15556
https://arxiv.org/abs/2207.10551
Лучше смотреть на объективные тесты
https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
Так же интересно смотреть по ссылке на тесты конкретной модели в колонке Result, а именно таблицу carbon emission, по факту энергнопотребление тюнинга модели по сравнению с другими большими моделями типа opt и bloom и как ни странно, потребление почти не зависит от количества весов, т.е. я думаю если весов меньше, сходимость у модели медленнее, но шаги вычисляются быстрее что компенсирует.
да, действительно gpt3 модель была слабой, пока ее не затюнили до chatgpt3.5 на основе живого общения с агентами (не удивлюсь если и на тех вопросах сообщества, что активно собирались все время ее использования)… llama же никто не тюнил, и она с рождения была лучше но не без недостатков… можно порыться на сайте по ссылкам, там есть таблички сравнения качества работы llama на разных доменах (типах знаний).
очень жаль что open-assistent тюнили 30B модель а не 65B, было бы интересно провести тестирование уже после их тюнинга
уважаемые теоретики, из вас кто-о сам видел этот gigachat. У меня его например нет совсем. Робот настойчиво показывает картинки где искать, но его там нет. Может кто подтвердить что он его сам трогал и у него есть доступ, а то где не задаю вопросы? то все на основе пресс релизов строят мнения и при этом у самих опыта реального использования не было
Справедливости ради, мы не знаем сколько у 3.5 параметров. Насколько я помню последнее что они говорили -- это 175М, но для оригинальной ChatGPT. И при этом сейчас 3.5 по api продается в 10 раз дешевле чем было. Я не удивлюсь, если они смогли просто дистиллировать оригинальную модель и теперь там гораздо меньше 175М параметров.
Что, конечно, не умоляет заслуг Сбера. Требовать от них чтоб они с листа сразу сделали модель на уровне просто лучшей в мире, это как минимум наивно. Отставать на шаг-два от мирового лидера вполне ок. Судя по тому что они написали, кажется, что их модешь примерно на уровне Барда и Лламы сейчас. А размеры Сбера с одной стороны и фейсбука с гуглом с другой несопоставимы
К тому же собрать качественный датасет на русском — задача куда более сложная и затратная, чем сборка англоязычного датасета. Просто сравните, сколько в Интернете англоязычных текстов и сколько — русскоязычных.
А нельзя использовать англоязычный, но переводить по капотом на русский? Информации на английском очень много и жалко, что она не используется. С таким подходом можно вообще все языки заюзать.
Именно так и было сделано при обучении "Малевича" (ruDALL-E): картинки с подписями собрали со всего Интернета, а потом подписи к ним перевели на русский автопереводчиком и всё это использовали для обучения сети.
В итоге пользоваться этим было по-настоящему мучительно: при составлении запроса ощущаешь себя так, словно пытаешься что-то найти на русскоязычном aliexpress'е. Запрос мысленно приходится всё равно составлять на английском, только потом ещё и гадать, во что превратил те или иные термины автопереводчик.
Поэтому как только в свободный доступ попала англоязычная dall-e mini, я про "Малевича" тут же забыл как про страшный сон.
Почему вы сравниваете с Фейсбуком и Гуглом, а не с openai?
Тогда нужно сравнить с Microsoft. Или вы думаете openAI не пользуется возможностями материнской компании?
Вы даты внимательно сравните. 10 миллиардов им дали в январе, а gpt-4 был выпущен в марте. Значит в январе он уже был готов для показа инвесторам. Значит сделали его на предыдущие инвестиции, которые заметно меньше. И Microsoft нельзя было назвать "материнской компанией". Просто один из десятка инвесторов.
Влияет не только кол-во параметров, но в целом да, согласен
Ну а ловкий трюк с вольфрамом?
В принципе, получая алгоритмы аналогом DreamCoder можно прийти к гораздо более лучшим результатам, чем Дистиллированный Трансформер Илона-Гейтса ).
Всё NLU весит под 100-200 мегабайт (синтаксис, синонимы (и даже любые другие отношения выраженные в координатах)), Q&A, etc). Преобразование Язык -> запрос -> обработчик запроса -> результат напрашивается сам собой.
Вообще большие модели работают только благодаря квантизации (quantization) (правда, даже на телефоне в оффлайн).
Тот же Китай публиковал результаты обучения мультимодальной сети на каком-то своем фреймворке, и там было скорее описание того, как они это все распараллелили.
квантизация значительно ускоряет работу, ее и на gpu используют, ну а агрессивная 4-битная это вообще за гранью и даже она все равно понижает качество работы на считанные проценты.
Напоминаю, языковые модели галлюцинируют, шум в выборе варианитов ответа (например при значении температуры больше 0.5, по умолчанию 0.8 у llama) делает больше 'вреда' (как и пользы) чем эти проценты от квантизации.
Ну да, вот большие корпорации любят тратить 2 доллара а не 10 центов на амортизацию оборудования и электричество )
Вообще все эти Мы обучили такую же сеть напоминает:
В больших моделях большое число параметров стоит в нули, т.е. не участвуют в выводе никак. Проект Chinchilla показал, что можно улучшать результат не увеличением числа параметров, а увеличением объёма данных для обучения. Vicuna на 13 миллиардов по ощущениям как чатбот/генератор текстов вполне на уровне GPT3.
Модель gpt-3.5-turbo, которая сейчас и доступна в качестве ChatGPT, по прикидкам имеет как раз 13B параметров. На это указывает то, что её стоимость равна стоимости модели, которая имеет 13B параметров (а может даже 6.7B, не помню, то есть еще меньше), и OpenAI писали, что "уменьшили стоимость инференса ChatGPT в 10 раз" (вероятно, уменьшим размер модели).
Так что в этом плане сравнение честное, как мне кажется.
А помните, был такой ABBYY Compreno?
Интересно, хоть что-то от него в дело пошло?
Помню, следил, даже пытался у них демку/тест выцыганить. Какое-то время назад мне казалось, что будущее — за гибридными моделями. Т.е. "нейронка" должна строить вот такие knowledge graph — онтологии, "читая" и "обдумывая" входящие данные. Ну и, может быть, немного помогать диалоговым системам в анализе нечётких данных (оценка эмоций, статистически малозначимых результатов, плохо кластеризуемых наборов данных) для построения логических выводов по графам. Сейчас все ринулись развивать флудилки, и вопросы reasoning и knowledge extraction как-то уходят на второй, или даже третий, план...
Очень интересно. Пугает только отсутствие какой то конкретики по срокам.
И ещё интересно, будет ли модель способна писать функции на любых ЯП по описанию на естественном языке?
Претрейн хотим в ближайшие недели опубликовать.
А с кодом да, упор был на несколько самых популярных, в новом претрейне будет гораздо больше языков.
подскажите, ваша модель совместима с кодом с репозитария ggreganov llama.cpp или если быть точнее ggml? в смысле алгоритм использования является gpt?
Дело в том что код работы языковой модели на процессоре x86/arm от этого разработчика работает как то слишком уж быстро, отличаясь от топовых gpu всего на порядок (при разнице в стоимости железа на два порядка).
Насколько реально обучить нейросеть для перевода кода с С++14 на С++ 17, с Python 2 на Python 3 ?
Или для оптимизации/ рефакторинга кода. Задачу сильно упростит, если выдачу клиенту можно пропускать через компилятор, отладчик до тех пор пока не будет появляется ошибок компиляции, и варнингов. т.е. скрестить нейросеть не с ВольфрамАльфой, а с GitHub и онлайн компиляторами.
Я бы для этого попробовал сперва обучить на ваших исходниках текстовый автоэнкодер, затем закодированные им датасеты (целевой и исходный) использовал для обучения CycleGAN или CUT GAN. Такое можно обучить полностью с нуля на потребительской карточке и получить на выходе относительно компактную сетку с очень большим размером контекста.
А разве существуют сети, которым в обучающей выборке верилог давали?
а достаточно ли чтобы у сетки сформировалось правильное отношение к языку? а были ли в обучающей выборке не синтезируемые скрипты? и чем черт не шутит, обучали ли сеть причинам этого?
Если нейронные сети уже с успехом справились со сворачиванием белков, почему бы им не научиться и этому? отличный пример чем можете заняться, будете потом продавать услуги на эту тему...
Вас только это пугает из все статьи? С учетом того, что такой сетью теперь может воспользоваться и ребенок и мошенник. Такие вещи в ближайшее время тут начнутся. Как минимум первое, что видится это отрицательный отбор. Когда некомпетентные люди вытеснят с помощью таких сетей профессионалов своего дела. В будущем это будет означать отсутсвие полной мотивации к личностному и профессиональному развитию. Зачем изучать программирование, литературу, музыку и тд. Если даже школьник с 9 классами сможет через чат за пару минут сделать то, что делают профессионалы, которые потратили тысячи человеко-часов на образование.
Да это просто замена Гуглу, где уже пару десятков лет тоже можно найти конкретные ответы, не погружаясь в область и не нанимая эксперта.
Раньше приходилось гуглить и отсеивать выдачу, уточнять запрос. Теперь можно просто в чате спросить и сразу получить конкретный ответ (ложный в 10%).
Никакой революции тут нет, скорее эволюция.
Еще плюс - честная плата за ответы, без манипуляции "бесплатностью" и скрытого шпионажа.
Эту сеть от сбера еще не тестил. Возможно это уровень гугла. Но ведь всем понятно, что аппетит приходит во время еды. И не за горами gpt - 5, 10 и тд. И это не какое то будущее, а реальность. Собственно в рускоязычном сообществе разработчиков я вообще не видел тех же дискуссий, что происходят на Западе:
«Должны ли мы позволять машинам наводнять наши информационные каналы пропагандой? Должны ли мы автоматизировать все рабочие места? Должны ли мы развивать нечеловеческие умы, которые в конечном итоге могут превзойти нас численностью, перехитрить, сделать нас ненужными и заменить нас? Должны ли мы рисковать потерей контроля над нашей цивилизацией?»
Уровень Гугла у Openai сейчас. У Сбера выйдет что-то похожее по качеству на текущие опенсорс модели, типа Dolly (они на русском не очень сейчас, поэтому есть такая ниша).
А по поводу остального... У любой системы есть ограничения на масштабирование, посмотрим, выйдет ли когда-то GPT-5 в той же парадигме.
Это вы на чём нашу модель тестировали и где?
Только Кандинского попробовал, почему-то ответы никак не были связаны с моими запросами в 10 из 10 попыток ? В квантовый скачок из этого в gpt3.5-turbo не верю, ожидаю русский аналог Викуны для английского.
"Собственно в рускоязычном сообществе разработчиков я вообще не видел тех же дискуссий, что происходят на Западе."
Здесь, Телеграм каналы, где общаются https://agirussia.org/
Поиск, форум, мне выдал https://agi.place/
А каков результат этих дискуссий? Уже не осталось информационных каналов без пропаганды. Поэтому вопрос не имеет смысла. Пора задаваться вопросом, как с этим жить?
Впрочем, похоже, что и эти вопросы тоже сгенерировал ИИ
Чтобы понять, сколько этим нейронкам еще пиликать до какого-то уровня, достаточно посмотреть на переводчики между языками. Это очень узкая область с своим набором довольно чётких датасетов, но до утраты профессии переводчка ещё как до луны, хотя разрабатывают эти переводчки уже сто лет. А тут и четких датасетов нет, просто гуглобайты информации, которая вообще слабо структурирована.
вот это кстати очень интересная тема. На реддите недавно был пост про то, как человек переводил поэму с японского на английский с помощью ChatGPT. И он там очень хорошо расписал плюсы и минусы переводов через специализированные переводчики или LLM модель. Грубо говоря, у ChatGPT лучше с пониманием языков и "фантазией". Еще его можно "на лету" корректировать по стилистике или другим моментам. А переводчик - нет. Он более детерминирован.
Как-то по Вашим словам любой школьник должен был давно вытеснить профессионала благодаря наличию google, stackoverflow и github? Самое сложное - это не написать код на задачу, а понять цель и сформулировать эту задачу. А уже закодировать всегда было просто.
Чахните, как кащей над златом? Самому-то не стыдно? "Профессионал с тыщами человеко-часами"
если даже школьник справится с этой задачей то и хорошо, профессионал переключится на другие где нужна его компетенция, вас же не смущает отсутствие профессии счетчиков которых заменил с начало калькулятор а потом компьютер, или что расчет нагрузок выполняются сейчас нажатием пары кнопок.
Дружище, твоя мотивация никого не волнует. Найдётся куча людей которые захотят работать. У тебя нет никакого рыночного веса, тем более если ты дуешь губы при виде новых технологий
Если "профессионала" можно заменить нейросетью - то во-первых так себе из него профессионал.
А во-вторых, как правило не бывает такого, что техника заменяет людей при сохранении всего остального. Обычно вся отрасль качественно меняется. Что на большом масштабе для людей - плюс.
Были ли в инструктивном датасете ответы ChatGPT? И если были, то сколько?
Очевидно, что вам не ответят. OpenAI запрещает использовать ответы их моделей для обучения других, и если стает известно, что хотя бы один пример попал в сберовской датасет, это поставит крест на любом применении модели, кроме исследовательского.
Пользовательское соглашение ChatGPT, кстати, запрещает использование ответов ChatGPT для обучения моделей-конкурентов ChatGPT. Но использование ChatGPT самими OpenAI в РФ запрещено. Соответственно модель от Сбера не является конкурентом ChatGPT.
Это к вопросу о законности, если вдруг кто-то хочет такое сделать.
А так — мы разметили очень много своих собственных данных + сгенерировали много разной синтетики.
SQL запрос по описанию сделает?
А где тут логика? Или гигачат будет доступен только на территории РФ?
Это к вопросу о законности, если вдруг кто-то хочет такое сделать.
И что будет если кто-то захочет такое сделать (конкретно)? Зампред Совбеза РФ предложил пользоваться интеллектуальной собственностью Запада без лицензии.
Очевидно, что такой продукт можно будет использовать только на территории России. Равно как и любые сервисы, которые будут на нём основаны. И хостить такое можно будет только на отечественных мощностях, потому что забугорный хостер заблокирует по первой же жалобе на нарушение копирайта.
А что, GigaChat имеет прицел в европейскую или американскую аудиторию? Это неожиданно. Очевидно, забугорный хостер заблокирует продукт если его попросят по любой причине и без объяснений. Перед глазами пример ЦОД Яndex в Финляндии отключенный от питания. Наверное, в случае GigaChat речь идёт о дата-центре, а не хостере и видимо это без вариантов м.б. развёрнуто только на отечественных мощностях.
Что дальше с этим центром, кстати, было? Нигде не пишут, почему-то
Чем закончилось точно не знаю. Знаю что ЦОД больше месяца работал на дизелях и была чехарда со сменой названий юр.лица, но это помогло только до сентября 2022 года, когда были заморожены (арестованы) все активы Яндекса в Финляндии. В том же сентябре 2022 Яндекс заявил что открывает новый ЦОД в Калуге, в индустриальном парке "Грабцево" и теперь он будет крупнейшим. То что финский ЦОД Яндекса отапливал город Мянтсяля, обеспечивал работу финского такси Yango (Яндекс.Такси для финнов) и по ЕС десятки системных компаний, видимо не повлияло, т.к. старше сентября 2022 года новостей не вижу.
Является ли подобный запрет в пользовательском соглашении юридически обязывающим? И что будет-то — предполагаемым конкурентам аннулируют лицензию на ChatGPT, или прям зосудят и посодят? Если я обучу модель, чтобы умела решать примеры на сложение, как доказать, что ответ на вопрос "сколько будет два плюс два" был мной получен не от ChatGPT?
(iii) use output from the Services to develop models that compete with OpenAI;
Т.к. OpenAI блокирует пользователей из РФ, то конкуренции нет, на мой делитатнский взгляд, но OpenAI может решить иначе и обратиться в российский суд.
Интересно когда он научиться "в каком отделении карту открывали-туда и идите" или он сразу умеет?
Собрав "корзину" из запросов разной тематики, мы провели на ней SBS между нашей моделью и моделью от OpenAI (gpt-3.5-turbo). Начиная от 3:97 в пользу ChatGPT, нам удалось добиться результата 30:70 в финальной версии модели
Вы не могли бы опубликовать список запросов?
Вы молодцы, всегда с интересом слежу за вашими результатами.
>размером более 2Тб
А точно именно терабит?
Спасибо, очень ждем веса в открытом доступе! + если сделаете квантование в 4 бит под основные движки (safetensors для CUDA + ggml под llamacpp CPU) ,будет вообще супер.
Вы же обратили внимание на то, что они пообещали выпустить в опенсорс не саму ГигаЧат, а
модель ruGPT-3.5 13B, на основе которой был обучен GigaChat
Лучше это, чем ничего (понятно, что лучшую модель, возможно, оставят себе). К тому же помню, кто-то делал русскоязычный корпус вопросов и ответов (вроде OpenAssistant), так что, возможно, сможем сами адаптировать.
Основной вычислительный ресурс тратится как раз на претрейн, который хотим выложить.
Используется ли "сжатие"/''нормализация" датасетов ? Объясню на примере что я имею ввиду - допустим имеется код на Си. В одном случае он использует для форматирования пробелы, другая его версия использует символ табуляции - с логической точки зрения оба кода полностью идентичны, возможны и другие его вариации с разным форматированием но одинаковыми exe-шниками при компиляции. Логично преобразовать все эти тексты, ПЕРЕД токенизацией, какому-то одному стандарту. Т.е. удалить весь шум из "датасета".
Развивая эту идею - можно сжать датасет и попробовать обучить сеть на сжатых текстах (ведь архиватор фактически некоторый аналог токенизатора). Идея вроде лежит на поверхности и её наверное кто-то уже попробовал ... но я что то не могу найти примеров ...
- Сильно сомневаюсь — ведь основное преимущество трансформерной архитектуры как раз в том и состоит, что она эффективно выучивает все эти различия между логически эквивалентными стандартами при достаточно большом датасете. Так что особо нет смысла заморачиваться подобным.
- Только сжимать надо так, чтобы сжатие выносило наверх информацию о взаимосвязи между словами, делая её максимально доступной, а ужимало текст за счёт прятания побочной, неосновной информации. Такое вовсю используется, гуглить по запросу "текстовые автоэнкодеры", например статью "There and Back Again: Autoencoders for Textual Reconstruction".
У GigaChat есть веб-интерфейс для взаимодействия, как у ChatGPT? Как можно его попробовать?
А вообще кто-нибудь задумывался куда такие сети приведут человечество? Не имея компетенция и профессиональных знаний можно в скором времени большинство профессий отменить. Да и в целом самих ml инженеров. Все таки такие вещи, а тем более еще продвинутее нельзя отдавать в опенсорс.
нельзя отдавать в опенсорс
OpenAssistant: Вышла бесплатная открытая альтернатива ChatGPT
Советую добавить функционал как в https://minigpt-4.github.io/, когда можно загрузить картинку и обсуждать ее, генерировать по ней код и т. д.
И еще очень хотелось бы аналог github copilot, который можно встроить в IDE.
А это можете у коллег из PLP (programming language processing) команды спросить. Они уже такое делают с плагинами и своими спец. моделями. https://t.me/nlpcoreteam
Вообще, хочется поделиться своими мыслями. Генеративные нейросети это очень классно, но лучше всего они проявляются в работе с конкретным контекстом. Например, когда чат-бот может анализировать историю чата, почтовый клиент подсказывать текст по переписке, текстовой процессор анализировать все документы на твоем диске и так далее. Я вот хотел бы аналог Figma, где можно текстом попросить дизайн сайта, а потом в диалоге корректировать результат. И мультимодальные модели насколько я могу судить лучше мономодальных, причем не только потому что "а они еще и картинки могут", а потому что работа одновременно с текстом и с образами делает мышление более "человеческим". В общем, очень классно что теперь есть российский аналог чатгпт. Но если правильно начать внедрять его в контексты конкретных программ, то можно будет сделать даже лучше. :)
А можно ли уже сейчас с помощью этой сетки полностью сгенерировать "под ключ" высоконагруженные проект с балансировщиками, бд, микросервисами и прочими элементами? То есть можно ли генерировать проекты уровня Senior?
Такие пока что нельзя, но наш план максимально приближаться к возможностям ChatGPT. По длине контекста, кодогенерации и другим задачам. Плюс хотим мультиязычность и мультимодальность прокачивать.
Конечно нельзя, это пока в принципе совершенно утопические фантазии.
Для этого нужен отдельный стак-оверфлоу, где бы мидлы просили сеньоров написать нужный высоконагруженный проект по описанию. И чтобы там были миллиарды таких вопросов и ответов, с обсуждениями и предложениями по улучшению ответов.
Но пока что модель обучена на том, что было, умеет писать простые часто встречающиеся функции и решать типовые проблемы, спасая чей-то день.
Можно, но придется нанять промпт-инженера. А их ещё очень мало, поэтому будет дорого ;)
Проект не напишет, но полы помоет)))
Видя такие вопросы сразу вспоминаю как несколько раз от нескольких людей слышал очень смешной вопрос о том, сколько нужно джунов чтобы заменить одного синьера)
Круто, молодцы. Чем больше открытых моделей, тем трава зеленее ?
Как планируете монетизировать? Будет ли сетка ограниченно-бесплатной, как у той же OpenAI или какие-то свои схемы?
Не увидел генерацию кода, умеет ли это? Или просто пиар компания на чужих плодах?
Ни то, ни другое
Генерацию кода умеет
не вижу примеров, все еще.
Как по мне дешевая подделка.
Просто смешно как все стремятся обойти OpenAI, пытаясь копировать их продукт и "симулировать" превосходство над ним.
Либо сделайте аналог целиком, либо сделайте своё что-то.
Выглядит как клоунское шапито - "Сматрите ми тожи тяк мажем"
А каким образом принимается решение об одобрении заявок, по аватарке что ли? ) А то я аккредитованный разработчик под Салют, а доступа пока не дали.
А какая длина окна контекста у вашей модели?
2048
В токенах. Токен около 5 символов для русского.
Я конечно не эксперт, но у меня токенайзер rugpt3 выдает один токен на одно русское слово.
Картинка
Зависит от частоты встречаемости слов. Уже приводил в соседней теме пример токенизации текста сберовским токенизатором,
Num of tokens: 123
Те| п|сы|,| что| с| ры|жими| хво|стами|,|
|Се|бе| ов|ся|нку| вар|ят| сами|.|
|Те|,| чьи| хво|сты| ст|ального| цвета|,|
|Не| научились| делать| это|.|
|Кто| ва|рит| сам| себе| ов|ся|нку|,|
|Гу|лять| не| выйдет| сп|оза|ран|ку|.|
|А| кто| гулять| выходит| рано|,|
|Не| терпит| фальши| и| обмана|.|
|Вид| добродуш|ный| у| Бар|б|оса|,|
|Но| на| сорок| он| смотрит| кос|о|.|
|Он| видит|:| норов|ят| сор|оки|
|У| вороб|ь|ёв| спи|сать| уроки|.|
|Ответ|ьте| -| проще| нет| вопроса| -|
|Как|ого| цвета| хвост| Бар|б|оса|?|
Num of tokens: 92
#| L|oad| f|ile| if| ex|ists|,| and| return|s| its| st|ring| content|
|#| If| f|ile| not| ex|ists|,| return|s| ""|
|de|f| l|oad|_|f|ile|(|f|n|ame|):|
| | if| not| o|s|.|p|ath|.|is|f|ile|(|f|n|ame|):|
| | | return| ""|
| | with| open|(|f|n|ame|)| as| f|:|
| | | t|xt| =| f|.|read|(|)|
| | return| t|xt|
Num of tokens: 158
#| Writ|e| def|ault| sett|ings| if| F|IL|E|_|S|ET|T|IN|G|S| not| ex|ists|
|\t|if| not| o|s|.|p|ath|.|is|f|ile|(|F|IL|E|_|S|ET|T|IN|G|S|):|
|\t|\t|with| open|(|F|IL|E|_|S|ET|T|IN|G|S|,| '|w|'|)| as| conf|ig|f|ile|:|
|\t\t|\t|con|f|ig|.|writ|e|(|con|f|ig|f|ile|)|
|\t|el|se|:|
|\t|\t|con|f|ig|.|read|(|F|IL|E|_|S|ET|T|IN|G|S|)|
|\t|
|\t|s|ett|ings| =| conf|ig|[|'|s|ett|ings|'|]|
|
|#| ПРО|ВЕР|КА| ТО|К|ЕН|И|ЗА|Ц|ИИ| Т|ЕК|СТА| В| В|ЕР|Х|НЕ|М| РЕ|ГИ|СТ|РЕ|
|
Почитал..
Дообучать LLaMA 13B на наших инструкциях мы тоже пробовали и результаты оказались неплохи, однако ruGPT-3.5 13B показала себя лучше в SBS тестировании — 58:42 в пользу нашей модели.
А на каком языке сравнивали? На родных для моделек или для обоих на русском?
В смысле, что вводит людей в заблуждение?
Версию претрейна с 13B параметров мы скоро выложим в открытый доступ.
GPT-3 от OpenAI это: 350M, 760M, 1.3B, 2.7B, 6.7B, 13B, 175B
Сейчас мы выложили в открытый доступ для русского 760M, 1.3B
Если у вас есть доступные вычислительные мощности, призываем вас присоединиться и делать для комьюнити модели больше.
По моему опыту, GPT-подобные модели начинают выдавать вполне качественные тексты уже начиная с 6B параметров. Примерно с этого же размера модель начинает нормально работать с логическими цепочками, а также нормально распознавать, какая часть описания к какому предмету относится.
Боб — брюнет с короткой стрижкой и карими глазами, носит вязаный свитер.
Алиса — блондинка с волнистыми волосами до плеч. У неё серые глаза. Носит джинсы и кроссовки.
Вопрос: какого цвета волосы у Боба?
Ответ:
Модели меньшего размера тупо гадают — это легко увидеть, скормив этот контекст им несколько раз. Начиная с 6B на такие вопросы нейронка отвечает уверенно.
13B работает ещё лучше, однако улучшения уже носят количественный, а не качественный характер — значительно меньше промахов и корявых фраз, но примерно такие же способности к логическому анализу, как у 6B.
Дальнейшее увеличение размера на глаз практически незаметно. Так, мне не удалось в слепом тестировании отличить OPT-13B-Erebus от OPT-30B-Erebus на задаче генерации литературных текстов.
Из всего, что на данный момент выложил Сбер, наилучшие результаты показывает FRED-T5-1.7B. Для моих целей её возможностей уже вполне достаточно, но ruGPT-13B с удовольствием протестирую (если конечно там в архитектуре не будет никакой пакости вроде Sparse Attention, под которую хрен соберёшь модули).
Молодцы, хорошая работа. В будущем планируете подходы типа https://arxiv.org/pdf/2112.04426.pdf ? Чтобы и модель легче была, и фактические данные больше выдавала?
Как планируется монетизировать модель? Платное api, подписка, что-то другое?
Доступ к API тоже волнами или ?
Подожду web-интерфейса, чтобы можно было пообщаться так же, как с ChatGPT. Может, хоть здесь не будет такой замороченной регистрации?
До ChatGPT так и не добралась, а пользоваться разными "посредниками" в виде Телеграм-ботов и тому подобного совсем не хочется, кто его знает, что там за посредник?
Пока общалась только с Ючатом.
Болтает он мило, но с bash-скриптами помочь не может.
Может, Гига-Чат мне поможет со скриптами? (Может, дать ему более человеческое имя? Кандинский же уже есть...)
А так-то особо с ним не пооткровенничаешь, наверное. Ни об окружающих событиях, ни о личных... Кто его знает, кто потом мой разговор с ним станет просматривать.
Яндекс тоже обещал выпустить свою нейросеть. Что-то до сих пор тишина.
Может кто-то посоветовать видео о тренировке (обучении) нейросетей? Как это происходит на практике? Посмотрела бы...
Слишком так далеко от "вот тебе ссылка, прочти статью и сделай выводы" так, чтобы она запомнила новую информацию? Как это происходит?
Сделайте, пожалуйста, такое видео "для чайников".
Слишком так далеко от "вот тебе ссылка, прочти статью и сделай выводы" так, чтобы она запомнила новую информацию? Как это происходит?
Существует два принципиально различных процесса: обучение нейронки с нуля (сложно, долго, дорого, могут делать лишь корпорации или очень большие группы энтузиастов) и дообучение, оно же тюнинг (добавление в уже готовую сеть новой информации).
Второй процесс достаточно прост и протекает примерно так.
В данном видео обучается сеть для генерации картинок, но с текстовыми всё происходит похожим образом — ей скармливается специально размеченный (тегированный) текст в достаточно большом количестве.
Современные методы тюнинга (Soft prompt, LoRA, Hypernetwork) достаточно эффективны, чтобы даже очень большую сетку можно было затюнить на карточках потребительского уровня за несколько суток.
Основная проблема заключается в наличии размеченного датасета — его подготовка может занимать недели и месяцы, даже если трудится небольшая группа.
Поздравляю! Можете, пожалуйста, рассказать, как размечали данные для модели-оценщика в RLHF?
Что ж Брэма в него не впечатали...
Буквально месяц назад начал разрабатывать свой веб-интерфейс для API GPT-3.5 и назвал его как раз GigaChat. Придётся придумывать новое оригинальное название) Ждём информации по API теперь
«Неонка» уже занято, если что :)
Mega (если скромно), Giga, Tera, Peta, Exa, ZettaChat ;)
так уже есть готовые интерфейсы
https://github.com/lencx/nofwl - там можно на GPT-4 переключаться
https://github.com/HemulGM/ChatGPT/releases - там только GPT-3.5-turbo
работают без ВПН, но надо иметь свой API key
А возможен ли распределённый способ обучения нейросетей, наподобие SETI@home? Многие бы помогли своими ресурсами ради такого хорошего дела.
Вот кстати тоже интересно, ибо если люди прям запарятся то можно невероятные мощности собрать.
Возможен. С его помощью крупные фэндомы (например, любители аниме или фурфаги) обучают свои нейронки, просто попросив всех желающих присоединиться (децентрализация основана на стандартном протоколе DHT).
Проблема в том, что тут очень высоки минимальные требования к клиенту. Этот самый клиент обычно идёт в виде docker-контейнера, жрёт очень много памяти и требователен к видеокарточке.
Например, минимальные требования Swarm Diffusion — 17.5 Гб VRAM (то есть нужны GPU последних серий) и не менее 32 ГБ оперативки.
Впрочем, прямо сейчас идут работы по оптимизации таких распределённых обучалок. В следующей версии обещают снижение требований к VRAM до 8 Гб.
Названия блюд марсианской кухни
Музыкой навеяло
Результат очень хороший.
Но, конечно, самое удачное - название)
Ленин:… А я думаю, что нет ничего справедливее равенства, которое утверждается насилием и ложью.
Это на каком же датасете нужно было обучать сетку, чтобы она такое сгенерировала?
Насколько легко отбором источников настроить модель на определённое желаемое искажение реальности?
На русскоязычном. Или вы полагаете, что в среднем по Рунету к Ленину какое-то другое отношение? Даже убеждённые сталинисты от Владимира Ильича по большей части плюются в своих патриотических блогах.
Насколько легко отбором источников настроить модель на определённое желаемое искажение реальности?
Безусловно легче, чем живую межушную нейронку. Зато в случае выявления таких искажений искусственной модели их легче и исправить, скорректировав обучение. Живые нейронки исправляются далеко не всегда.
Оно то использует букву Ё, то не использует.
От классических сережек до современных браслетов, у нас есть все
Как видно, оно не ставит Ё даже там, где это точно нужно.
Выражаю глубокий респект всем участникам этого проекта. Вы проделали крутую работу. Планы у вас отличные и направление на открытость, которое вы взяли, очень подкупает. С нетерпением ждем публичного релиза. Надеюсь, руководство выпишет вам всем бонусов ?
GigaChat, перелогинься!
Нет чтоб порадоваться за ребят, которые заделиверили крутую штуку, так надо брызнуть сарказмом
Как заделиверят - так и порадуемся) Пока это просто маркетинговый релиз непонятно чего непонятно когда, если объективно.
крутую штуку
Я уже неоднократно писал — чтобы давать ответы, много ума не надо. А вот чтобы давать правильные ответы...
А то пока получается как-то...
Короче, низачот.
Кто-то в восторге, а я бы диз влепил чисто за название. Вроде уже не 2000е с мемасиками в названиях.
Это же рабочее название, ведь правда?
Ребят, удачи вам с реализацией чат-бота. Жду релиза. Надеюсь, на старте не будет массовых перебоев :)
А есть ли смысл переводить с английского на русский инструкции, на которых дообучали Dolly 2, Vicuna, OpenAssistant для дообучения ruGPT-3.5? Мне кажется перевести проще чем писать с нуля. Единственное, что стоит учесть, так это "кросс-валидацию" переводов несколькими участниками и потом вычиткой носителями английского языка с хорошим знанием русского.
И смотрели ли вы на дообучение на коде, выложенном в датасете RedPajama-Data-1T от togethercomputer
https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T/blob/main/urls/github.txt?
Жду когда голосовой движок ещё прикрутят к этому чату, типа Алисы, но голоса что б можно было менять на разные. Знакомый сантехник как выпьет, на разговоры бесконечные тянет, а так ему собеседник и даже наверно собутыльник неустающий будет.
Насмешил диалог Ленина и Ганди! Ни по стилю, ни по содержанию этот текст никакого отношения к этим личностям не имеет. Очевидно, что в базе данных отсутствуют первоисточники, а наполнены они современными интерпретациями либерального толка причем от низкопробной журналистики. Что хотели получить, то и получили. Зачем было огород городить?
Далее читать не стал.
За первоисточниками Ленина нужно обращаться в немецкий аналог ChatGPT.
В этом есть серьезная проблема. С одной стороны - есть "Воспоминания и размышления" Г.Жукова, с другой художественные "произведения" Суворова-Резуна. Тексты - про один и тот же временной период (с допущениями), но смысл - совершенно разный. Какой источник будет взят за основу? Опять же, есть "Архипелаг..." Солженицина, а есть статистика, и официальные материалы.
Очевидно, что надо подстраиваться под большинство, потому что сеть предполагается для массового использования. Поэтому присваивать больший "вес" текстам с наибольшим количеством просмотров, комментариев и лайков, а также в первую очередь брать то, что всплывает в первые строчки поисковиков.
На выходе получаем "народную" сетку, а под интеллектуальные меньшинства её потом можно будет подстраивать отдельно LoRA-модулями.
"Большинство" может начитаться про то, что США не высаживали людей на Луну. При том, что у приверженцев этой теории есть вполне серьезные аргументы. А NASA излагает все официальным языком, и это не является популярным. Вот какая точка зрения будет взята за основу?
Так сетка нужна не для того, чтоб обучать или тем более воспитывать людей. Это не учебник. Её задача — быстро дать пользователям ровно те ответы, которых они хотят. Если большинство населения какой-либо страны хочет упарываться в конспирологию, то это не вина разработчиков сетки.
Для тех, кого "стандартный" среднестатистический ответ не устраивает, оставить вариант настройки/тюнинга сетки под себя — и этого достаточно.
Заниматься отбором единственно "правильного" мнения — задача неблагодарная, и в любом случае за пределами компетенции программистов. Поэтому пусть решает статистика.
Если большинство населения какой-либо страны хочет упарываться в конспирологию, то это не вина разработчиков сетки.
Да, но потом большинство населения этой страны будет на этом настаивать, потому что компухтер же сказал!
Так сетка нужна не для того, чтоб обучать или тем более воспитывать людей.
Приведенный диалог двух людей - это фальсификация. И Вы считаете, что такая публикация не обучает и не воспитывает?
И Вы считаете, что это за пределами компетенции программистов? Если под "программистами" понимать кодировщиков, то соглашусь, но разработчики и модераторы, если они не конченные мерзавцы, не должны быть "тупыми" (по Жванецкому). И, если они пишут "Ленин" или "Ганди", то как минимум должны запрограммировать анализ текстов этих авторов. И не забыть дать ссылки. Иначе, это мошенничество. Тем более, что ответить эти личности уже ничем не могут!
Хотя всегда приятно пнуть мертвого льва!
Не обучает и не воспитывает. Ибо, те, кто воспринимает всю поступающую информацию без критики, необучаемы и невоспитуемы
Тогда вы говорите о 90% населения нашего шарика. У меня есть пример, когда мой одноклассник (лирик, не физик) лет 8-10 назад завел со мной (физфак) спор об относительной скорости. И привел ссылку на wiki. Я не знаю, как туда закралась эта ошибка, но да, она там была, в корне меняющая парадигму Кориолиса и Ньютона. Исправили быстро на тот момент. Но ведь люди прочитали, и поверили как истине в последней инстанции.
А кто будет устанавливать достоверность?
Вопрос с "фактами" является проблемным с точки зрения этики. Представьте, окажется (например, даже документально доказано будет), что Эйнштейн, например, ел свои какашки, а Пушкин, например, любил кошкам в попу иголки засовывать, Достоевский ел козявки из носа, а вся библия - калька с какого-нить сборника "Сказки древних шумеров". Ну, что-нибудь типа такого.
По идее, у более популярных идей будет больше упоминаний и текстов. И сеть сама должна подстроиться.
Сеть должна подстроиться под что? Под популярные идеи, под тексты с большим числом упоминаний? Это путь в тупик! Искать песчинки золота на мусорной свалке можно, но насколько рационально? Похоже, что мир идет именно по этому пути. Даже хуже: песчинок золота мало, поэтому за золото выдается всякое дерьмо. Благо, что современные средства пропаганды позволяют сделать это очень просто. Похоже, что и GigaChat, и ChatGPT станут самыми продвинутыми из этих средств.
Хотя у человечества уже давно есть решение проблемы достоверности сведений - научный подход. Попробуйте применить научную методику работы с литературными источниками. Изучение источников - это один из самых трудоемких этап научного исследования. Особенно на начальном этапе. Заканчивается он обзором, в котором определяется объект и направление изучения, выявляется целесообразность работы в выбранной научной области и выбирается наиболее оптимальные методы работы.
Вот если бы Ваша система могла делать такой обзор со ссылками, аннотациями, цитированием, сравнением и т.д., то это действительно был бы прорыв. Научный мир рукоплескал бы.
В противном случае система добавит к куче мусора еще одну порцию. Вам это интересно?
Решение есть — собрать датасет с данными, которые проверяемыми, подход формализуется более менее. Собирать этот датасет должены либо люди (что верно) либо текущий ИИ, дав ему доступ к интернету, пусть гуглит, читает, анализирует практику применения и т.п.
И вот на основе этого датасета уже обучить новый ИИ, можно взять старый, но это будет фактически его уничтожение, мало того, считается что дообучить сеть сложнее чем с нуля, если датасет сравнимого размера.
p.s. кстати неразумно обучать ИИ только выверенными данными, а ошибочные выкидывать из выборки, наоборот, нужно ввести токены-пометки достоверности и обучать сетку на всех видах данных.
"надо подстраиваться под большинство": а в чем тогда смысл всего этого действа? Просто попрограммировать в свое удовольствие?
Авторы то заявляют "Сейчас у GigaChat’а лучше всего получается решать профессиональные и творческие задачи". А где же творчество?
Получается, что Михаил Жванецкий в свое время был прав на 100%:
"Раньше миром управляли умные. Это было жестоко. Умные заставляли тупых учиться. Тупым было тяжело.
Теперь миром управляют тупые. Это честно, потому что тупых гораздо больше.
Теперь умные учатся говорить так, чтоб тупым было понятно.
Если тупой что-то не понял, это умного проблема.
Раньше страдали тупые. Теперь страдают умные. Страданий стало меньше, потому что умных становится все меньше и меньше."
А я всегда говорил, что "Идиократия" — это документальный фильм.
Да, к сожалению за последние 100 тысяч лет каждое внедрение новой технологии приводило к уменьшению размера мозга человека. Это научный факт! Сейчас этот процесс ускорился даже не в разы, а сразу на несколько порядков. По С. Дробышевскому через 200-300 лет нас ждет деградация до солитера - роботы и ИИ будут готовить питательный раствор, в котором наши потомки будут плавать. Даже жевать уже на надо будет, питание будет идти через кожу.
Полная и окончательная нирвана!
Вот вы требуете от разработчиков анализировать оригинальные работы и приводить ссылки, а сами-то следовать этому правилу не считаете нужным.
Приведённый вами "факт" — это фейк, широко растиражированный в рунете. Он происходит от одной-единственной работы (DeSilva, J. M., Traniello, J. F. A., Claxton, A. G., and Fannin, L. D., When and why did human brains decrease in size? A new change-point analysis and insights from brain evolution in ants.), которую уже многократно опровергли (пример).
Интересно, зачем? Вы патаетесь догнать уже ушедший поезд. ChatGPT УЖЕ занял бОльшую долю рынка. Вы пытаетесь потратить тысячи человеко-часов / миллионы долларов, чтобы занять долю в 1%? Если речь идёт об интеграции в собственные сервисы - у вас ничего не удастся. До релиза будет потрачено огромное количество ресурсов, а качественно их это всё равно не улучшит. Имхо
А сколько эпох обучалась претрейн модель? На 300 Гбайт сете для которого диаграмма нарисована.
Здравствуйте!
Подскажите пожалуйста, есть ли способы увеличить длину контекста при дообучении или без для ruGPT3.5 или ruGPT3?
При поиске по инету не нашел информации. Если в какой-то статье об этом написано, буду благодарен за ссылку или за объяснение.
Спасибо!
Величину контекста для gpt моделей определяет размер таблицы attention (размерность квадрат от контекста) в декодере, для ее увеличения нужно переучивать модель (причем с нуля)
https://habr.com/ru/articles/486358/
еще на русском рекомендую послушать лекции Igor Kotenkov
p.s. Есть какие то техники построения сети чтобы не было этой квадратичной зависимости от длины контекста, но все они так или иначе потребуют повторное обучение.
я начну от простого. А как на это посмотреть?
Приглашение получил, но там просто нет GigaChat. Робота спрашивал, но он показывает картинки на который есть, но у меня нет. Это у всех или мне так повезло:(
Просто звона много, что создает впечатление работы по желанию нагнать трафик и зная СБЕР облажаться по полной (было много опыта по бизнес и по жизни).
прошла неделя и как не было возможности пощупать gigachat так и нет. У кого то вообще доступ есть? Есть что реально зашел и сам все увидел?
У меня вот тут появился доступ https://developers.sber.ru/ после регистрации (в тг какая-то клоунада, бот выдает ссылку на страницу ожидания, они не сделали нормальный лендинг для уже прямого доступа)
У меня есть доступ, но gigachat там нет. Робот показывает обучение в картинках, но именно gigachat там нет, наверное мне не повезло, а то у меня сложилось неприятное впечатление что тему разгоняют в самого продукта нет и люди просто денежки осваивают на теме, хотя на сколько вижу по посту о тесте я не далек от данного утверждения.
Если кому интересно, мои первые эксперименты
Да неделю как висит объява, что типа дообучают. Откроете или совсем закрыли?
Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера