averkij 24 апр 2023 в 12:02

Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера

Средний

14 мин

111K

Блог компании СберБлог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*

+221

233

Комментарии 233

dayyass 24 апр 2023 в 12:22

Огонь!

ValeriyPus 24 апр 2023 в 14:24

Начиная от 3:97 в пользу ChatGPT, нам удалось добиться результата 30:70 в финальной версии модели.

Т.е. не догнали даже gpt 3.5? ) А уже GPT 4, да еще и с Wolfram )

-4

Rajken 24 апр 2023 в 14:39

размеры моделей несопоставимы вообще-то. У GPT 3.5 175 млрд. параметров, а вы хотите чтобы ее догнала модель с 13 млрд. параметров?

+14

НЛО прилетело и опубликовало эту надпись здесь

oulenspiegel 24 апр 2023 в 15:29

LLama не в 10 раз меньше, а по компьюту при обучении большая LLama вообще +- то же самое, что GPT-3 175B

НЛО прилетело и опубликовало эту надпись здесь

oulenspiegel 24 апр 2023 в 15:52

Не видел таких утверждений у них. Может, где-то пропустил.

В целом я очень советую вот эти три пейпера для понимания, то что там «на самом деле» :)

https://arxiv.org/abs/2206.04615
https://arxiv.org/abs/2203.15556
https://arxiv.org/abs/2207.10551

НЛО прилетело и опубликовало эту надпись здесь

rPman 24 апр 2023 в 20:23

Лучше смотреть на объективные тесты
https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu

Так же интересно смотреть по ссылке на тесты конкретной модели в колонке Result, а именно таблицу carbon emission, по факту энергнопотребление тюнинга модели по сравнению с другими большими моделями типа opt и bloom и как ни странно, потребление почти не зависит от количества весов, т.е. я думаю если весов меньше, сходимость у модели медленнее, но шаги вычисляются быстрее что компенсирует.

НЛО прилетело и опубликовало эту надпись здесь

rPman 24 апр 2023 в 20:37

да, действительно gpt3 модель была слабой, пока ее не затюнили до chatgpt3.5 на основе живого общения с агентами (не удивлюсь если и на тех вопросах сообщества, что активно собирались все время ее использования)… llama же никто не тюнил, и она с рождения была лучше но не без недостатков… можно порыться на сайте по ссылкам, там есть таблички сравнения качества работы llama на разных доменах (типах знаний).

очень жаль что open-assistent тюнили 30B модель а не 65B, было бы интересно провести тестирование уже после их тюнинга

rsbis 26 мая 2023 в 16:55

уважаемые теоретики, из вас кто-о сам видел этот gigachat. У меня его например нет совсем. Робот настойчиво показывает картинки где искать, но его там нет. Может кто подтвердить что он его сам трогал и у него есть доступ, а то где не задаю вопросы? то все на основе пресс релизов строят мнения и при этом у самих опыта реального использования не было

Pak911 24 апр 2023 в 16:01

Справедливости ради, мы не знаем сколько у 3.5 параметров. Насколько я помню последнее что они говорили -- это 175М, но для оригинальной ChatGPT. И при этом сейчас 3.5 по api продается в 10 раз дешевле чем было. Я не удивлюсь, если они смогли просто дистиллировать оригинальную модель и теперь там гораздо меньше 175М параметров.
Что, конечно, не умоляет заслуг Сбера. Требовать от них чтоб они с листа сразу сделали модель на уровне просто лучшей в мире, это как минимум наивно. Отставать на шаг-два от мирового лидера вполне ок. Судя по тому что они написали, кажется, что их модешь примерно на уровне Барда и Лламы сейчас. А размеры Сбера с одной стороны и фейсбука с гуглом с другой несопоставимы

+20

Alexey2005 24 апр 2023 в 16:33

К тому же собрать качественный датасет на русском — задача куда более сложная и затратная, чем сборка англоязычного датасета. Просто сравните, сколько в Интернете англоязычных текстов и сколько — русскоязычных.

+20

НЛО прилетело и опубликовало эту надпись здесь

averkij 2 мая 2023 в 07:50

Ну и он маленький

НЛО прилетело и опубликовало эту надпись здесь

Ctrl-V 25 апр 2023 в 21:24

А нельзя использовать англоязычный, но переводить по капотом на русский? Информации на английском очень много и жалко, что она не используется. С таким подходом можно вообще все языки заюзать.

НЛО прилетело и опубликовало эту надпись здесь

Alexey2005 25 апр 2023 в 21:59

Именно так и было сделано при обучении "Малевича" (ruDALL-E): картинки с подписями собрали со всего Интернета, а потом подписи к ним перевели на русский автопереводчиком и всё это использовали для обучения сети.
В итоге пользоваться этим было по-настоящему мучительно: при составлении запроса ощущаешь себя так, словно пытаешься что-то найти на русскоязычном aliexpress'е. Запрос мысленно приходится всё равно составлять на английском, только потом ещё и гадать, во что превратил те или иные термины автопереводчик.
Поэтому как только в свободный доступ попала англоязычная dall-e mini, я про "Малевича" тут же забыл как про страшный сон.

НЛО прилетело и опубликовало эту надпись здесь

Hardcoin 25 апр 2023 в 08:26

Почему вы сравниваете с Фейсбуком и Гуглом, а не с openai?

abutorin 25 апр 2023 в 13:07

Тогда нужно сравнить с Microsoft. Или вы думаете openAI не пользуется возможностями материнской компании?

Hardcoin 25 апр 2023 в 15:07

Вы даты внимательно сравните. 10 миллиардов им дали в январе, а gpt-4 был выпущен в марте. Значит в январе он уже был готов для показа инвесторам. Значит сделали его на предыдущие инвестиции, которые заметно меньше. И Microsoft нельзя было назвать "материнской компанией". Просто один из десятка инвесторов.

VadimPRO 24 апр 2023 в 16:03

Влияет не только кол-во параметров, но в целом да, согласен

ValeriyPus 24 апр 2023 в 16:45

Ну а ловкий трюк с вольфрамом?

В принципе, получая алгоритмы аналогом DreamCoder можно прийти к гораздо более лучшим результатам, чем Дистиллированный Трансформер Илона-Гейтса ).

Всё NLU весит под 100-200 мегабайт (синтаксис, синонимы (и даже любые другие отношения выраженные в координатах)), Q&A, etc). Преобразование Язык -> запрос -> обработчик запроса -> результат напрашивается сам собой.

Вообще большие модели работают только благодаря квантизации (quantization) (правда, даже на телефоне в оффлайн).

Тот же Китай публиковал результаты обучения мультимодальной сети на каком-то своем фреймворке, и там было скорее описание того, как они это все распараллелили.

НЛО прилетело и опубликовало эту надпись здесь

rPman 24 апр 2023 в 20:30

квантизация значительно ускоряет работу, ее и на gpu используют, ну а агрессивная 4-битная это вообще за гранью и даже она все равно понижает качество работы на считанные проценты.

Напоминаю, языковые модели галлюцинируют, шум в выборе варианитов ответа (например при значении температуры больше 0.5, по умолчанию 0.8 у llama) делает больше 'вреда' (как и пользы) чем эти проценты от квантизации.

НЛО прилетело и опубликовало эту надпись здесь

rPman 25 апр 2023 в 05:07

уже 3bit по тестам дают сильное ухудшение (десятки процентов), смотрим эксперименты с разными типами квантизации:

ValeriyPus 25 апр 2023 в 06:00

Ну да, вот большие корпорации любят тратить 2 доллара а не 10 центов на амортизацию оборудования и электричество )

Вообще все эти Мы обучили такую же сеть напоминает:

https://youtu.be/cuxZ2u8-WXg?t=54

KGeist 24 апр 2023 в 22:43

В больших моделях большое число параметров стоит в нули, т.е. не участвуют в выводе никак. Проект Chinchilla показал, что можно улучшать результат не увеличением числа параметров, а увеличением объёма данных для обучения. Vicuna на 13 миллиардов по ощущениям как чатбот/генератор текстов вполне на уровне GPT3.

stalkermustang 25 апр 2023 в 09:56

Модель gpt-3.5-turbo, которая сейчас и доступна в качестве ChatGPT, по прикидкам имеет как раз 13B параметров. На это указывает то, что её стоимость равна стоимости модели, которая имеет 13B параметров (а может даже 6.7B, не помню, то есть еще меньше), и OpenAI писали, что "уменьшили стоимость инференса ChatGPT в 10 раз" (вероятно, уменьшим размер модели).

Так что в этом плане сравнение честное, как мне кажется.

-2

oulenspiegel 28 апр 2023 в 11:47

У вас неверная информация

НЛО прилетело и опубликовало эту надпись здесь

stalkermustang 29 апр 2023 в 02:11

Любой аргумент против? Хоть что нибудь?

iron-zorin 24 апр 2023 в 21:54

А помните, был такой ABBYY Compreno?
Интересно, хоть что-то от него в дело пошло?

maxwolf 24 апр 2023 в 23:47

Помню, следил, даже пытался у них демку/тест выцыганить. Какое-то время назад мне казалось, что будущее — за гибридными моделями. Т.е. "нейронка" должна строить вот такие knowledge graph — онтологии, "читая" и "обдумывая" входящие данные. Ну и, может быть, немного помогать диалоговым системам в анализе нечётких данных (оценка эмоций, статистически малозначимых результатов, плохо кластеризуемых наборов данных) для построения логических выводов по графам. Сейчас все ринулись развивать флудилки, и вопросы reasoning и knowledge extraction как-то уходят на второй, или даже третий, план...

dushinYu 28 апр 2023 в 12:00

Сейчас все ринулись развивать флудилки, и вопросы reasoning и knowledge extraction как-то уходят на второй, или даже третий, план

Очень точно сказано!

support917 24 апр 2023 в 12:30

Очень интересно. Пугает только отсутствие какой то конкретики по срокам.

И ещё интересно, будет ли модель способна писать функции на любых ЯП по описанию на естественном языке?

averkij 24 апр 2023 в 12:54

Претрейн хотим в ближайшие недели опубликовать.

А с кодом да, упор был на несколько самых популярных, в новом претрейне будет гораздо больше языков.

rPman 24 апр 2023 в 18:42

подскажите, ваша модель совместима с кодом с репозитария ggreganov llama.cpp или если быть точнее ggml? в смысле алгоритм использования является gpt?

Дело в том что код работы языковой модели на процессоре x86/arm от этого разработчика работает как то слишком уж быстро, отличаясь от топовых gpu всего на порядок (при разнице в стоимости железа на два порядка).

ZvaroG 24 апр 2023 в 21:40

Насколько реально обучить нейросеть для перевода кода с С++14 на С++ 17, с Python 2 на Python 3 ?

Или для оптимизации/ рефакторинга кода. Задачу сильно упростит, если выдачу клиенту можно пропускать через компилятор, отладчик до тех пор пока не будет появляется ошибок компиляции, и варнингов. т.е. скрестить нейросеть не с ВольфрамАльфой, а с GitHub и онлайн компиляторами.

Alexey2005 25 апр 2023 в 13:37

Я бы для этого попробовал сперва обучить на ваших исходниках текстовый автоэнкодер, затем закодированные им датасеты (целевой и исходный) использовал для обучения CycleGAN или CUT GAN. Такое можно обучить полностью с нуля на потребительской карточке и получить на выходе относительно компактную сетку с очень большим размером контекста.

НЛО прилетело и опубликовало эту надпись здесь

rPman 25 апр 2023 в 08:13

А разве существуют сети, которым в обучающей выборке верилог давали?
а достаточно ли чтобы у сетки сформировалось правильное отношение к языку? а были ли в обучающей выборке не синтезируемые скрипты? и чем черт не шутит, обучали ли сеть причинам этого?

Если нейронные сети уже с успехом справились со сворачиванием белков, почему бы им не научиться и этому? отличный пример чем можете заняться, будете потом продавать услуги на эту тему...

Vadim878 24 апр 2023 в 12:56

Вас только это пугает из все статьи? С учетом того, что такой сетью теперь может воспользоваться и ребенок и мошенник. Такие вещи в ближайшее время тут начнутся. Как минимум первое, что видится это отрицательный отбор. Когда некомпетентные люди вытеснят с помощью таких сетей профессионалов своего дела. В будущем это будет означать отсутсвие полной мотивации к личностному и профессиональному развитию. Зачем изучать программирование, литературу, музыку и тд. Если даже школьник с 9 классами сможет через чат за пару минут сделать то, что делают профессионалы, которые потратили тысячи человеко-часов на образование.

-16

support917 24 апр 2023 в 13:03

Да это просто замена Гуглу, где уже пару десятков лет тоже можно найти конкретные ответы, не погружаясь в область и не нанимая эксперта.

Раньше приходилось гуглить и отсеивать выдачу, уточнять запрос. Теперь можно просто в чате спросить и сразу получить конкретный ответ (ложный в 10%).

Никакой революции тут нет, скорее эволюция.

Еще плюс - честная плата за ответы, без манипуляции "бесплатностью" и скрытого шпионажа.

+11

Vadim878 24 апр 2023 в 13:13

Эту сеть от сбера еще не тестил. Возможно это уровень гугла. Но ведь всем понятно, что аппетит приходит во время еды. И не за горами gpt - 5, 10 и тд. И это не какое то будущее, а реальность. Собственно в рускоязычном сообществе разработчиков я вообще не видел тех же дискуссий, что происходят на Западе:

«Должны ли мы позволять машинам наводнять наши информационные каналы пропагандой? Должны ли мы автоматизировать все рабочие места? Должны ли мы развивать нечеловеческие умы, которые в конечном итоге могут превзойти нас численностью, перехитрить, сделать нас ненужными и заменить нас? Должны ли мы рисковать потерей контроля над нашей цивилизацией?»

-2

support917 24 апр 2023 в 13:25

Уровень Гугла у Openai сейчас. У Сбера выйдет что-то похожее по качеству на текущие опенсорс модели, типа Dolly (они на русском не очень сейчас, поэтому есть такая ниша).

А по поводу остального... У любой системы есть ограничения на масштабирование, посмотрим, выйдет ли когда-то GPT-5 в той же парадигме.

oulenspiegel 24 апр 2023 в 15:30

Это вы на чём нашу модель тестировали и где?

support917 24 апр 2023 в 16:40

Только Кандинского попробовал, почему-то ответы никак не были связаны с моими запросами в 10 из 10 попыток 😂 В квантовый скачок из этого в gpt3.5-turbo не верю, ожидаю русский аналог Викуны для английского.

-1

oulenspiegel 24 апр 2023 в 17:11

А причём тут Кандинский вообще?..

support917 24 апр 2023 в 17:19

Последний продукт, основанный на генеративной нейронке от Сбера. Именно текстовые не знаю даже где можно попробовать.

AlexG37G 24 апр 2023 в 14:37

"Собственно в рускоязычном сообществе разработчиков я вообще не видел тех же дискуссий, что происходят на Западе."

Здесь, Телеграм каналы, где общаются https://agirussia.org/

Поиск, форум, мне выдал https://agi.place/

dushinYu 28 апр 2023 в 12:08

А каков результат этих дискуссий? Уже не осталось информационных каналов без пропаганды. Поэтому вопрос не имеет смысла. Пора задаваться вопросом, как с этим жить?
Впрочем, похоже, что и эти вопросы тоже сгенерировал ИИ

-1

lovermann 24 апр 2023 в 14:47

Чтобы понять, сколько этим нейронкам еще пиликать до какого-то уровня, достаточно посмотреть на переводчики между языками. Это очень узкая область с своим набором довольно чётких датасетов, но до утраты профессии переводчка ещё как до луны, хотя разрабатывают эти переводчки уже сто лет. А тут и четких датасетов нет, просто гуглобайты информации, которая вообще слабо структурирована.

+11

Rajken 24 апр 2023 в 16:49

вот это кстати очень интересная тема. На реддите недавно был пост про то, как человек переводил поэму с японского на английский с помощью ChatGPT. И он там очень хорошо расписал плюсы и минусы переводов через специализированные переводчики или LLM модель. Грубо говоря, у ChatGPT лучше с пониманием языков и "фантазией". Еще его можно "на лету" корректировать по стилистике или другим моментам. А переводчик - нет. Он более детерминирован.

semmaxim 24 апр 2023 в 14:48

Как-то по Вашим словам любой школьник должен был давно вытеснить профессионала благодаря наличию google, stackoverflow и github? Самое сложное - это не написать код на задачу, а понять цель и сформулировать эту задачу. А уже закодировать всегда было просто.

+13

VitalyKartashov 24 апр 2023 в 14:50

Чахните, как кащей над златом? Самому-то не стыдно? "Профессионал с тыщами человеко-часами"

DeggerZed 24 апр 2023 в 14:57

если даже школьник справится с этой задачей то и хорошо, профессионал переключится на другие где нужна его компетенция, вас же не смущает отсутствие профессии счетчиков которых заменил с начало калькулятор а потом компьютер, или что расчет нагрузок выполняются сейчас нажатием пары кнопок.

AlexeySamolievich68 24 апр 2023 в 15:21

Дружище, твоя мотивация никого не волнует. Найдётся куча людей которые захотят работать. У тебя нет никакого рыночного веса, тем более если ты дуешь губы при виде новых технологий

K0styan 24 апр 2023 в 16:14

Если "профессионала" можно заменить нейросетью - то во-первых так себе из него профессионал.

А во-вторых, как правило не бывает такого, что техника заменяет людей при сохранении всего остального. Обычно вся отрасль качественно меняется. Что на большом масштабе для людей - плюс.

Terimoun 24 апр 2023 в 12:39

Были ли в инструктивном датасете ответы ChatGPT? И если были, то сколько?

+15

palyaros02 24 апр 2023 в 13:58

Очевидно, что вам не ответят. OpenAI запрещает использовать ответы их моделей для обучения других, и если стает известно, что хотя бы один пример попал в сберовской датасет, это поставит крест на любом применении модели, кроме исследовательского.

oulenspiegel 24 апр 2023 в 14:21

Пользовательское соглашение ChatGPT, кстати, запрещает использование ответов ChatGPT для обучения моделей-конкурентов ChatGPT. Но использование ChatGPT самими OpenAI в РФ запрещено. Соответственно модель от Сбера не является конкурентом ChatGPT.

Это к вопросу о законности, если вдруг кто-то хочет такое сделать.

А так — мы разметили очень много своих собственных данных + сгенерировали много разной синтетики.

exwill 24 апр 2023 в 14:36

SQL запрос по описанию сделает?

-1

oulenspiegel 24 апр 2023 в 15:31

Сделает. Не всегда правильно, разумеется, как и ChatGPT

exwill 24 апр 2023 в 17:16

Как бы побыстрее сравнить? У меня уже есть сервис, который обеспечивает, в частности, связку 1С и OpenAI. Материала для проверки достаточно

support917 24 апр 2023 в 15:20

А где тут логика? Или гигачат будет доступен только на территории РФ?

oulenspiegel 24 апр 2023 в 15:32

Если у вас нет планов создания коммерческого продукта, конкурирующего с ChatGPT в юрисдикциях, где работает ChatGPT, то сами понимаете

aGGre55or 24 апр 2023 в 15:55

Это к вопросу о законности, если вдруг кто-то хочет такое сделать.

И что будет если кто-то захочет такое сделать (конкретно)? Зампред Совбеза РФ предложил пользоваться интеллектуальной собственностью Запада без лицензии.

Alexey2005 24 апр 2023 в 16:36

Очевидно, что такой продукт можно будет использовать только на территории России. Равно как и любые сервисы, которые будут на нём основаны. И хостить такое можно будет только на отечественных мощностях, потому что забугорный хостер заблокирует по первой же жалобе на нарушение копирайта.

aGGre55or 24 апр 2023 в 17:44

А что, GigaChat имеет прицел в европейскую или американскую аудиторию? Это неожиданно. Очевидно, забугорный хостер заблокирует продукт если его попросят по любой причине и без объяснений. Перед глазами пример ЦОД Яndex в Финляндии отключенный от питания. Наверное, в случае GigaChat речь идёт о дата-центре, а не хостере и видимо это без вариантов м.б. развёрнуто только на отечественных мощностях.

Didimus 25 апр 2023 в 18:16

Что дальше с этим центром, кстати, было? Нигде не пишут, почему-то

aGGre55or 27 апр 2023 в 02:22

Чем закончилось точно не знаю. Знаю что ЦОД больше месяца работал на дизелях и была чехарда со сменой названий юр.лица, но это помогло только до сентября 2022 года, когда были заморожены (арестованы) все активы Яндекса в Финляндии. В том же сентябре 2022 Яндекс заявил что открывает новый ЦОД в Калуге, в индустриальном парке "Грабцево" и теперь он будет крупнейшим. То что финский ЦОД Яндекса отапливал город Мянтсяля, обеспечивал работу финского такси Yango (Яндекс.Такси для финнов) и по ЕС десятки системных компаний, видимо не повлияло, т.к. старше сентября 2022 года новостей не вижу.

НЛО прилетело и опубликовало эту надпись здесь

SquareRootOfZero 24 апр 2023 в 20:17

Является ли подобный запрет в пользовательском соглашении юридически обязывающим? И что будет-то — предполагаемым конкурентам аннулируют лицензию на ChatGPT, или прям зосудят и посодят? Если я обучу модель, чтобы умела решать примеры на сложение, как доказать, что ответ на вопрос "сколько будет два плюс два" был мной получен не от ChatGPT?

slonoten 24 апр 2023 в 14:33

(iii) use output from the Services to develop models that compete with OpenAI;

Т.к. OpenAI блокирует пользователей из РФ, то конкуренции нет, на мой делитатнский взгляд, но OpenAI может решить иначе и обратиться в российский суд.

oulenspiegel 24 апр 2023 в 15:32

С удовольствием на это посмотрю

PTM 24 апр 2023 в 12:40

Интересно когда он научиться "в каком отделении карту открывали-туда и идите" или он сразу умеет?

+14

averkij 24 апр 2023 в 13:05

Пока что нужно пользоваться аналоговыми отделениями.

alexanderkuk 24 апр 2023 в 12:42

Собрав "корзину" из запросов разной тематики, мы провели на ней SBS между нашей моделью и моделью от OpenAI (gpt-3.5-turbo). Начиная от 3:97 в пользу ChatGPT, нам удалось добиться результата 30:70 в финальной версии модели

Вы не могли бы опубликовать список запросов?

ksotar 24 апр 2023 в 12:43

Вы молодцы, всегда с интересом слежу за вашими результатами.

>размером более 2Тб

А точно именно терабит?

averkij 24 апр 2023 в 12:55

Точно, терабиты уже есть. Поправил.

janvarev 24 апр 2023 в 12:51

Спасибо, очень ждем веса в открытом доступе! + если сделаете квантование в 4 бит под основные движки (safetensors для CUDA + ggml под llamacpp CPU) ,будет вообще супер.

Pak911 24 апр 2023 в 16:11

Вы же обратили внимание на то, что они пообещали выпустить в опенсорс не саму ГигаЧат, а

модель ruGPT-3.5 13B, на основе которой был обучен GigaChat

janvarev 24 апр 2023 в 16:43

Лучше это, чем ничего (понятно, что лучшую модель, возможно, оставят себе). К тому же помню, кто-то делал русскоязычный корпус вопросов и ответов (вроде OpenAssistant), так что, возможно, сможем сами адаптировать.

averkij 24 апр 2023 в 18:18

Основной вычислительный ресурс тратится как раз на претрейн, который хотим выложить.

ZvaroG 24 апр 2023 в 23:33

Используется ли "сжатие"/''нормализация" датасетов ? Объясню на примере что я имею ввиду - допустим имеется код на Си. В одном случае он использует для форматирования пробелы, другая его версия использует символ табуляции - с логической точки зрения оба кода полностью идентичны, возможны и другие его вариации с разным форматированием но одинаковыми exe-шниками при компиляции. Логично преобразовать все эти тексты, ПЕРЕД токенизацией, какому-то одному стандарту. Т.е. удалить весь шум из "датасета".
Развивая эту идею - можно сжать датасет и попробовать обучить сеть на сжатых текстах (ведь архиватор фактически некоторый аналог токенизатора). Идея вроде лежит на поверхности и её наверное кто-то уже попробовал ... но я что то не могу найти примеров ...

Alexey2005 24 апр 2023 в 23:56

Сильно сомневаюсь — ведь основное преимущество трансформерной архитектуры как раз в том и состоит, что она эффективно выучивает все эти различия между логически эквивалентными стандартами при достаточно большом датасете. Так что особо нет смысла заморачиваться подобным.
Только сжимать надо так, чтобы сжатие выносило наверх информацию о взаимосвязи между словами, делая её максимально доступной, а ужимало текст за счёт прятания побочной, неосновной информации. Такое вовсю используется, гуглить по запросу "текстовые автоэнкодеры", например статью "There and Back Again: Autoencoders for Textual Reconstruction".

niksor21 24 апр 2023 в 12:57

У GigaChat есть веб-интерфейс для взаимодействия, как у ChatGPT? Как можно его попробовать?

support917 24 апр 2023 в 13:06

Это пока просто анонс (байт на подписку на канал), ничего еще нет.

averkij 24 апр 2023 в 13:11

Веб-интерфейс есть, но да, всем он будет доступен чуть позже. Коллеги уже готовятся к массовому запуску.

sunsexsurf 26 апр 2023 в 02:25

по API все это добро можно будет дергать?

averkij 26 апр 2023 в 07:09

Да, API есть.

exwill 26 апр 2023 в 09:49

Когда начнете открывать доступ?

Vadim878 24 апр 2023 в 13:04

А вообще кто-нибудь задумывался куда такие сети приведут человечество? Не имея компетенция и профессиональных знаний можно в скором времени большинство профессий отменить. Да и в целом самих ml инженеров. Все таки такие вещи, а тем более еще продвинутее нельзя отдавать в опенсорс.

-13

AlexG37G 24 апр 2023 в 14:43

нельзя отдавать в опенсорс

OpenAssistant: Вышла бесплатная открытая альтернатива ChatGPT

freehabr 24 апр 2023 в 13:11

Советую добавить функционал как в https://minigpt-4.github.io/, когда можно загрузить картинку и обсуждать ее, генерировать по ней код и т. д.

averkij 24 апр 2023 в 13:13

Да, классная штука. Мы тут экспериментируем с мультимодальностью (это когда можно обрабатывать разные типы данных) и в следующий релиз как раз планируем добавлять понимание изображений. Сначала простое, на основе FROMAGe, а потом более глубокое, которое сможет учитывать детали.

freehabr 24 апр 2023 в 13:12

И еще очень хотелось бы аналог github copilot, который можно встроить в IDE.

averkij 24 апр 2023 в 13:48

А это можете у коллег из PLP (programming language processing) команды спросить. Они уже такое делают с плагинами и своими спец. моделями. https://t.me/nlpcoreteam

freehabr 24 апр 2023 в 13:19

Вообще, хочется поделиться своими мыслями. Генеративные нейросети это очень классно, но лучше всего они проявляются в работе с конкретным контекстом. Например, когда чат-бот может анализировать историю чата, почтовый клиент подсказывать текст по переписке, текстовой процессор анализировать все документы на твоем диске и так далее. Я вот хотел бы аналог Figma, где можно текстом попросить дизайн сайта, а потом в диалоге корректировать результат. И мультимодальные модели насколько я могу судить лучше мономодальных, причем не только потому что "а они еще и картинки могут", а потому что работа одновременно с текстом и с образами делает мышление более "человеческим". В общем, очень классно что теперь есть российский аналог чатгпт. Но если правильно начать внедрять его в контексты конкретных программ, то можно будет сделать даже лучше. :)

Vadim878 24 апр 2023 в 13:36

А можно ли уже сейчас с помощью этой сетки полностью сгенерировать "под ключ" высоконагруженные проект с балансировщиками, бд, микросервисами и прочими элементами? То есть можно ли генерировать проекты уровня Senior?

-3

averkij 24 апр 2023 в 13:45

Такие пока что нельзя, но наш план максимально приближаться к возможностям ChatGPT. По длине контекста, кодогенерации и другим задачам. Плюс хотим мультиязычность и мультимодальность прокачивать.

dmi3mart 24 апр 2023 в 13:52

Конечно нельзя, это пока в принципе совершенно утопические фантазии.

support917 24 апр 2023 в 13:59

Для этого нужен отдельный стак-оверфлоу, где бы мидлы просили сеньоров написать нужный высоконагруженный проект по описанию. И чтобы там были миллиарды таких вопросов и ответов, с обсуждениями и предложениями по улучшению ответов.

Но пока что модель обучена на том, что было, умеет писать простые часто встречающиеся функции и решать типовые проблемы, спасая чей-то день.

+13

morijndael 25 апр 2023 в 00:34

Можно, но придется нанять промпт-инженера. А их ещё очень мало, поэтому будет дорого ;)

ScreamPassion 3 мая 2023 в 05:03

Проект не напишет, но полы помоет)))

Видя такие вопросы сразу вспоминаю как несколько раз от нескольких людей слышал очень смешной вопрос о том, сколько нужно джунов чтобы заменить одного синьера)

AigizK 24 апр 2023 в 13:37

Круто, молодцы. Чем больше открытых моделей, тем трава зеленее 😄

averkij 24 апр 2023 в 13:42

Согласен. А в следующей версии ещё планируем мультиязычность улучшить.

yatanai 24 апр 2023 в 13:39

Как планируете монетизировать? Будет ли сетка ограниченно-бесплатной, как у той же OpenAI или какие-то свои схемы?

all_this_is_vanity 24 апр 2023 в 13:41

Не увидел генерацию кода, умеет ли это? Или просто пиар компания на чужих плодах?

-3

Chillingwilli 24 апр 2023 в 14:15

Ни то, ни другое

-2

oulenspiegel 24 апр 2023 в 16:51

Генерацию кода умеет

all_this_is_vanity 26 апр 2023 в 12:27

не вижу примеров, все еще.

Как по мне дешевая подделка.
Просто смешно как все стремятся обойти OpenAI, пытаясь копировать их продукт и "симулировать" превосходство над ним.

Либо сделайте аналог целиком, либо сделайте своё что-то.

Выглядит как клоунское шапито - "Сматрите ми тожи тяк мажем"

НЛО прилетело и опубликовало эту надпись здесь

all_this_is_vanity 27 апр 2023 в 07:42

я об этом и пытаюсь сказать! Т.е. действительно куда не глянь, везде сражение с чатомГПТ и постоянные победы над ним, но его реально сложно победить :)

Enfriz 24 апр 2023 в 14:36

А каким образом принимается решение об одобрении заявок, по аватарке что ли? ) А то я аккредитованный разработчик под Салют, а доступа пока не дали.

Rajken 24 апр 2023 в 14:42

А какая длина окна контекста у вашей модели?

averkij 24 апр 2023 в 14:52

2048

oulenspiegel 24 апр 2023 в 15:34

В токенах. Токен около 5 символов для русского.

НЛО прилетело и опубликовало эту надпись здесь

oulenspiegel 24 апр 2023 в 15:55

Такого нет. Надо сделать)

Kristaller486 24 апр 2023 в 20:31

Я конечно не эксперт, но у меня токенайзер rugpt3 выдает один токен на одно русское слово.

Картинка

Alexey2005 24 апр 2023 в 21:05

Зависит от частоты встречаемости слов. Уже приводил в соседней теме пример токенизации текста сберовским токенизатором,

приведу и здесь ( | - граница раздела токенов)

Num of tokens: 123
Те| п|сы|,| что| с| ры|жими| хво|стами|,|
|Се|бе| ов|ся|нку| вар|ят| сами|.|
|Те|,| чьи| хво|сты| ст|ального| цвета|,|
|Не| научились| делать| это|.|
|Кто| ва|рит| сам| себе| ов|ся|нку|,|
|Гу|лять| не| выйдет| сп|оза|ран|ку|.|
|А| кто| гулять| выходит| рано|,|
|Не| терпит| фальши| и| обмана|.|
|Вид| добродуш|ный| у| Бар|б|оса|,|
|Но| на| сорок| он| смотрит| кос|о|.|
|Он| видит|:| норов|ят| сор|оки|
|У| вороб|ь|ёв| спи|сать| уроки|.|
|Ответ|ьте| -| проще| нет| вопроса| -|
|Как|ого| цвета| хвост| Бар|б|оса|?|

НЛО прилетело и опубликовало эту надпись здесь

Alexey2005 24 апр 2023 в 21:50

Код на python с пробелами

Num of tokens: 92
#| L|oad| f|ile| if| ex|ists|,| and| return|s| its| st|ring| content|
|#| If| f|ile| not| ex|ists|,| return|s| ""|
|de|f| l|oad|_|f|ile|(|f|n|ame|):|
|   | if| not| o|s|.|p|ath|.|is|f|ile|(|f|n|ame|):|
|    |   | return| ""|
|   | with| open|(|f|n|ame|)| as| f|:|
|    |   | t|xt| =| f|.|read|(|)|
|   | return| t|xt|

Видно, что пробельные строки режутся из расчёта 4 пробела на токен. Если после четырёх пробелов идёт обычный символ, то токен включает 3 пробела, а четвёртый стыкуется с ключевиком.

Код с табами

Num of tokens: 158
#| Writ|e| def|ault| sett|ings| if| F|IL|E|_|S|ET|T|IN|G|S| not| ex|ists|
|\t|if| not| o|s|.|p|ath|.|is|f|ile|(|F|IL|E|_|S|ET|T|IN|G|S|):|
|\t|\t|with| open|(|F|IL|E|_|S|ET|T|IN|G|S|,| '|w|'|)| as| conf|ig|f|ile|:|
|\t\t|\t|con|f|ig|.|writ|e|(|con|f|ig|f|ile|)|
|\t|el|se|:|
|\t|\t|con|f|ig|.|read|(|F|IL|E|_|S|ET|T|IN|G|S|)|
|\t|
|\t|s|ett|ings| =| conf|ig|[|'|s|ett|ings|'|]|
|
|#| ПРО|ВЕР|КА| ТО|К|ЕН|И|ЗА|Ц|ИИ| Т|ЕК|СТА| В| В|ЕР|Х|НЕ|М| РЕ|ГИ|СТ|РЕ|
|

Хабр странно обрабатывает Tab'ы, поэтому перед вставкой сюда заменил их символами \t (в токенизатор попадают в виде именно Tab'ов, без экранирования). Видно, что токен может включать один или два таба. Также здесь видно, что текст в верхнем регистре токенизируется значительно хуже.

НЛО прилетело и опубликовало эту надпись здесь

Alexey2005 24 апр 2023 в 23:38

На данном куске этого не видно, но тут в словаре ещё есть токен на 16 пробелов, т.е. если сделать пять отступов — будет замена двумя токенами (16-пробельным и трёхпробельным, последний пробел уйдёт в ключевик).

НЛО прилетело и опубликовало эту надпись здесь

oulenspiegel 24 апр 2023 в 15:54

да, ведутся

AlexG37G 24 апр 2023 в 14:49

Почитал..

https://ai.sber.ru/

freehabr 24 апр 2023 в 15:05

AlexG37G 24 апр 2023 в 15:30

Повезло) Меня не пущает

deadbeat321 24 апр 2023 в 15:45

Добавьте корневой сертификат сайта в доверенные.

НЛО прилетело и опубликовало эту надпись здесь

Kristaller486 24 апр 2023 в 15:31

Дообучать LLaMA 13B на наших инструкциях мы тоже пробовали и результаты оказались неплохи, однако ruGPT-3.5 13B показала себя лучше в SBS тестировании — 58:42 в пользу нашей модели.

А на каком языке сравнивали? На родных для моделек или для обоих на русском?

averkij 24 апр 2023 в 15:42

Пока обе на русском. В LLaMA русский тоже был, поэтому она в целом неплохо генерирует после дообучения.

НЛО прилетело и опубликовало эту надпись здесь

oulenspiegel 24 апр 2023 в 15:56

Пока нет таких планов, но в будущем частично возможно

НЛО прилетело и опубликовало эту надпись здесь

oulenspiegel 24 апр 2023 в 16:54

В смысле, что вводит людей в заблуждение?

Версию претрейна с 13B параметров мы скоро выложим в открытый доступ.

GPT-3 от OpenAI это: 350M, 760M, 1.3B, 2.7B, 6.7B, 13B, 175B

Сейчас мы выложили в открытый доступ для русского 760M, 1.3B

Если у вас есть доступные вычислительные мощности, призываем вас присоединиться и делать для комьюнити модели больше.

Alexey2005 24 апр 2023 в 16:56

По моему опыту, GPT-подобные модели начинают выдавать вполне качественные тексты уже начиная с 6B параметров. Примерно с этого же размера модель начинает нормально работать с логическими цепочками, а также нормально распознавать, какая часть описания к какому предмету относится.

Например

Боб — брюнет с короткой стрижкой и карими глазами, носит вязаный свитер.
Алиса — блондинка с волнистыми волосами до плеч. У неё серые глаза. Носит джинсы и кроссовки.
Вопрос: какого цвета волосы у Боба?
Ответ:

Модели меньшего размера тупо гадают — это легко увидеть, скормив этот контекст им несколько раз. Начиная с 6B на такие вопросы нейронка отвечает уверенно.

13B работает ещё лучше, однако улучшения уже носят количественный, а не качественный характер — значительно меньше промахов и корявых фраз, но примерно такие же способности к логическому анализу, как у 6B.
Дальнейшее увеличение размера на глаз практически незаметно. Так, мне не удалось в слепом тестировании отличить OPT-13B-Erebus от OPT-30B-Erebus на задаче генерации литературных текстов.

Из всего, что на данный момент выложил Сбер, наилучшие результаты показывает FRED-T5-1.7B. Для моих целей её возможностей уже вполне достаточно, но ruGPT-13B с удовольствием протестирую (если конечно там в архитектуре не будет никакой пакости вроде Sparse Attention, под которую хрен соберёшь модули).

НЛО прилетело и опубликовало эту надпись здесь

Grossmend 24 апр 2023 в 16:37

Молодцы, хорошая работа. В будущем планируете подходы типа https://arxiv.org/pdf/2112.04426.pdf ? Чтобы и модель легче была, и фактические данные больше выдавала?

oulenspiegel 24 апр 2023 в 16:46

Да, и даже немножко хитрее

mvnikia 24 апр 2023 в 16:52

Как планируется монетизировать модель? Платное api, подписка, что-то другое?

osj 24 апр 2023 в 17:35

После входа по СберID будет открыт автоматически кредит, под залог имущества, же.

-6

dKosarevsky 24 апр 2023 в 17:45

Доступ к API тоже волнами или ?

microArt 24 апр 2023 в 17:46

Подожду web-интерфейса, чтобы можно было пообщаться так же, как с ChatGPT. Может, хоть здесь не будет такой замороченной регистрации?
До ChatGPT так и не добралась, а пользоваться разными "посредниками" в виде Телеграм-ботов и тому подобного совсем не хочется, кто его знает, что там за посредник?
Пока общалась только с Ючатом.
Болтает он мило, но с bash-скриптами помочь не может.

Может, Гига-Чат мне поможет со скриптами? (Может, дать ему более человеческое имя? Кандинский же уже есть...)

А так-то особо с ним не пооткровенничаешь, наверное. Ни об окружающих событиях, ни о личных... Кто его знает, кто потом мой разговор с ним станет просматривать.

Яндекс тоже обещал выпустить свою нейросеть. Что-то до сих пор тишина.

Может кто-то посоветовать видео о тренировке (обучении) нейросетей? Как это происходит на практике? Посмотрела бы...
Слишком так далеко от "вот тебе ссылка, прочти статью и сделай выводы" так, чтобы она запомнила новую информацию? Как это происходит?
Сделайте, пожалуйста, такое видео "для чайников".

-1

Alexey2005 24 апр 2023 в 18:18

Слишком так далеко от "вот тебе ссылка, прочти статью и сделай выводы" так, чтобы она запомнила новую информацию? Как это происходит?

Существует два принципиально различных процесса: обучение нейронки с нуля (сложно, долго, дорого, могут делать лишь корпорации или очень большие группы энтузиастов) и дообучение, оно же тюнинг (добавление в уже готовую сеть новой информации).
Второй процесс достаточно прост и протекает примерно так.
В данном видео обучается сеть для генерации картинок, но с текстовыми всё происходит похожим образом — ей скармливается специально размеченный (тегированный) текст в достаточно большом количестве.
Современные методы тюнинга (Soft prompt, LoRA, Hypernetwork) достаточно эффективны, чтобы даже очень большую сетку можно было затюнить на карточках потребительского уровня за несколько суток.
Основная проблема заключается в наличии размеченного датасета — его подготовка может занимать недели и месяцы, даже если трудится небольшая группа.

dustalov 24 апр 2023 в 17:48

Поздравляю! Можете, пожалуйста, рассказать, как размечали данные для модели-оценщика в RLHF?

Portnov 24 апр 2023 в 17:59

Что ж Брэма в него не впечатали...

ivankarmanow 24 апр 2023 в 18:41

Буквально месяц назад начал разрабатывать свой веб-интерфейс для API GPT-3.5 и назвал его как раз GigaChat. Придётся придумывать новое оригинальное название) Ждём информации по API теперь

averkij 24 апр 2023 в 19:16

«Неонка» уже занято, если что :)

Wesha 24 апр 2023 в 20:50

А "думатель"?

averkij 24 апр 2023 в 20:56

Мне нравится.

Didimus 25 апр 2023 в 18:20

Мозготрон.

Wesha 25 апр 2023 в 19:27

Ви как будто "Сказку о Тройке" не читали. Мозготрона там не было!

iron-zorin 24 апр 2023 в 23:39

А Алдан?

kryvichh 24 апр 2023 в 20:12

Mega (если скромно), Giga, Tera, Peta, Exa, ZettaChat ;)

НЛО прилетело и опубликовало эту надпись здесь

ivankarmanow 24 апр 2023 в 20:56

UltraChat, SuperChat и тд, уверен, что через несколько лет все возможные вариации разберут на проекты хоть как-то связанные с ChatGPT) Побежал патентовать какое-нибудь

Didimus 25 апр 2023 в 18:21

Зетта это страховая такая.

SensDj 24 апр 2023 в 20:45

так уже есть готовые интерфейсы

https://github.com/lencx/nofwl - там можно на GPT-4 переключаться

https://github.com/HemulGM/ChatGPT/releases - там только GPT-3.5-turbo

работают без ВПН, но надо иметь свой API key

ivankarmanow 24 апр 2023 в 20:57

Это и стало причиной написания своего, раз кто-то написал, значит и я смогу. Чисто для себя, pet-проект

Snark13 24 апр 2023 в 20:17

А возможен ли распределённый способ обучения нейросетей, наподобие SETI@home? Многие бы помогли своими ресурсами ради такого хорошего дела.

yatariii 2 мая 2023 в 07:56

Вот кстати тоже интересно, ибо если люди прям запарятся то можно невероятные мощности собрать.

Alexey2005 3 мая 2023 в 14:21

Возможен. С его помощью крупные фэндомы (например, любители аниме или фурфаги) обучают свои нейронки, просто попросив всех желающих присоединиться (децентрализация основана на стандартном протоколе DHT).
Проблема в том, что тут очень высоки минимальные требования к клиенту. Этот самый клиент обычно идёт в виде docker-контейнера, жрёт очень много памяти и требователен к видеокарточке.
Например, минимальные требования Swarm Diffusion — 17.5 Гб VRAM (то есть нужны GPU последних серий) и не менее 32 ГБ оперативки.
Впрочем, прямо сейчас идут работы по оптимизации таких распределённых обучалок. В следующей версии обещают снижение требований к VRAM до 8 Гб.

Wesha 24 апр 2023 в 20:37

Названия блюд марсианской кухни

Музыкой навеяло

SadOcean 24 апр 2023 в 21:58

Результат очень хороший.

Но, конечно, самое удачное - название)

rombell 24 апр 2023 в 23:06

Ленин:… А я думаю, что нет ничего справедливее равенства, которое утверждается насилием и ложью.

Это на каком же датасете нужно было обучать сетку, чтобы она такое сгенерировала?
Насколько легко отбором источников настроить модель на определённое желаемое искажение реальности?

Alexey2005 24 апр 2023 в 23:28

На русскоязычном. Или вы полагаете, что в среднем по Рунету к Ленину какое-то другое отношение? Даже убеждённые сталинисты от Владимира Ильича по большей части плюются в своих патриотических блогах.

Насколько легко отбором источников настроить модель на определённое желаемое искажение реальности?

Безусловно легче, чем живую межушную нейронку. Зато в случае выявления таких искажений искусственной модели их легче и исправить, скорректировав обучение. Живые нейронки исправляются далеко не всегда.

-2

perfect_genius 24 апр 2023 в 23:57

Оно то использует букву Ё, то не использует.

От классических сережек до современных браслетов, у нас есть все

Как видно, оно не ставит Ё даже там, где это точно нужно.

Alexey2005 25 апр 2023 в 00:03

В таких моделях отклик в значительной мере определяется стилистикой контекста. Если в затравке-запросе везде есть буква "ё", то и в ответе она будет. Если нет, то и ответ будет от неё максимально очищен.

bugman 25 апр 2023 в 01:56

Выражаю глубокий респект всем участникам этого проекта. Вы проделали крутую работу. Планы у вас отличные и направление на открытость, которое вы взяли, очень подкупает. С нетерпением ждем публичного релиза. Надеюсь, руководство выпишет вам всем бонусов 🙂

Wesha 25 апр 2023 в 05:10

GigaChat, перелогинься!

bugman 25 апр 2023 в 10:31

Нет чтоб порадоваться за ребят, которые заделиверили крутую штуку, так надо брызнуть сарказмом

support917 25 апр 2023 в 10:46

Как заделиверят - так и порадуемся) Пока это просто маркетинговый релиз непонятно чего непонятно когда, если объективно.

Wesha 25 апр 2023 в 10:53

Пусть дадут с ней поиграться, только чтобы без регистрации и SMS.

Wesha 25 апр 2023 в 10:52

крутую штуку

Я уже неоднократно писал — чтобы давать ответы, много ума не надо. А вот чтобы давать правильные ответы...

А то пока получается как-то...

молодой Cталлоне карабкается на пятый этаж горящего дома

пингвины и белый медведь пьют "Кока-Колу" под пальмами в снегу

Короче, низачот.

kirichenec 25 апр 2023 в 10:42

Кто-то в восторге, а я бы диз влепил чисто за название. Вроде уже не 2000е с мемасиками в названиях.
Это же рабочее название, ведь правда?

-8

Infer_King 25 апр 2023 в 10:42

Ребят, удачи вам с реализацией чат-бота. Жду релиза. Надеюсь, на старте не будет массовых перебоев :)

took_the_lead 25 апр 2023 в 10:48

А есть ли смысл переводить с английского на русский инструкции, на которых дообучали Dolly 2, Vicuna, OpenAssistant для дообучения ruGPT-3.5? Мне кажется перевести проще чем писать с нуля. Единственное, что стоит учесть, так это "кросс-валидацию" переводов несколькими участниками и потом вычиткой носителями английского языка с хорошим знанием русского.
И смотрели ли вы на дообучение на коде, выложенном в датасете RedPajama-Data-1T от togethercomputer
https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T/blob/main/urls/github.txt?

grey_rat 25 апр 2023 в 15:07

Жду когда голосовой движок ещё прикрутят к этому чату, типа Алисы, но голоса что б можно было менять на разные. Знакомый сантехник как выпьет, на разговоры бесконечные тянет, а так ему собеседник и даже наверно собутыльник неустающий будет.

dushinYu 25 апр 2023 в 17:02

Насмешил диалог Ленина и Ганди! Ни по стилю, ни по содержанию этот текст никакого отношения к этим личностям не имеет. Очевидно, что в базе данных отсутствуют первоисточники, а наполнены они современными интерпретациями либерального толка причем от низкопробной журналистики. Что хотели получить, то и получили. Зачем было огород городить?
Далее читать не стал.

Alexey2005 25 апр 2023 в 21:19

За первоисточниками Ленина нужно обращаться в немецкий аналог ChatGPT.

markoni 25 апр 2023 в 22:51

В этом есть серьезная проблема. С одной стороны - есть "Воспоминания и размышления" Г.Жукова, с другой художественные "произведения" Суворова-Резуна. Тексты - про один и тот же временной период (с допущениями), но смысл - совершенно разный. Какой источник будет взят за основу? Опять же, есть "Архипелаг..." Солженицина, а есть статистика, и официальные материалы.

Alexey2005 25 апр 2023 в 23:48

Очевидно, что надо подстраиваться под большинство, потому что сеть предполагается для массового использования. Поэтому присваивать больший "вес" текстам с наибольшим количеством просмотров, комментариев и лайков, а также в первую очередь брать то, что всплывает в первые строчки поисковиков.
На выходе получаем "народную" сетку, а под интеллектуальные меньшинства её потом можно будет подстраивать отдельно LoRA-модулями.

markoni 26 апр 2023 в 00:58

"Большинство" может начитаться про то, что США не высаживали людей на Луну. При том, что у приверженцев этой теории есть вполне серьезные аргументы. А NASA излагает все официальным языком, и это не является популярным. Вот какая точка зрения будет взята за основу?

Alexey2005 26 апр 2023 в 01:24

Так сетка нужна не для того, чтоб обучать или тем более воспитывать людей. Это не учебник. Её задача — быстро дать пользователям ровно те ответы, которых они хотят. Если большинство населения какой-либо страны хочет упарываться в конспирологию, то это не вина разработчиков сетки.
Для тех, кого "стандартный" среднестатистический ответ не устраивает, оставить вариант настройки/тюнинга сетки под себя — и этого достаточно.
Заниматься отбором единственно "правильного" мнения — задача неблагодарная, и в любом случае за пределами компетенции программистов. Поэтому пусть решает статистика.

Wesha 26 апр 2023 в 06:47

Если большинство населения какой-либо страны хочет упарываться в конспирологию, то это не вина разработчиков сетки.

Да, но потом большинство населения этой страны будет на этом настаивать, потому что компухтер же сказал!

dushinYu 26 апр 2023 в 10:21

Так сетка нужна не для того, чтоб обучать или тем более воспитывать людей.

Приведенный диалог двух людей - это фальсификация. И Вы считаете, что такая публикация не обучает и не воспитывает?

И Вы считаете, что это за пределами компетенции программистов? Если под "программистами" понимать кодировщиков, то соглашусь, но разработчики и модераторы, если они не конченные мерзавцы, не должны быть "тупыми" (по Жванецкому). И, если они пишут "Ленин" или "Ганди", то как минимум должны запрограммировать анализ текстов этих авторов. И не забыть дать ссылки. Иначе, это мошенничество. Тем более, что ответить эти личности уже ничем не могут!

Хотя всегда приятно пнуть мертвого льва!

exwill 26 апр 2023 в 11:12

Не обучает и не воспитывает. Ибо, те, кто воспринимает всю поступающую информацию без критики, необучаемы и невоспитуемы

markoni 26 апр 2023 в 13:01

Тогда вы говорите о 90% населения нашего шарика. У меня есть пример, когда мой одноклассник (лирик, не физик) лет 8-10 назад завел со мной (физфак) спор об относительной скорости. И привел ссылку на wiki. Я не знаю, как туда закралась эта ошибка, но да, она там была, в корне меняющая парадигму Кориолиса и Ньютона. Исправили быстро на тот момент. Но ведь люди прочитали, и поверили как истине в последней инстанции.

НЛО прилетело и опубликовало эту надпись здесь

averkij 26 апр 2023 в 20:15

А кто будет устанавливать достоверность?

НЛО прилетело и опубликовало эту надпись здесь

exwill 26 апр 2023 в 20:55

Как много усилий! А Вася Пупкин определяет для себя достоверность события в мгновенье ока и с минимальными затратами.

support917 26 апр 2023 в 22:05

[удалил]

Wesha 26 апр 2023 в 21:53

Экспертное мнение космонавта Леонова

С учётом того, что, помнится, на старости лет он заделался контактёром/уфологом — то такое...

lovermann 27 апр 2023 в 19:36

Вопрос с "фактами" является проблемным с точки зрения этики. Представьте, окажется (например, даже документально доказано будет), что Эйнштейн, например, ел свои какашки, а Пушкин, например, любил кошкам в попу иголки засовывать, Достоевский ел козявки из носа, а вся библия - калька с какого-нить сборника "Сказки древних шумеров". Ну, что-нибудь типа такого.

НЛО прилетело и опубликовало эту надпись здесь

averkij 26 апр 2023 в 07:12

По идее, у более популярных идей будет больше упоминаний и текстов. И сеть сама должна подстроиться.

dushinYu 27 апр 2023 в 10:33

Сеть должна подстроиться под что? Под популярные идеи, под тексты с большим числом упоминаний? Это путь в тупик! Искать песчинки золота на мусорной свалке можно, но насколько рационально? Похоже, что мир идет именно по этому пути. Даже хуже: песчинок золота мало, поэтому за золото выдается всякое дерьмо. Благо, что современные средства пропаганды позволяют сделать это очень просто. Похоже, что и GigaChat, и ChatGPT станут самыми продвинутыми из этих средств.

Хотя у человечества уже давно есть решение проблемы достоверности сведений - научный подход. Попробуйте применить научную методику работы с литературными источниками. Изучение источников - это один из самых трудоемких этап научного исследования. Особенно на начальном этапе. Заканчивается он обзором, в котором определяется объект и направление изучения, выявляется целесообразность работы в выбранной научной области и выбирается наиболее оптимальные методы работы.

Вот если бы Ваша система могла делать такой обзор со ссылками, аннотациями, цитированием, сравнением и т.д., то это действительно был бы прорыв. Научный мир рукоплескал бы.

В противном случае система добавит к куче мусора еще одну порцию. Вам это интересно?

НЛО прилетело и опубликовало эту надпись здесь

dushinYu 27 апр 2023 в 17:22

Что Вы понимаете под "наилучшим качеством результата"?

О каких "специализированных решениях" идет речь? И в чем "превосходство"?

НЛО прилетело и опубликовало эту надпись здесь

rPman 27 апр 2023 в 18:16

Решение есть — собрать датасет с данными, которые проверяемыми, подход формализуется более менее. Собирать этот датасет должены либо люди (что верно) либо текущий ИИ, дав ему доступ к интернету, пусть гуглит, читает, анализирует практику применения и т.п.

И вот на основе этого датасета уже обучить новый ИИ, можно взять старый, но это будет фактически его уничтожение, мало того, считается что дообучить сеть сложнее чем с нуля, если датасет сравнимого размера.

p.s. кстати неразумно обучать ИИ только выверенными данными, а ошибочные выкидывать из выборки, наоборот, нужно ввести токены-пометки достоверности и обучать сетку на всех видах данных.

dushinYu 28 апр 2023 в 12:15

Извините, но я уже озвучил проверенное временем решение. Это научный подход. Других решений человечество пока не выработало, и, думаю, что и не выработает за ненадобностью.
Впрочем, для подавляющего большинства электората достаточно пропаганды.

dushinYu 26 апр 2023 в 09:29

"надо подстраиваться под большинство": а в чем тогда смысл всего этого действа? Просто попрограммировать в свое удовольствие?
Авторы то заявляют "Сейчас у GigaChat’а лучше всего получается решать профессиональные и творческие задачи". А где же творчество?

Получается, что Михаил Жванецкий в свое время был прав на 100%:

"Раньше миром управляли умные. Это было жестоко. Умные заставляли тупых учиться. Тупым было тяжело.

Теперь миром управляют тупые. Это честно, потому что тупых гораздо больше.

Теперь умные учатся говорить так, чтоб тупым было понятно.

Если тупой что-то не понял, это умного проблема.

Раньше страдали тупые. Теперь страдают умные. Страданий стало меньше, потому что умных становится все меньше и меньше."

Wesha 26 апр 2023 в 09:48

А я всегда говорил, что "Идиократия" — это документальный фильм.

dushinYu 26 апр 2023 в 10:57

Да, к сожалению за последние 100 тысяч лет каждое внедрение новой технологии приводило к уменьшению размера мозга человека. Это научный факт! Сейчас этот процесс ускорился даже не в разы, а сразу на несколько порядков. По С. Дробышевскому через 200-300 лет нас ждет деградация до солитера - роботы и ИИ будут готовить питательный раствор, в котором наши потомки будут плавать. Даже жевать уже на надо будет, питание будет идти через кожу.

Полная и окончательная нирвана!

-3

Alexey2005 26 апр 2023 в 11:51

Вот вы требуете от разработчиков анализировать оригинальные работы и приводить ссылки, а сами-то следовать этому правилу не считаете нужным.
Приведённый вами "факт" — это фейк, широко растиражированный в рунете. Он происходит от одной-единственной работы (DeSilva, J. M., Traniello, J. F. A., Claxton, A. G., and Fannin, L. D., When and why did human brains decrease in size? A new change-point analysis and insights from brain evolution in ants.), которую уже многократно опровергли (пример).

НЛО прилетело и опубликовало эту надпись здесь

BraveBanana 2 мая 2023 в 07:54

Интересно, зачем? Вы патаетесь догнать уже ушедший поезд. ChatGPT УЖЕ занял бОльшую долю рынка. Вы пытаетесь потратить тысячи человеко-часов / миллионы долларов, чтобы занять долю в 1%? Если речь идёт об интеграции в собственные сервисы - у вас ничего не удастся. До релиза будет потрачено огромное количество ресурсов, а качественно их это всё равно не улучшит. Имхо

-3

takiholadi 10 мая 2023 в 18:19

А сколько эпох обучалась претрейн модель? На 300 Гбайт сете для которого диаграмма нарисована.

averkij 12 мая 2023 в 11:42

На 300 Гб 3 эпохи, потом еще одну на 110 Гб.

eelroy 25 мая 2023 в 08:47

Здравствуйте!
Подскажите пожалуйста, есть ли способы увеличить длину контекста при дообучении или без для ruGPT3.5 или ruGPT3?
При поиске по инету не нашел информации. Если в какой-то статье об этом написано, буду благодарен за ссылку или за объяснение.
Спасибо!

rPman 25 мая 2023 в 09:04

Величину контекста для gpt моделей определяет размер таблицы attention (размерность квадрат от контекста) в декодере, для ее увеличения нужно переучивать модель (причем с нуля)

https://habr.com/ru/articles/486358/
еще на русском рекомендую послушать лекции Igor Kotenkov

p.s. Есть какие то техники построения сети чтобы не было этой квадратичной зависимости от длины контекста, но все они так или иначе потребуют повторное обучение.

rsbis 25 мая 2023 в 21:56

я начну от простого. А как на это посмотреть?
Приглашение получил, но там просто нет GigaChat. Робота спрашивал, но он показывает картинки на который есть, но у меня нет. Это у всех или мне так повезло:(
Просто звона много, что создает впечатление работы по желанию нагнать трафик и зная СБЕР облажаться по полной (было много опыта по бизнес и по жизни).

rsbis 26 мая 2023 в 16:52

прошла неделя и как не было возможности пощупать gigachat так и нет. У кого то вообще доступ есть? Есть что реально зашел и сам все увидел?

support917 26 мая 2023 в 16:59

У меня вот тут появился доступ https://developers.sber.ru/ после регистрации (в тг какая-то клоунада, бот выдает ссылку на страницу ожидания, они не сделали нормальный лендинг для уже прямого доступа)

rsbis 26 мая 2023 в 18:12

У меня есть доступ, но gigachat там нет. Робот показывает обучение в картинках, но именно gigachat там нет, наверное мне не повезло, а то у меня сложилось неприятное впечатление что тему разгоняют в самого продукта нет и люди просто денежки осваивают на теме, хотя на сколько вижу по посту о тесте я не далек от данного утверждения.

support917 26 мая 2023 в 18:26

Продукт есть. Но существует он на факте закрытия доступа к источнику вдохновения внутри отдельной юрисдикции. Когда добавят API с тюнингом, можно будет легально продавать интеграции бизнесу с другими продуктами для конечного юзера за рубли после напильника, и это будет приносить пользу людям.