7b llama нельзя использовать без finetuning под узкую задачу, почему берут самую слабую версию достаточно мощной модели, делают на ее основе мультизадачные тесты и получив закономерно плохой результат делают поспешные выводы?
Мне нравится использование мультизадачной языковой модели, в т.ч. для перевода, ей можно давать инструкции, корректирующие решение. Например варианты перевода (в примере ниже этого нет), стилистику, разрешить или запретить фантазировать и т.п.
p.s. я в качестве эксперимента настроил скрипты перевода фентезийного романа с английского на русский с помощью llama 65B, не скажу что результаты хорошие, там явно есть проблемы, но вполне пользоваться можно.
Достаточно плохой пример:
Forest. It was strangely calming to be in the presence of the woods, and Lumoof soon found himself taking a leisurely stroll through the woods. None of the animals approached us, though we could feel their eyes on Lumoof. Instead, they scurried away and ran as soon as we even approached.
llama65b:
Лес. Странно успокаивающе находиться в присутствии леса, и Лумуф скоро нашел себя в неспешной прогулке по лесу. Ни один из животных не подходил к нам, хотя мы могли чувствовать их глаза на Лумуфе. Вместо этого они скатывались и бежали, как только мы даже приблизились.
open assistent rlhv llama30b-2 7k:
Лес. Странно успокаивающе было быть в присутствии леса, и Люмоф быстро нашел себя делающим прогулку по лесу. Ни одно животное не подходило к нам, хотя мы чувствовали их взгляды на Люмофе. Им с трудом удавалось остаться на месте; они всегда отрывались от того места, где мы находились.
google
Лес. Находиться в лесу было странно успокаивающе, и вскоре Люмуф обнаружил, что неторопливо прогуливается по лесу. Ни одно из животных не приблизилось к нам, хотя мы чувствовали их взгляды на Люмуфе. Вместо этого, они разбежались и убежали, как только мы подошли.
deepl
Лес. Находиться в окружении леса было странно успокаивающе, и вскоре Лумуф обнаружил, что не спеша прогуливается по лесу. Никто из животных не приближался к нам, хотя мы чувствовали их взгляды на Лумуфе. Вместо этого они разбегались и убегали, как только мы приближались.
Интересно, как большие языковые модели типа bloomz или opt на поприще перевода? как минимум bloomz можно до файнтюнить, мультиязычные и multitask начинается с 7b и 13b (ну а запускать 175B было бы слишком дорого), мало того, можно дофайнтюнить именно на перевод.
p.s. про llama тем более молчу, оно в multitask очевидно лучше себя ведет, а 65b даже с квантизацией 4b работает не на много хуже gpt35
Практика подмены контроллера от донора для чтения с поврежденного hdd диска работает давно. Полагаю либо у специалистов по восстановлению данных есть способы экспорта и импорта этих данных либо это не так критично
Величину контекста для gpt моделей определяет размер таблицы attention (размерность квадрат от контекста) в декодере, для ее увеличения нужно переучивать модель (причем с нуля)
p.s. Есть какие то техники построения сети чтобы не было этой квадратичной зависимости от длины контекста, но все они так или иначе потребуют повторное обучение.
Конечно, прилично доплатив, можно получить желаемое, просто в статье подчеркивается про стремительное уменьшение стоимости, и не добавляется что в ущерб долговечности (во здравие запланированного устаревания).
Само собой, ssd даже с малым ресурсом записи но быстрой скоростью, тоже очень полезен, есть куча задач где это оправдано, и это хрошо что они существуют. Но жесткие диски пока сбрасывать со счетов нельзя. И да, они будут (уже) становиться все более нишевыми и переезжать из персональных компьютеров в nas для резервного копирования (типовой сценарий использования обывателем) и хранения медиатеки.
Непрерывная запись по кругу (те же видеозаписи), один hdd способен при скорости 150мбайт/сек писать (для параллельного чтения нужен второй клон-буфер рядышком) порядка 20-30 4к камер (или 10 если максимальный битрейт но таких камер где это имело бы смысл хз), делая полную перезапись 3тб диска за 6 часов. Даже самые качественные ssd с петабайтовым резервом по записи не проживут пары тройки месяцев.
И вообще любые аналогичные задачи, где нужно много записей потоком (запись с датчиков каких-то).
SSD хороши рядом, к примеру писать параллельно выжимку, которую нужно читать оперативно (предобработку, видео с пониженным битрейтом или индекс например).
эти искусственные подсластители неэффективны для контроля веса и, что ещё хуже, повышают долгосрочный риск развития диабета 2 типа, сердечно-сосудистых заболеваний и даже смерти.
Осторожнее нужно с такими заявлениями, выглядит так будто все подсластители вредны, тем более когда ссылаешься на работу в которой рассматривается огромное количество исследований на эту тему
there is no clear consensus on whether non-sugar sweeteners are effective for long-term weight loss or maintenance, or if they are linked to other long-term health effects at intakes within the ADI.
Там рассматривается огромное количество типов подсластителей, какие то действительно не идеальны
пощелкал по ссылкам, на связанные работы, меня интересовала только stevia
3.2.7 Dental caries
In one RCT, snacks containing stevia or sugars were given twice daily to children for 6 weeks. At the
end of the trial, the concentrations of cariogenic Streptococcus mutans bacteria and lactobacilli
(χ2 8.01; P < 0.01), and the probability of developing caries (measured by a cariogram) in the
stevia arm had decreased compared with baseline, whereas there were no statistically significant
changes in the sugars arm (209).
In another RCT, mouth rinse containing stevia or placebo was used daily by children for 6 months.
At the end of the trial, there was a significant improvement in the stevia arm compared with the
placebo arm in plaque scores (P = 0.03) and gingival scores ( P = 0.01). There were no changes in
the number of cavitated lesions in the stevia arm, but there was an increase in cavitated lesions
in the placebo arm (from 5.6% to 5.8%) (210).
FPGA обычно дороги. Самые крупные легко могут стоить тысячи долларов за чип. Это связано с большим количеством микросхем для их производства,
что?
высокая цена полностью определяется малыми объемами выпуска и скорее всего это сделано специально, по политическим причинам, чтобы не развивать отрасль (контроль за высокоскоростными вычислениями).
По логике, fpga модуль должен был бы быть уже в каждом чипе, тем более мобильным, доступный пользовательским приложениям (обработка видео например, когда сырой поток с камеры предобрабатывается программируемым чипом)… нет популяризации -> нет стандартов -> 99% программистов не знают об этом
Ничего, они устраивают отличные и эффективные диверсии.
Например покупается xamarin и закрывается разработка monodevelop, и нет больше проекта. Наверное понимают, что wysiwyg в создании интерфейса это важное конкурентное преимущество.
вы наверное не поняли, в статье про это тоже сказано, энергии, чтобы нагреть вещество до нужного состояния нужно несоизмеримо больше энергии чем получаемая дельта от термоядерного синтеза… нужно КПД преобразования и возврата тепловой энергии обратно близкое к 100% что нереально само собой.
если бы на красивых рендерерах у них было показано что плазма после реакции загоняется как то обратно, т.е. переиспользуется, то было бы понятно что возможно подмешивая к плазме новое вещество, можно было бы как то эту энергию переиспользовать, но нигде про это не сказано и очевидно что долго так не сделаешь.
Про mpt читал, к сожалению не универсальна, она сравнима с llama7b-13b, да лучше, потому что мультиязычная.
Именно это та статья (мираж), малые модели МОГУТ давать эмерджентные свойства в конкретных задачах, но в общем это им не доступно, нужно обходиться ансамблем предобученных на задачи (это отличное решение по масштабированию)
p.s. правильно лучше говорить не про объем модели, а про затрат на ее обучение, есть даже картинки от туда (малые модели сильно хуже сходятся, т.е. для достижения результата их дольше обучать)
по разным показателям где то между 10^22 .. 10^23 flops
p.s. еще момент, похоже важнее для получения ИИ из языковой модели даже не ее объем, а качество обучающей выборки. Фишка в том что обучаются они на мусоре, в чем то мусорность данных дает плюс, но только за счет увеличения затрат.
Логика и практика подсказывает что дальше нужно взять обученную модель на 'мусоре', собрать сверхкачественный датасет и до обучить (точнее переобучить) модель уже на нем, и как я понимаю этому мешает уже проблема алгоритмов обучения, как минимум обратное распространение почему то легче обучает новым знаниям если обучить модель заново, чем пытаться переобучить уже существующую, но finetining (когда правится от силы 1-2% весов) почему то работает вроде бы хорошо.
а еще llama нелегальна, доступно только для исследования, и формально даже для этого нужно просить разрешения.
есть некоторые вопросы к производным продуктам, т.е. дообученный open assistent (чтобы повторить, нужен доступ к llama), но логика подсказывает что тоже нет.
p.s. 7B gpt модель очень слабая, можно обучить в узкой области знаний на конкретную задачу, но универсальной она стать не сможет, весов не хватит (было исследование, языковая модель должна быть большой, там резкий скачок способностей как-раз после 65b, и это не единственное что нужно, к примеру открытый bloomz 175B сильно хуже llama)
Посмотрите на майкрософт, никому не нужный, ничего не умеющий bing стал иметь смысл, потому что в диалоге с ботом, который не только болтает но делает поиск и читает результат выдачи, выдавая выжимки, можно наконец найти нужное… что будет если этой системе дать нормальный поисковик?
а то если сравнивать выхлоп энергии с первоначальной накачкой, он мизерный, и выкидывать все тепло только затем чтобы снова тратить энергию на нагрев, тупо бессмысленно.
Вот вы сами упомянули фьюзор, как я понимаю именно его народ делает в 'домашних условиях', само собой ни о каком положительном выходе энергии там речи нет но если я верно понимаю текст на вики про это, нельзя прямо так однозначно сказать что невозможно и идею не отбрасывают как нежизнеспособную.
Сравнение нейросетей для перевода
Мне нравится использование мультизадачной языковой модели, в т.ч. для перевода, ей можно давать инструкции, корректирующие решение. Например варианты перевода (в примере ниже этого нет), стилистику, разрешить или запретить фантазировать и т.п.
p.s. я в качестве эксперимента настроил скрипты перевода фентезийного романа с английского на русский с помощью llama 65B, не скажу что результаты хорошие, там явно есть проблемы, но вполне пользоваться можно.
llama65b:
open assistent rlhv llama30b-2 7k:
google
deepl
Сравнение нейросетей для перевода
Интересно, как большие языковые модели типа bloomz или opt на поприще перевода? как минимум bloomz можно до файнтюнить, мультиязычные и multitask начинается с 7b и 13b (ну а запускать 175B было бы слишком дорого), мало того, можно дофайнтюнить именно на перевод.
p.s. про llama тем более молчу, оно в multitask очевидно лучше себя ведет, а 65b даже с квантизацией 4b работает не на много хуже gpt35
Фотограф попросил удалить свои работы из набора обучающих данных LAION, в ответ ему выставили счёт на €887
www.superjob.ru/pro/5369
многие компании входящие телефонные звонки пропускают через живого оператора, чтобы он фильтровал спам и разруливал вопрошающих
У HDD нет будущего? Погодите, не так быстро…
Практика подмены контроллера от донора для чтения с поврежденного hdd диска работает давно. Полагаю либо у специалистов по восстановлению данных есть способы экспорта и импорта этих данных либо это не так критично
Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера
Величину контекста для gpt моделей определяет размер таблицы attention (размерность квадрат от контекста) в декодере, для ее увеличения нужно переучивать модель (причем с нуля)
https://habr.com/ru/articles/486358/
еще на русском рекомендую послушать лекции Igor Kotenkov
p.s. Есть какие то техники построения сети чтобы не было этой квадратичной зависимости от длины контекста, но все они так или иначе потребуют повторное обучение.
У HDD нет будущего? Погодите, не так быстро…
Конечно, прилично доплатив, можно получить желаемое, просто в статье подчеркивается про стремительное уменьшение стоимости, и не добавляется что в ущерб долговечности (во здравие запланированного устаревания).
Само собой, ssd даже с малым ресурсом записи но быстрой скоростью, тоже очень полезен, есть куча задач где это оправдано, и это хрошо что они существуют. Но жесткие диски пока сбрасывать со счетов нельзя. И да, они будут (уже) становиться все более нишевыми и переезжать из персональных компьютеров в nas для резервного копирования (типовой сценарий использования обывателем) и хранения медиатеки.
У HDD нет будущего? Погодите, не так быстро…
Непрерывная запись по кругу (те же видеозаписи), один hdd способен при скорости 150мбайт/сек писать (для параллельного чтения нужен второй клон-буфер рядышком) порядка 20-30 4к камер (или 10 если максимальный битрейт но таких камер где это имело бы смысл хз), делая полную перезапись 3тб диска за 6 часов. Даже самые качественные ssd с петабайтовым резервом по записи не проживут пары тройки месяцев.
И вообще любые аналогичные задачи, где нужно много записей потоком (запись с датчиков каких-то).
SSD хороши рядом, к примеру писать параллельно выжимку, которую нужно читать оперативно (предобработку, видео с пониженным битрейтом или индекс например).
Дайджест научпоп-новостей за неделю, о которых мы ничего не писали
Там рассматривается огромное количество типов подсластителей, какие то действительно не идеальны
Как работает FPGA?
высокая цена полностью определяется малыми объемами выпуска и скорее всего это сделано специально, по политическим причинам, чтобы не развивать отрасль (контроль за высокоскоростными вычислениями).
По логике, fpga модуль должен был бы быть уже в каждом чипе, тем более мобильным, доступный пользовательским приложениям (обработка видео например, когда сырой поток с камеры предобрабатывается программируемым чипом)… нет популяризации -> нет стандартов -> 99% программистов не знают об этом
Microsoft только что сделала огромную ставку на термоядерный синтез
там 100кк градусов
Обновление KB5026372 вызывает нарушения в работе сетевых подключений и запускает циклический ребут
Ничего, они устраивают отличные и эффективные диверсии.
Например покупается xamarin и закрывается разработка monodevelop, и нет больше проекта. Наверное понимают, что wysiwyg в создании интерфейса это важное конкурентное преимущество.
Microsoft только что сделала огромную ставку на термоядерный синтез
скорее 'экология' используется для целей, отличных от ее спасения, а скорее ради политики и борьбы с конкурентами.
Microsoft только что сделала огромную ставку на термоядерный синтез
вы наверное не поняли, в статье про это тоже сказано, энергии, чтобы нагреть вещество до нужного состояния нужно несоизмеримо больше энергии чем получаемая дельта от термоядерного синтеза… нужно КПД преобразования и возврата тепловой энергии обратно близкое к 100% что нереально само собой.
если бы на красивых рендерерах у них было показано что плазма после реакции загоняется как то обратно, т.е. переиспользуется, то было бы понятно что возможно подмешивая к плазме новое вещество, можно было бы как то эту энергию переиспользовать, но нигде про это не сказано и очевидно что долго так не сделаешь.
Нейросеть нового поколения YaGPT появилась в Алисе
Именно это та статья (мираж), малые модели МОГУТ давать эмерджентные свойства в конкретных задачах, но в общем это им не доступно, нужно обходиться ансамблем предобученных на задачи (это отличное решение по масштабированию)
p.s. правильно лучше говорить не про объем модели, а про затрат на ее обучение, есть даже картинки от туда (малые модели сильно хуже сходятся, т.е. для достижения результата их дольше обучать)
p.s. еще момент, похоже важнее для получения ИИ из языковой модели даже не ее объем, а качество обучающей выборки. Фишка в том что обучаются они на мусоре, в чем то мусорность данных дает плюс, но только за счет увеличения затрат.
Логика и практика подсказывает что дальше нужно взять обученную модель на 'мусоре', собрать сверхкачественный датасет и до обучить (точнее переобучить) модель уже на нем, и как я понимаю этому мешает уже проблема алгоритмов обучения, как минимум обратное распространение почему то легче обучает новым знаниям если обучить модель заново, чем пытаться переобучить уже существующую, но finetining (когда правится от силы 1-2% весов) почему то работает вроде бы хорошо.
Нейросеть нового поколения YaGPT появилась в Алисе
а еще llama нелегальна, доступно только для исследования, и формально даже для этого нужно просить разрешения.
есть некоторые вопросы к производным продуктам, т.е. дообученный open assistent (чтобы повторить, нужен доступ к llama), но логика подсказывает что тоже нет.
p.s. 7B gpt модель очень слабая, можно обучить в узкой области знаний на конкретную задачу, но универсальной она стать не сможет, весов не хватит (было исследование, языковая модель должна быть большой, там резкий скачок способностей как-раз после 65b, и это не единственное что нужно, к примеру открытый bloomz 175B сильно хуже llama)
Нейросеть нового поколения YaGPT появилась в Алисе
У вас нет где-нибудь блога/видео блога где бы вы хоть как то освещали процесс?
Нейросеть нового поколения YaGPT появилась в Алисе
Яндекс, вы помните что вы поисковик?
Посмотрите на майкрософт, никому не нужный, ничего не умеющий bing стал иметь смысл, потому что в диалоге с ботом, который не только болтает но делает поиск и читает результат выдачи, выдавая выжимки, можно наконец найти нужное… что будет если этой системе дать нормальный поисковик?
Microsoft только что сделала огромную ставку на термоядерный синтез
вместе с теплом?)
а то если сравнивать выхлоп энергии с первоначальной накачкой, он мизерный, и выкидывать все тепло только затем чтобы снова тратить энергию на нагрев, тупо бессмысленно.
Microsoft только что сделала огромную ставку на термоядерный синтез
совершенно не ясно что делать с результатом дальше, накапливать мусор на стенках в камере?
Microsoft только что сделала огромную ставку на термоядерный синтез
Вот вы сами упомянули фьюзор, как я понимаю именно его народ делает в 'домашних условиях', само собой ни о каком положительном выходе энергии там речи нет но если я верно понимаю текст на вики про это, нельзя прямо так однозначно сказать что невозможно и идею не отбрасывают как нежизнеспособную.