Нет, сам я их не анализировал, можно попробовать поискать сравнения в Интернете. BLOOM в теории должна была быть аналогична GPT-3, но на практике она прям явно хуже, её недоучили. Самой перспективной мне видится совсем свежая LLaMA, которая доступна по запросу. Ну и какие-то тулзы для GPT в посте приведены.
Уверенность сети в ответе вполне можно посчитать, языковые модели для каждого токена выдают распределение вероятностей. Можно "подсветить" с помощью анализа весов механизма внимания предыдущие токены, на основе которых сеть принимала решения. Можно использовать упомянутый в статье CoT, который заставляет модели генерировать объяснения.
Но это всё, конечно, костыли. Реальное решение лежит где-то в области симбиоза нейросетей и символьных систем.
И я согласен, до сих пор существуют области, типа банков, где старая добрая логистическая регрессия предпочтительнее из-за своей полной интерпретируемости.
А что касается "есть-нет" — можно, в обучающей выборке скорее всего много кто так говорил.
Это несомненно так! Причём по законам масштабирования данных нужно всё больше и больше. В какой-то не слишком далёкий момент мы можем упереться в то, что тексты в Интернете закончатся. К счастью, скорее всего к тому моменту генеративные сетки станут по-настоящему мультимодальными и будут обучаться на любых видах информации.
Неа, точнее не совсем. InstructGPT (aka GPT-3.5 aka text-davinci-003) и ChatGPT отличаются количеством скормленной им разметки в процессе RLHF. В случае ChatGPT её было больше, о чём написано в официальном релизе. Плюс ChatGPT сильнее замодерирована.
Поэтому если вы видите внешние сервисы, типа ботов в Телеграме, предлагающие доступ к ChatGPT, скорее всего вас чуть-чуть обманывают, потому что API именно к ChatGPT пока не существует.
Насчёт второго вопроса, я недели 3 назад делал вот такую табличку.
С новыми свистелками в инференсе (см. например FlexGen) что-то из этого запускать на средних видеокартах.
Для меня это выглядит так, что часть про влияние увеличения количества тразисторов на увеличение производительности работает только для CPU. То есть для CPU количество транзисторов растёт экспоненциально, производительность НЕ растёт экспоненциально. А вот для GPU оба показателя растут экспоненциально. Во второй статье из блока про закон Мура, статье про GPU, на первой картинке по оси Y не количество транзисторов, а как раз производительность. И именно цифры по GPU релеванты основной теме — обучению нейросетей.
А что касается закона Амдала, нейросети обучаются батчами: сначала идёт прямой проход по N примерам, независимо для каждого из примеров считаются градиенты, потом градиенты усредняются внутри батча и применяются к весам модели. Так вот можно параллелить на этом уровне, то есть разбивать батч на мини-батчи и скармливать их разным картам. А можно ещё параллелить модели по слоям. В комментарии выше есть как раз статья с циферками, насколько хорошо оно работает.
P-tuning и адаптеры вообще крутые штуки, но требующие определённой инфраструктуры. Например, OpenAI API их не поддерживает, только полное дообучение. А вот когда я работал в Яндексе, там была соответствующая инфраструктура, и многие задачи решались именно p-tuning'ом большой модели.
В открытом доступе есть несколько библиотек с ними, типа AdapterHub и ruPrompts.
Посмотреть подробно про производство процессоров у меня когда-нибудь обязательно дойдут руки.
Проблемы с бытовыми штуками по-моему обусловлены скорее кривостью софта, а не слабостью железа. Точнее тут самобалансирующаяся система: софт ровно той кривости, которая позволена железом и минимально удобна для юзера.
А насчёт ChatGPT/Copilot, я бы их разделил. Мой сценарий использования ChatGPT — третья линия поддержки, если я где-то застреваю. Первая линия — подумать самому. Вторая линия — посмотреть первую страницу Гугла и спросить коллег. И если ничего из этого не работает — ChatGPT и остальные страницы Гугла. Уже несколько раз оно меня серьёзно выручало. Copilot же я не использую, я люблю писать код и пока не вижу значимых причин делегировать это кому-то, так что вхожу в число отмахнувшихся.
Во-первых, Вы явно не умеете читать тексты на русском языке. "Понатыкать" разметку никто никого не просит, ни в статье, ни на сайте. Корпус не просто "хотят создать", а уже создали. И после этого Вы пытаетесь давать советы, как авторам писать их тексты?
Во-вторых, с основной задачей выбранные слова вполне справляются. Корректные переводы ("базовое решение" и "таблица лидеров") довольно громоздки, и я могу понять, почему авторы выбрали англицизмы.
Эта статья к поисковой выдаче имеет крайне слабое отношение. Реферирование по запросу — отдельная задача, которая несомненно требует отдельных подходов. Но я всё равно постраюсь ответить.
Проблема всего, что описано в комментарии, банальна — с точки зрения поисковых корпораций это слишком сложно для типичного пользователя. По той же причине, например, медленно умирает язык поисковых запросов. Невыгодно поддерживать фичи, которыми пользуются доли процента пользователей.
Если же мы говорим не о потребительских поисковиках, то системы, спрашивающие пользователя, существуют. Мне это известно как интерактивное реферирование, вот пример статьи на эту тему. Это действительно выглядит круто, и у этого есть и будут свои пользователи, но это не массовый продукт.
Не очень понятно, как из этого следует связь со мной, Яндексом или вообще чем-либо. Это слайды из курса, который я когда-то очень давно проходил и сейчас смог быстро найти.
Про решения для автоматизации присвоения мета-тегов я до сих пор не слышал, да и в целом проблема мне не очень близка.
А вот задача генерации текста, который описывает картинку, мне известна. Задача в литературе называется image captioning. Аналогично с видео. Если есть обучающая выборка с тегами (а она есть), то все эти методы можно использовать и для тегирования.
Я не очень понял, как картинки плавно перетекли в публикации. Софт для их автотегирования мне тоже не знаком, но он, несомненно, технически возможен и даже несложен.
В целом поисковики очень активно исползует реферирование по поисковому запросу: если люди спрашивают что-то простое, лучше сразу показать им ответ на первом экране.
Разные маркетплейсы используют подобные технологии для сводного реферирования отзывов по товарам.
В середине прошлого десятилетия была куча проектов/стартапов по реферированию, они вот тут описаны. А так это в основном упомянутые выше новостные агрегаторы, новостные мониторинги, дайджесты научных статей, всякие сервисы для рерайта.
Про Форексис первый раз слышу, беглый поиск показывает, что он вроде как с Яндексом никак не связан.
На самом деле это зависит от того, где читать/слушать новости.
В рубрике "Технологии" на самом сервисе первые 5 новостей являются общими для всех, и среди них не очень много новостей про игры (обычно 1-2 из 5). Выбираются эти 5 новостей на основе кучи факторов, например по количеству документов в сюжете, по количеству просмотров этих документов, по авторитетности источников, и так далее.
А вот ниже уже персональные новости, и то, что показывается там, зависит от истории читателя. В Алисе скорее всего тот же принцип.
Основная проблема в том, что фрагменты дайджеста из разных документов. Разрешение анафоры в пределах одного документа скорее всего действительно работало бы неплохо, но как легко связать местоимения из одного документа с сущностями в другом документе с ходу не очень понятно.
Существующие системы для разрешения анафоры работают далеко не идеально (опираюсь на статью DP).
В итоге быстрое и недорогое решение — просто удалить все предложения с анафорическими местоимениями, пусть и чуть-чуть пожертвовав читаемостью.
Нет, сам я их не анализировал, можно попробовать поискать сравнения в Интернете. BLOOM в теории должна была быть аналогична GPT-3, но на практике она прям явно хуже, её недоучили. Самой перспективной мне видится совсем свежая LLaMA, которая доступна по запросу. Ну и какие-то тулзы для GPT в посте приведены.
Уверенность сети в ответе вполне можно посчитать, языковые модели для каждого токена выдают распределение вероятностей. Можно "подсветить" с помощью анализа весов механизма внимания предыдущие токены, на основе которых сеть принимала решения. Можно использовать упомянутый в статье CoT, который заставляет модели генерировать объяснения.
Но это всё, конечно, костыли. Реальное решение лежит где-то в области симбиоза нейросетей и символьных систем.
И я согласен, до сих пор существуют области, типа банков, где старая добрая логистическая регрессия предпочтительнее из-за своей полной интерпретируемости.
А что касается "есть-нет" — можно, в обучающей выборке скорее всего много кто так говорил.
Это несомненно так! Причём по законам масштабирования данных нужно всё больше и больше. В какой-то не слишком далёкий момент мы можем упереться в то, что тексты в Интернете закончатся. К счастью, скорее всего к тому моменту генеративные сетки станут по-настоящему мультимодальными и будут обучаться на любых видах информации.
Неа, точнее не совсем. InstructGPT (aka GPT-3.5 aka text-davinci-003) и ChatGPT отличаются количеством скормленной им разметки в процессе RLHF. В случае ChatGPT её было больше, о чём написано в официальном релизе. Плюс ChatGPT сильнее замодерирована.
Поэтому если вы видите внешние сервисы, типа ботов в Телеграме, предлагающие доступ к ChatGPT, скорее всего вас чуть-чуть обманывают, потому что API именно к ChatGPT пока не существует.
Насчёт второго вопроса, я недели 3 назад делал вот такую табличку.
С новыми свистелками в инференсе (см. например FlexGen) что-то из этого запускать на средних видеокартах.
Для меня это выглядит так, что часть про влияние увеличения количества тразисторов на увеличение производительности работает только для CPU. То есть для CPU количество транзисторов растёт экспоненциально, производительность НЕ растёт экспоненциально. А вот для GPU оба показателя растут экспоненциально. Во второй статье из блока про закон Мура, статье про GPU, на первой картинке по оси Y не количество транзисторов, а как раз производительность. И именно цифры по GPU релеванты основной теме — обучению нейросетей.
А что касается закона Амдала, нейросети обучаются батчами: сначала идёт прямой проход по N примерам, независимо для каждого из примеров считаются градиенты, потом градиенты усредняются внутри батча и применяются к весам модели. Так вот можно параллелить на этом уровне, то есть разбивать батч на мини-батчи и скармливать их разным картам. А можно ещё параллелить модели по слоям. В комментарии выше есть как раз статья с циферками, насколько хорошо оно работает.
Да я и не докапываюсь, это просто был хороший повод расписать то, что и так было у меня в голове.
P-tuning и адаптеры вообще крутые штуки, но требующие определённой инфраструктуры. Например, OpenAI API их не поддерживает, только полное дообучение. А вот когда я работал в Яндексе, там была соответствующая инфраструктура, и многие задачи решались именно p-tuning'ом большой модели.
В открытом доступе есть несколько библиотек с ними, типа AdapterHub и ruPrompts.
Спасибо за развёрнутый комментарий.
Посмотреть подробно про производство процессоров у меня когда-нибудь обязательно дойдут руки.
Проблемы с бытовыми штуками по-моему обусловлены скорее кривостью софта, а не слабостью железа. Точнее тут самобалансирующаяся система: софт ровно той кривости, которая позволена железом и минимально удобна для юзера.
А насчёт ChatGPT/Copilot, я бы их разделил. Мой сценарий использования ChatGPT — третья линия поддержки, если я где-то застреваю. Первая линия — подумать самому. Вторая линия — посмотреть первую страницу Гугла и спросить коллег. И если ничего из этого не работает — ChatGPT и остальные страницы Гугла. Уже несколько раз оно меня серьёзно выручало. Copilot же я не использую, я люблю писать код и пока не вижу значимых причин делегировать это кому-то, так что вхожу в число отмахнувшихся.
Да, по сути всё так, оба шага очень похожи.
Кое-что есть: https://habr.com/ru/company/yandex/blog/503492/
Про обучение эмбеддингов можно в этой диалоговской дорожке посмотреть: https://arxiv.org/abs/2105.00981
Во-первых, Вы явно не умеете читать тексты на русском языке. "Понатыкать" разметку никто никого не просит, ни в статье, ни на сайте. Корпус не просто "хотят создать", а уже создали. И после этого Вы пытаетесь давать советы, как авторам писать их тексты?
Во-вторых, с основной задачей выбранные слова вполне справляются. Корректные переводы ("базовое решение" и "таблица лидеров") довольно громоздки, и я могу понять, почему авторы выбрали англицизмы.
Эта статья к поисковой выдаче имеет крайне слабое отношение. Реферирование по запросу — отдельная задача, которая несомненно требует отдельных подходов. Но я всё равно постраюсь ответить.
Проблема всего, что описано в комментарии, банальна — с точки зрения поисковых корпораций это слишком сложно для типичного пользователя. По той же причине, например, медленно умирает язык поисковых запросов. Невыгодно поддерживать фичи, которыми пользуются доли процента пользователей.
Если же мы говорим не о потребительских поисковиках, то системы, спрашивающие пользователя, существуют. Мне это известно как интерактивное реферирование, вот пример статьи на эту тему. Это действительно выглядит круто, и у этого есть и будут свои пользователи, но это не массовый продукт.
Не очень понятно, как из этого следует связь со мной, Яндексом или вообще чем-либо. Это слайды из курса, который я когда-то очень давно проходил и сейчас смог быстро найти.
Про решения для автоматизации присвоения мета-тегов я до сих пор не слышал, да и в целом проблема мне не очень близка.
А вот задача генерации текста, который описывает картинку, мне известна. Задача в литературе называется image captioning. Аналогично с видео. Если есть обучающая выборка с тегами (а она есть), то все эти методы можно использовать и для тегирования.
Я не очень понял, как картинки плавно перетекли в публикации. Софт для их автотегирования мне тоже не знаком, но он, несомненно, технически возможен и даже несложен.
В целом поисковики очень активно исползует реферирование по поисковому запросу: если люди спрашивают что-то простое, лучше сразу показать им ответ на первом экране.
Разные маркетплейсы используют подобные технологии для сводного реферирования отзывов по товарам.
В середине прошлого десятилетия была куча проектов/стартапов по реферированию, они вот тут описаны. А так это в основном упомянутые выше новостные агрегаторы, новостные мониторинги, дайджесты научных статей, всякие сервисы для рерайта.
Про Форексис первый раз слышу, беглый поиск показывает, что он вроде как с Яндексом никак не связан.
Собственно код с объяснениями для всех методов, кроме MMR. В том числе для TextRank поверх LaBSE.
Вся диссертация будет выложена за 2 месяца до защиты, как положено. А сама защита точно будет в следующем году, когда именно я пока не знаю.
Можно вместе :) Завтра добавлю к этой статье примеры именно с реализацией с нуля методов на Колабе, пример же использования библиотечных есть здесь.
На самом деле это зависит от того, где читать/слушать новости.
В рубрике "Технологии" на самом сервисе первые 5 новостей являются общими для всех, и среди них не очень много новостей про игры (обычно 1-2 из 5). Выбираются эти 5 новостей на основе кучи факторов, например по количеству документов в сюжете, по количеству просмотров этих документов, по авторитетности источников, и так далее.
А вот ниже уже персональные новости, и то, что показывается там, зависит от истории читателя. В Алисе скорее всего тот же принцип.
Тут несколько причин.
Основная проблема в том, что фрагменты дайджеста из разных документов. Разрешение анафоры в пределах одного документа скорее всего действительно работало бы неплохо, но как легко связать местоимения из одного документа с сущностями в другом документе с ходу не очень понятно.
Существующие системы для разрешения анафоры работают далеко не идеально (опираюсь на статью DP).
В итоге быстрое и недорогое решение — просто удалить все предложения с анафорическими местоимениями, пусть и чуть-чуть пожертвовав читаемостью.