Как стать автором
Обновить

YandexGPT в Браузере: как мы учили модель суммаризировать статьи

Время на прочтение7 мин
Количество просмотров29K
Всего голосов 34: ↑32 и ↓2+43
Комментарии51

Комментарии 51

Забавная выдержка из пользовательского соглашения

2.5. Пользователю запрещается генерировать Пересказы

2.5.2. содержащие клевету ..., в том числе в отношении представителей рабочей специальности, сферой деятельности которой является управление, обслуживание и ремонт различных видов колёсных тракторов с мощностью двигателя до 110,3 кВт и гусеничных с мощностью двигателя до 25,7 кВт.

Представителей белазов походу можно хаить.

шутки про 300 же! (300.ya.ru)

это же про 300, ну Ë-маë

за триста жы, ну ё-маЁ!

НЛО прилетело и опубликовало эту надпись здесь

Здравствуйте.
На сегодня считаю машинный перевод с английского художественных текстов от яндекса лучшим из мной испытанных.
Но, к сожалению, и он периодически всё ещё теряет пол(мужской/женский) персонажа. Думаю, что данная ваша разработка могла бы в этом помочь, создав перед переводом краткий пересказ(сценарий) с обозначением участвующих в тексте персонажей (их пола, имён и т.п.) чтобы, в дальнейшем, при переводе сложных мест, брать оттуда недостающую для грамотного перевода информацию (возможно не только пол но и другие моменты). Понимаю, что вы и команда работающая над переводчиком это, скорее всего, разные команды, но может предложите им об этом подумать, дабы сделать машинный перевод от яндекса ещё лучше.

Спасибо за идею! подумаем про нее с коллегами

Я вчера для пробы подал суммаризатору англоязычный сайт, получил тезисы на русском.

Это хорошо или плохо? :)

Это ожидаемо, хорошо, но некорректно.

И некоторые термины в части тезисов оказались переведенные, в части нет.

https://300.ya.ru/o8wV3hoO

Спасибо за фидбек, забрали

Попробуйте deepl

сделайте пересказ для ютуб роликов - просто читайте субтитры которые там есть

Такое есть в Kagi Universal Summarizer + перевод на разные языки.

Вот это бы была божественная фича

следующим шагом будет генерация ролика на основе пересказа.

Так есть же функция машинного перевода . Или вы про другое говорили?

Наверное каждый второй скормил пресказчику эту же статью.

Яндекс, получившийся пересказ соответствует смыслу статьи?

https://300.ya.ru/egh9lkuM

И у меня предложение. Интегрировать пересказчика с движком хабра. В начале статьи ссылка-кат открывающий пересказ публикации. Автор статьи может ставить тег запрещающий автопересказ. Я попробовал - иногда пересказ информативнее начального текста в ленте, позволяет понять нужно ли открывать ее на чтение.

тогда читать статьи не будет никто. Какой хабру профит? Аудитория падает, просмотры падают, экранное время падает... вряд ли владельцы сайтов/блогов на такой шаг пойдут в ближайшее время. Похожая ситуация с adblock для пользователей - как бы он удобен был, многие владельцы сайтов сражаются с ним.

Наверное это тонкий политический вопрос, но если такое возможно, хотелось бы узнать общее мнение Хабра и Яндекса на такую идею. Пока что отбросив в стороны технические трудности - чисто по идее. Это хорошая кормовая база для тренировки суммаризатора. Возможно и качество статей повысится - как минимум стиль изложения будет такой, что в статьях более четко будут указываться ключевые моменты. Собственно, этому нас и учат в институтах (правильных институтах) - не лить воду для объема, а доносить информацию до читателя.

читать не перестанут. писать перестанут, статьи с громкими заголовками в которых сути примерно 0. зы гптчат уже давно умеет пересказывать тексты, прикрутить к нему парсер страниц - дело 5 минут

Мне суммаризация статьи нравится, но у меня уже немного глаз замылен. Так что не стесняйтесь фидбек писать

Я хотел бы заметить, что 30 тыс символов это много. Обычно это научные статьи (если не литературные произведения, но этим не нужна такая функция). А у, например, диссертаций есть общепринятая (и обязательная) часть - автореферат. Из него всегда понятно - стОит ли читать всё. Часто авторефа достаточно для ознакомления, а копаться в методиках и деталях проведения работы - нет. Теперь о насущном. Почему собственно я зашел почитать эту статью. Сейчас интернет заполонен заказными статьями, которые пишут не пойми кто. Они набрасывают такую кучу бесполезных слов в преамбулу статьи, что это просто бесит - никак не дойдешь до сути. И, как правило, сути там и нет - общие слова. Понаберут, понимаешь, текстрайтеров по объявлениям... А они в том о чем пишут - ни бельмеса.., а платят за объем - вот они и извергают фонтаны бессмысленных слов.. Тут вроде бы ваша тезисная структура и подходит, но всё же нет. Если информация там хоть мал-мало, да есть - хотелось бы эти участки более подробно прочитать, а не в виде одного предложения-тезиса. А все промежутки, накиданные для объема, нещадно выкинуть.

Не знаю, как БЯМ должна оценить, где там вода, а где соль, но как минимум, при тезисном пересказе, было бы круто оставлять якорные ссылки на абзац, начиная с которого этот тезис раскрывается.

Это первое что мне пришло в голову после прочтения того что это и для чего. Но мне было лень и я хотел предложить автору сделать это и вынести в виде аннотации.

Сделал себе ленту кратких пересказов лучших статей с Хабра, может ещё кому-то пригодится: приложение, исходный код.

Выглядит круто, а есть какая-то возможность в настройках убрать кнопку "продолжение пересказа" чтобы текст целиком сразу показывался без лишних кликов?

Спасибо! Если получится такое сделать, то сообщу отдельным комментарием. Также можно следить за состоянием в issue на GitHub.

Полагаю, плагина для браузера не будет, иначе конкуретное преимущество как составить?

Firefox, перестаньте делать бесполезные штуки, нужны хорошие расширения и плагины (на клиент-стороне)!

вместо расширения можно генерировать пересказы с сайта 300.ya.ru

и у него есть простенький API. правда без красивого стриминга

ну и расширению будет нужна яндексовая авторизация

Это апи принимает ссылку и возвращает ссылку которую нельзя прочитать простым реквестом. Не понятно зачем такое апи может понадобиться.

Недавно человек написавший и защитивший диплом при помощи нейросетей давал ссылку на свой блог где он привел несколько статей написанных при помощи нейросети.

В сети гуляет мем, в котором один человечек по краткой фразе пишет при помощи ИИ длинное письмо адресату, а адресат кормя ИИ это письмо получает суть письма. И оба очень радуются экономии времени.

По мотивам мема я попробовал на примере искусственной статьи отбросить воду. Вы знаете, все получается очень прекрасно - клин клином вышибается. Грамотно применяемый интрумент реально работает.

Статья "Что выбрать для фитнеса: умные часы или фитнес-браслет".
Выжимка https://300.ya.ru/tnKTKUxA
Оригинал https://www.mvideo.ru/blog/pomogaem-razobratsya/chto-vybrat-dlya-fitnesa-umnye-chasy-ili-fitnes-braslet
Мне кажется полная статья даже больше запутывает.

попробовал эту выжимку засунуть в chatgpt и получилась неплохая статья

Ну по сути она и была написана из запроса при помощи chatgpt.

Интересно, на какой итерации chatgpt->суммаризатор->chatgpt->... мы получим текст абсолютно не по теме? И до куда вообще это дойдет. Обратимостью же тут и не пахнет, значит текст будет эволюционировать достаточно долго.

Спасибо, приятно слышать :)

отдал трактористу статью из вики и облом.

Claude-instant-100k может пересказывать тексты до 100т символов

Он правда часто сваливается в английский, но это уже можно исправить с помощью chatGPT :)

$ time ./my_sum.py 'https://www.youtube.com/watch?v=W4vozII6m6A&t=10s'
85112
Here is a summary of the video subtitles:

• The speaker begins by explaining that the Hunan Army led by Zeng Guofan played an important role in suppressing the Taiping Rebellion.

• The Taiping Rebellion was a bloody civil war from 1850 to 1864, which claimed up to 30 million lives. It started as a religious movement but turned into a full-scale revolt against the Qing dynasty.

• The Qing government was initially unprepared to deal with the rebellion, but eventually it regained control with the help of the Hunan Army and other provincial forces.

• The speaker mentions figures like Li Hongzhang and Zeng Guofan who led the Qing army against the Taiping rebels. Li Hongzhang went on to modernize the Qing military.

• The Qing dynasty also had to deal with the Muslim revolt in Yunnan and Gansu from the 1860s to 1870s. This revolt was eventually crushed by the Qing army.

• Modernization measures were taken during this period under the Self-Strengthening Movement. Foreign loans were taken to build factories, launch a naval program, and establish western-style schools.

• The speaker discusses how the prolonged upheavals negatively affected China's economy and traditional society. Foreign goods flooded China and missionaries became more active.

• The Qing government was dominated by the Empress Dowager Cixi during this period. The speaker notes that most criticism against Cixi may be exaggerated due to the negative stereotypes against female rulers.

• The lecture ends by mentioning that the construction of the Summer Palace in Beijing under Cixi's orders is often criticized, though the park today brings in tourism revenue for China.

That's a summary of the main points from the video subtitles. Let me know if you have any other questions!

real 1m11,568s
user 0m2,372s
sys 0m0,215s

Предлагаю добавить стилистику краткому пересказу: юмор, сухой математический текст, комментарий читателя, ❤️☠️? эмодзи, гигачад стиль, философский волк. Например, максимально кратко по тезисам выделяя тезисы в абзацы и в начале ставя символ "•" перескажи эту страничку на Хабре используя юмор, используя интернет слэнг:

• Яндекс сделал gpt и научился в краткий пересказ, попутно испортив SQL инжект для нейросети.

• Из интересного: борьба с рандомом, тюнинг, и недобросовестные создатели датасетов.

• Юзеры пихнули статью о gpt краткого пересказа в gpt краткого пересказа. https://300.ya.ru/egh9lkuM

А теперь тоже самое сначала в стиле эмодзи, а потом гигачад:

P.s. Жаль, что до биологической нейросети пока далеко, но думаю это скоро исправят.

Linux Mint 21.1
Yandex browser 23.5.4.685 stable (64-bit)
Нет такой кнопки.

Привет, во первых спасибо огромное за суммарайзер.
Он вышел ровно в тот момент когда я собирался писать свой =)

У меня есть один вопрос на тему авторизации.
Я нашел два способа

  1. через вашу апишку делать запрос с токеном и потом парсить получившуюся страницу

  2. Руками доставать авторизованную пользователькую куку и делать с ней запросы к апишке, и потом на основе параметров status_code и poll_interval_ms доставать результаты сумарайза

Оба этих варианта не сильно красивые мягко говоря. Есть ли какие-то планы на авторизационный хедер для второго варианта?
Типа соединить первый и второй вариант.
При попытке запроса к "https://300.ya.ru/api/generation" с токеном из первого варианта получаю "{'message': 'Not Authorized'}"

@YudinS

API нужно что бы нагнать побольше трафика на сайт Яндекса, а не для того что бы вы свои сайты с помощью сервисов яндекса делали :)

Приду в личку

На OSX обновился сегодня на новую версию браузера (Yandex browser 23.7.0.2483 (64-bit)) и кнопку в этой версии так и не занесли.

Очевидный вопрос, но перезапуск не помогает?

Если нет, приди в личку, пожалуйста, разберемся

Кнопка Озвучить в контекстном меню Я.браузера - это то, что я так давно ждал..

Ребята, а как так -- кнопка "пересказа страницы" была несколько месяцев, всё как на первом скриншоте из статьи, и внезапно (кажется после обновления браузера) исчезла, больше её нет ни на одном сайте.

Почему? Вы решили отказаться от функции? Она не работает при работе с ВПН? Учётка яндекса залогинена и в настройках браузера и на сайтах яндекса. Ещё какие то критерии? Очень грустно взять и непонятно почему потерять кнопку пересказа статьи.

У меня эта кнопка есть. Еще есть кнопка озвучить текст страницы, читает Алиса. Интересно получится ли эту читающую алису tts перенести в своего телеграм бота. Бесплатные голоса от гугла и микрософта звучат не очень.

Нашёл причину -- в региональных настройках браузера увидел что страна поменялась (хотя я вроде бы не менял, возможно оно само по ip как то). Вернул обратно значение страны на РФ и кнопка "пересказа страницы" снова появилась.

Сначала поисковики (и Яндекс не исключение) приучали копирайтеров писать лонгриды для увеличения релевантности страниц сайта в поисковой ленте. Теперь они же сделали суммаризаторы, чтобы люди могли читать эти тексты. Окэээй, что дальше? )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий