проигрывать любую фразу сколько нужно раз, пока она не проникнет в мозг,
По поводу многократного повторения с последующим проникновением в мозг, была когда-то лет десять назад такая классная приблуда в интернете (не помню как называлась): в нее можно было текстом ввести какую-нибудь фразу, а она искала эту фразу по огромной базе субтитров, находила соответствующие отрывки фильмов и сериалов и тут же показывала небольшой клип, в котором сплошным потоком воспроизводились короткие (3-4 сек.) фрагменты этих фильмов с этой фразой. Выглядело - фантастически! Разные персонажи, разными голосами, в разных контекстах - это все в виде коротких отрывков с моментальным переключением.
Жаль что некому откопать эту стюардессу.
Впрочем, для французского сложно было бы найти достаточно большой исходный массив субтитров и фильмов. Только если найти где-то элен и ребят с субтитрами.
Я про французский. В поиске что-то типа "Лингафонные курсы лондонского лингафонного института" и "Лондонский лингафонный институт". Но я не уверен что сохранилась раздача которую я скачивал.
Спасибо, действительно, мой недосмотр. В свое оправдание могу сказать что в моей реализации шрифт крупнее и два языка одновременно в режиме "браузера",
При живом workaudiobook я бы точно поленился бы так заморачиваться.
Автоматическое разбиение на фразы с помощью ИИ - это интересная головоломка. Можно подумать.
Для изучения с нуля рекомендую прочесть Умина и найти подходящий лингафонный курс - это скорее всего будет лондонский на трэкере. Мне очень нравился Assimil в качестве уминского лингафонного курса, но для первого месяца это ту мач.
Я ради эксперимента взял первую попавшуюся фразу из книги "Converts an input sequence of tokens into a sequence of embedding vectors", обернул ее в вопрос как на картинке ниже - оно мне и в чате в попапе соответствующий текст и номер страницы там видно, и в левой панели в полном тексте корректно подсветило. Если взять какой-то совсем банальный речевой оборот, то, вероятно, так не сработает. Мне кажется тут нужно смотреть на нюансы - что, зачем и как ищем.
Во-первых, предполагаю, что иногда ответ может возвращаться в виде "Вот, пожалуйста, ваш json", двоеточие и дальше идет уже сам json. По крайней мере с текстами у меня так иногда бывает (особенно с gpt-4o-mini кажется что стало чаще). Допустим, я прошу "напиши мне текст, который содержит слово АБВ". Он как правило на такой запрос возвращает текст, но иногда бывает пишет "Вот ваш текст", двоеточие и уже потом текст. Во-вторых, "простое описание" для более сложной структуры наверняка может давать сбои (названия и структура полей и т.п.). Судя по тому что написано в новой документации на Structured outputs даже Function calling сам по себе может сбоить.
По пунктам: Плесень: не думаю что ситуация с плесенью в новостройках Тбилиси радикально хуже средней температуры по, например, Португалии или, допустим, Германии. Сложно судить однозначно. Тут нужна конкретная статистика что бы выводы делать, а не anecdotical evidence. Старые дома: Зачем на них вообще смотреть? На сайтах недвижимости есть фильтр "показывать только новостройки". Лифты: Серьезный "аргумент" что бы обхаять страну. Ищите квартиру на низком этаже и ходите пешком - страна сразу похорошеет. Хозяин может прийти: Я с этой проблемой не сталкивался, но наверно можно ключ в замке изнутри оставить что бы снаружи замок не открывался? И предупредить что открывать будете только если заранее договоритесь о приходе. В общем при желании наверно можно что-то с этим сделать. Картонные стены у орби: Орби в Тбилиси практически не присутствует, насколько я понимаю. У меня новостройка, да слышимость сильная, но я бы сказал не ужас-ужас. Цены в общепите: А откуда вообще взялся этот миф что общепит должен быть дешевым? Тем более в таком туристическом месте как Батуми. Качество местных сотрудников: думаю для 99% хабровчан это не релевантный критерий. Работа: Просто ради смеха оставлю ссылку: https://www.youtube.com/watch?v=Owj8BnIep2I Понятно что пример не самый показательный для местного рынка труда. Но тем не менее, я бы не рискнул утверждать что в Грузии полностью отстутствует работа для квалифицированных "айтишников". Дорожное движение: может и есть проблемы, но не настолько серьезные что бы это было препятствием для переезда в страну. Обсчет, наценки для иностранцев: Суммарно за полтора года на сколько вас обсчитали? И стоит ли эту сумму серьезно считать препятствием для переезда в страну? Типа меня обсчитывают за год суммарно на 50 лари, поэтому не поеду в Грузию, поеду вместо этого жить в Швейцарию - так что ли? Камнепады и обваливающиеся балконы: Ну серьезно, хватит уже троллить.
Для справки: Сам факт проживания в Грузии не дает права обращения в европейские консульства за визой - нужен грузинский ВНЖ, который тоже на дороге не валяется.
Если статья начинается с вопроса "что такое автомобиль", то наверно логично было бы объяснить что это самодвижущаяся железка с колесами и рулем, и дальше дать ПДД и методичку для автошколы.
Университетский курс автомобилестроения тоже имеет право на существование, но только его надо правильно позиционировать и ввести в общий контекст.
Самая первая фраза в тексте наводит больше на мысли о методичке для автошколы. Даже если предполагается учебник по автомобилестроению, то было бы неплохо как-то более аккуратно обойтись с контекстом. Типа вот есть машины, их можно купить в автосалоне (вот адрес автосалона) и ездить (вот ссылка на скачивание ПДД). А если вы не ищете легких путей, то в этой статье мы рассмотрим изобретение колеса, ДВС и автомобиля с нуля.
Вместо этого в статье получается что пункт с автосалоном и ПДД пропущен, сразу начинается с изобретения автомобиля. Для неподготовленного читателя это может быть немного confusing.
То что "вся документация в большой компании" превышает 2млн токенов - это понятно.
Сомнительно что ее всю реально есть смысл валить в одну кучу. Наверняка она разделена по каким-то крупным блокам (проектам, продуктам, направлениям). И то что размер каждого блока превышает 2млн - это уже не очевидно. Действительно есть статистика что 2млн - это на практике критическое ограничение?
Оставшимся 1% (кто не пролезает по финансам, размерам или безопасности) придется все это пилить вручную - и дальше текст статьи с техническими подробностями.
Получается что тут возникает целый новый раздел экономической науки: Технико-экономическое обоснование запила RAG своими руками.
Судя по этим объяснениям выглядит так что все-таки убил. 2млн - это не ограничение, это скорее синоним "без ограничений". Что за такая база знаний которая не помещается в лимит два миллиона? Если только на языках, отличающихся от английского, да и то сложно представить. 20 файлов и конверсия в док и пдф - это вообще не повод для разговора про ограничения. ТХТ тоже поддерживается, я пробовал, правда с микроскопическим файлом. csv/xls действительно не поддерживается для ретривала (https://platform.openai.com/docs/assistants/tools/supported-files). Но если на другой чаше весов собственноручная разработка, то проще наверно эксель сконвертировать в док или прикрутить его к Code interpreter. В общем все эти "ограничения" выглядят крайне маргинальными.
Тут хотелось бы больше подробностей. С какого размера/объема начинаются ошибки, масштаб этих ошибок, до какой степени удается эти ошибки устранить в собственноручной разработке.
Т.е. получается что существует "простой RAG", который решается ассистентами и "сложный RAG" для которого ассистенты не подходят и нужно пилить вручную? Если так, то где между ними граница? Хотя бы примерно.
Т.е. у ассистента под капотом спрятан механизм разбивки двух миллионов токенов из прикрепленного файла на мелкие куски подходящие для модельного контекста? Т.е. он берет на себя всю работу, описанную в статье? Зачем тогда нужны все эти подробности про чанки, если теперь все это доступно из коробки и достаточно просто воспользоваться ассистентом не вникая в подробности? Ассистенты плохо справляются с этой работой и поэтому надо пилить эти внутренности вручную?
Ну т.е. выглядит так что OpenAI выпуском своих ассистентов убил всю эту сферу разработки каких-то специальных навороченных проблемных механизмов RAG - все в итоге свелось к тому что бы создать ассистента и прицепить к нему базу знаний. И вся эта канитель с чанками и тестами осталась в темном средневековом прошлом. Нет?
Тут в соседней статье на похожую тему коллега поднимал правильный вопрос: такая система должна давать не только ответ на поставленный вопрос, но и ссылку на первоисточники, откуда конкретно этот ответ взялся и где его можно перепроверить.
Эта фича входит в концепцию RAG? Или не барское это дело?
Являются ли ассистенты RAG-инструментами? Если нет, то почему?
"Ищешь кусок данных и добавляешь его в контекст" - эта постановка вопроса выглядит на первый взгляд устаревшей. Кажется правильным говорить что нужно добавлять не кусок данных в контекст, а всю базу знаний в ассистента. И пусть уже он сам там разбирается где что искать (с помощью правильных Instructions и, возможно, файн-тьюнинга). Нет? Вроде бы об этом написано в пункте про референсные ответы"? Почему все вопросы-ответы нельзя сделать такими же как "рефернсные"?
По поводу многократного повторения с последующим проникновением в мозг, была когда-то лет десять назад такая классная приблуда в интернете (не помню как называлась): в нее можно было текстом ввести какую-нибудь фразу, а она искала эту фразу по огромной базе субтитров, находила соответствующие отрывки фильмов и сериалов и тут же показывала небольшой клип, в котором сплошным потоком воспроизводились короткие (3-4 сек.) фрагменты этих фильмов с этой фразой. Выглядело - фантастически! Разные персонажи, разными голосами, в разных контекстах - это все в виде коротких отрывков с моментальным переключением.
Жаль что некому откопать эту стюардессу.
Впрочем, для французского сложно было бы найти достаточно большой исходный массив субтитров и фильмов. Только если найти где-то элен и ребят с субтитрами.
Я про французский. В поиске что-то типа "Лингафонные курсы лондонского лингафонного института" и "Лондонский лингафонный институт". Но я не уверен что сохранилась раздача которую я скачивал.
Спасибо, действительно, мой недосмотр. В свое оправдание могу сказать что в моей реализации шрифт крупнее и два языка одновременно в режиме "браузера",
При живом workaudiobook я бы точно поленился бы так заморачиваться.
Автоматическое разбиение на фразы с помощью ИИ - это интересная головоломка. Можно подумать.
Для изучения с нуля рекомендую прочесть Умина и найти подходящий лингафонный курс - это скорее всего будет лондонский на трэкере. Мне очень нравился Assimil в качестве уминского лингафонного курса, но для первого месяца это ту мач.
Уже есть конкретные свидетельства, что перестало работать? Или это просто напоминание что ранее объявленный срок приближается?
Я ради эксперимента взял первую попавшуюся фразу из книги "Converts an input sequence of tokens into a sequence of embedding vectors", обернул ее в вопрос как на картинке ниже - оно мне и в чате в попапе соответствующий текст и номер страницы там видно, и в левой панели в полном тексте корректно подсветило. Если взять какой-то совсем банальный речевой оборот, то, вероятно, так не сработает. Мне кажется тут нужно смотреть на нюансы - что, зачем и как ищем.
Поменял конкретно в этом месте на "веб-приложение". Остальное не буду трогать.
Во-первых, предполагаю, что иногда ответ может возвращаться в виде "Вот, пожалуйста, ваш json", двоеточие и дальше идет уже сам json.
По крайней мере с текстами у меня так иногда бывает (особенно с gpt-4o-mini кажется что стало чаще). Допустим, я прошу "напиши мне текст, который содержит слово АБВ". Он как правило на такой запрос возвращает текст, но иногда бывает пишет "Вот ваш текст", двоеточие и уже потом текст.
Во-вторых, "простое описание" для более сложной структуры наверняка может давать сбои (названия и структура полей и т.п.). Судя по тому что написано в новой документации на Structured outputs даже Function calling сам по себе может сбоить.
Интересно было бы узнать как такой объем учебной нагрузки удалось совмещать с фуллтайм работой.
Околонулевой уровень и при этом книги сразу с третьего уровня - меня одного это смутило?
По пунктам:
Плесень: не думаю что ситуация с плесенью в новостройках Тбилиси радикально хуже средней температуры по, например, Португалии или, допустим, Германии. Сложно судить однозначно. Тут нужна конкретная статистика что бы выводы делать, а не anecdotical evidence.
Старые дома: Зачем на них вообще смотреть? На сайтах недвижимости есть фильтр "показывать только новостройки".
Лифты: Серьезный "аргумент" что бы обхаять страну. Ищите квартиру на низком этаже и ходите пешком - страна сразу похорошеет.
Хозяин может прийти: Я с этой проблемой не сталкивался, но наверно можно ключ в замке изнутри оставить что бы снаружи замок не открывался? И предупредить что открывать будете только если заранее договоритесь о приходе. В общем при желании наверно можно что-то с этим сделать.
Картонные стены у орби: Орби в Тбилиси практически не присутствует, насколько я понимаю. У меня новостройка, да слышимость сильная, но я бы сказал не ужас-ужас.
Цены в общепите: А откуда вообще взялся этот миф что общепит должен быть дешевым? Тем более в таком туристическом месте как Батуми.
Качество местных сотрудников: думаю для 99% хабровчан это не релевантный критерий.
Работа: Просто ради смеха оставлю ссылку: https://www.youtube.com/watch?v=Owj8BnIep2I Понятно что пример не самый показательный для местного рынка труда. Но тем не менее, я бы не рискнул утверждать что в Грузии полностью отстутствует работа для квалифицированных "айтишников".
Дорожное движение: может и есть проблемы, но не настолько серьезные что бы это было препятствием для переезда в страну.
Обсчет, наценки для иностранцев: Суммарно за полтора года на сколько вас обсчитали? И стоит ли эту сумму серьезно считать препятствием для переезда в страну? Типа меня обсчитывают за год суммарно на 50 лари, поэтому не поеду в Грузию, поеду вместо этого жить в Швейцарию - так что ли?
Камнепады и обваливающиеся балконы: Ну серьезно, хватит уже троллить.
Для справки: Сам факт проживания в Грузии не дает права обращения в европейские консульства за визой - нужен грузинский ВНЖ, который тоже на дороге не валяется.
Хотелось бы чтобы кто-нибудь ответил по существу на этот комментарий https://habr.com/ru/articles/779526/#comment_26248910
Если статья начинается с вопроса "что такое автомобиль", то наверно логично было бы объяснить что это самодвижущаяся железка с колесами и рулем, и дальше дать ПДД и методичку для автошколы.
Университетский курс автомобилестроения тоже имеет право на существование, но только его надо правильно позиционировать и ввести в общий контекст.
Самая первая фраза в тексте наводит больше на мысли о методичке для автошколы. Даже если предполагается учебник по автомобилестроению, то было бы неплохо как-то более аккуратно обойтись с контекстом. Типа вот есть машины, их можно купить в автосалоне (вот адрес автосалона) и ездить (вот ссылка на скачивание ПДД). А если вы не ищете легких путей, то в этой статье мы рассмотрим изобретение колеса, ДВС и автомобиля с нуля.
Вместо этого в статье получается что пункт с автосалоном и ПДД пропущен, сразу начинается с изобретения автомобиля. Для неподготовленного читателя это может быть немного confusing.
То что "вся документация в большой компании" превышает 2млн токенов - это понятно.
Сомнительно что ее всю реально есть смысл валить в одну кучу. Наверняка она разделена по каким-то крупным блокам (проектам, продуктам, направлениям). И то что размер каждого блока превышает 2млн - это уже не очевидно. Действительно есть статистика что 2млн - это на практике критическое ограничение?
Получается что статья про RAG должна начинаться следующим образом:
Для 99% пользователей для ознакомления с RAG достаточно двух вещей:
Посмотреть вводную лекцию Ына https://www.coursera.org/learn/generative-ai-for-everyone/lecture/qF1Az/retrieval-augmented-generation-rag
Научиться пользоваться ассистентами (для начала хотя бы на самом примитивном уровне https://habr.com/ru/articles/778414/)
Все, больше про RAG ничего знать не нужно.
Оставшимся 1% (кто не пролезает по финансам, размерам или безопасности) придется все это пилить вручную - и дальше текст статьи с техническими подробностями.
Получается что тут возникает целый новый раздел экономической науки: Технико-экономическое обоснование запила RAG своими руками.
Судя по этим объяснениям выглядит так что все-таки убил. 2млн - это не ограничение, это скорее синоним "без ограничений". Что за такая база знаний которая не помещается в лимит два миллиона? Если только на языках, отличающихся от английского, да и то сложно представить. 20 файлов и конверсия в док и пдф - это вообще не повод для разговора про ограничения. ТХТ тоже поддерживается, я пробовал, правда с микроскопическим файлом. csv/xls действительно не поддерживается для ретривала (https://platform.openai.com/docs/assistants/tools/supported-files). Но если на другой чаше весов собственноручная разработка, то проще наверно эксель сконвертировать в док или прикрутить его к Code interpreter. В общем все эти "ограничения" выглядят крайне маргинальными.
Тут хотелось бы больше подробностей. С какого размера/объема начинаются ошибки, масштаб этих ошибок, до какой степени удается эти ошибки устранить в собственноручной разработке.
Т.е. получается что существует "простой RAG", который решается ассистентами и "сложный RAG" для которого ассистенты не подходят и нужно пилить вручную? Если так, то где между ними граница? Хотя бы примерно.
Т.е. у ассистента под капотом спрятан механизм разбивки двух миллионов токенов из прикрепленного файла на мелкие куски подходящие для модельного контекста? Т.е. он берет на себя всю работу, описанную в статье? Зачем тогда нужны все эти подробности про чанки, если теперь все это доступно из коробки и достаточно просто воспользоваться ассистентом не вникая в подробности? Ассистенты плохо справляются с этой работой и поэтому надо пилить эти внутренности вручную?
Полезность этой фичи для пользователя оставим за скобками. Пользователи бывают разные - кому-то нужно, кому-то нет.
Было бы любопытно посмотреть на конкретные примеры как это работает у ассистентов (подозреваю что никак).
И интересно было бы почитать первоисточники что про это пишут разработчики RAG.
Ну т.е. выглядит так что OpenAI выпуском своих ассистентов убил всю эту сферу разработки каких-то специальных навороченных проблемных механизмов RAG - все в итоге свелось к тому что бы создать ассистента и прицепить к нему базу знаний. И вся эта канитель с чанками и тестами осталась в темном средневековом прошлом. Нет?
А при чем тут контекст модели? Ассистент работает с прикрепленными файлами у которых ограничение no more than 2,000,000 tokens (computed automatically when you attach a file). https://platform.openai.com/docs/assistants/tools/knowledge-retrieval
Тут в соседней статье на похожую тему коллега поднимал правильный вопрос: такая система должна давать не только ответ на поставленный вопрос, но и ссылку на первоисточники, откуда конкретно этот ответ взялся и где его можно перепроверить.
Эта фича входит в концепцию RAG? Или не барское это дело?
Вопросы по поводу ассистентов:
Являются ли ассистенты RAG-инструментами? Если нет, то почему?
"Ищешь кусок данных и добавляешь его в контекст" - эта постановка вопроса выглядит на первый взгляд устаревшей. Кажется правильным говорить что нужно добавлять не кусок данных в контекст, а всю базу знаний в ассистента. И пусть уже он сам там разбирается где что искать (с помощью правильных Instructions и, возможно, файн-тьюнинга). Нет? Вроде бы об этом написано в пункте про референсные ответы"? Почему все вопросы-ответы нельзя сделать такими же как "рефернсные"?