Information
- Rating
- 1,408-th
- Location
- Белград, Белград, Сербия
- Date of birth
- Registered
- Activity
Specialization
Application Designer, Product Designer
Senior
From 3,500 $
Product Design
Interface development
UI/UX design
Figma Design
Designing interfaces
Mobile application design
Product management
Project management
Business Strategy Development
Startup management
У меня есть мини библиотека, которая со мной кочует
Некоторые книги туда достойны попасть, которые мне не лень катать с собой)
Attention is all you need
Хотел затронуть в блоке контекстных окон
Но токены на генерацию закончилось 🥺
В наше время тик тока для меня честь, если люди могут держать внимание выше минуты
Так что да
мур мур 🫰
Он просто запускает тот же самый процесс внутри себя, общаясь сам с собой
Это не отменяет того факта, что он выдает токен за токеном. Просто теперь скрыто от пользователя запускает диалоги внутри себя
Спасибо за такие развернутые ответы, много нового для изучения открыли на подумать
Мне понадобится прочитать этот комментарий несколько раз
Но основной поинт, который я слышу, что сегодняшние LLM уже не просто "калькуляторы для слов", а что то более разумное?
Все жду те времена, когда "хоть и написана более, чем на половину нейронкой" будет звучать также, как "хоть и написана более, чем на половину в гугл доке"
Но спасибо 💖
А можете развернуть, что это значит?
Notebook LM люблю для такого использовать
упс, fixed
А backpropagation это что-то про это, да?
Спсибо вам 🫰
Ага, в последней части больше AI, так как человек устает :(
Мое предположение такое, что если у языка много словоформ, то одно слово разбивается на больше токенов, последовательность удлиняется, и задача усложняется
Понятно, что если взять отличный датасет и сделать так, чтобы модель компрессила например, русский наравне с английским, то вероятно эта разница уйдет. Но так как мы говорим про универсальные решения, то в среднем по больнице больше словоформ заставляет резать слово на больше токенов
Китайский даёт мало токенов, но приносит свою двусмысленность сегментации
Вот ответ ГПТ на этот счет
Откуда берётся «двусмысленность сегментации» 🧠
В китайском
нет явных границ слов
. «Слово» — это соглашение, а не символ «пробел».
Одну и ту же строку можно сегментировать по-разному, и все варианты формально допустимы. Примеры-классики:
研究生命起源
Вариант A: 研究 / 生命 / 起源 — «исследовать происхождение жизни».
Вариант B: 研究生 / 命 / 起源 — «магистрант / судьба / происхождение» — уже другой смысл.
长春市长春节讲话
Вариант A: 长春 / 市长 / 春节 / 讲话 — «мэр Чанчунь выступил на праздник весны».
Вариант B: 长春市 / 长 / 春节 / 讲话 — «город Чанчунь / длинный / праздник весны / речь» — ломает смысл.
Для LLM это означает:
короткая цепочка токенов
— да, но
больше вариантов интерпретации
. Модель должна «угадывать» разбиение опираясь на контекст.
Благодарю за комментарий
Предположил, что как раз таки в блоках про окна и токены уже есть "советы", которые неантропоморфные. Но возможно вы правы, и в рамках этой статьи это упрощение можно было бы и убрать, и добавить что-то более техническое
Спасибо за мысль, я подумаю сегодня завтра
Основная сложность вылезает с плавающими запятыми и делением. Умножение еще хоть как то у нее получается, это по сути сложение
GPT 3 по тому, что я находил ранее, крутится в районе 180 миллиардов параметров
Если реально есть где почитать, то с радостью бы почитал
За факт про цифры спасибо, я еще сам пробегусь и, скорее всего, добавлю в статью этот пункт
Це косяк прослойки между стулом и экраном
Это уже следующая стадия
Где то на уровне mcp решений
Спасибо за комментарий, как к этому приду тоже постараюсь что нибудь написать ❤️
Ну, не потому что не понимаю, а потому что не знал 🫠
Спасибо за тему для почитать