Спасибо за вопрос! В примере кода индекс 42- условное число, взятое просто для иллюстрации. В реальности индекс слова формируется на этапе построения словаря при препроцессинге текста.
Как строится словарь и откуда берутся индексы
Токенизация, то есть текст разбивается на слова (токены): "Я люблю яблоко и грушу" → ["я", "люблю", "яблоко", "и", "грушу"]
Подсчёт частот считаем, как часто каждое слово встречается в корпусе.
Фильтрация- оставляем только топ‑N самых частых слов (например, 10 000), отбрасывая редкие
Cам индекс зависит от: порядка добавления (обычно по убыванию частоты),размера словаря, языка и корпуса (в одном датасете «яблоко» может быть под индексом 1423, в другом допустим 897). Сам по себе индекс не несёт смысла, он просто ключ для поиска в матрице эмбеддингов. Смысл появляется только после обучения: строки матрицы, соответствующие словам «яблоко» и «груша», сближаются в векторном пространстве, даже если их индексы (1423 и 2891) численно далеки друг от друга
Спасибо за комментарий! Да, BFGS действительно быстрее на маленьких задачах, тк он видит кривизну и прыгает прямо к минимуму, но в нейросетях с миллиардами параметров BFGS требует огромной памяти, а градиентный спуск (и особенно SGD) лёгкий, работает по кусочкам, шум от батчей помогает выбраться из мелких ямок, оэтому побеждает простота и масштаб, а не умность BFGS, но в гибридных подходах ( LoRA + L-BFGS) уже экспериментируют
Метод, описанный в статье, не включает напрямую объективные статистические данные, такие как уровень дефолта по кредитам или средний доход, он анализирует локальные различия в результатах классификатора между защищёнными и незащищёнными группами в окрестностях, схожих по характеристикам. Это позволяет выявить предвзятость, но не отвечает, оправданы ли различия статистикой. Такой подход делает метод прозрачным и универсальным, но для учёта объективных данных требуется доработка, например, интеграция статистических метрик в аргументационные дебаты
Многие сталкивались с примитивными чат-ботами, которые только раздражают бессмысленными ответами. В статье речь идёт об AI-агентах, которые построены на современных языковых моделях с обработкой естественного языка и дообучаются на реальных тикетах конкретного бизнеса. Это позволяет им понимать контекст, сленг и даже сложные запросы, а не просто выдавать заученные фразы. При этом мы не заменяем людей полностью: AI берёт на себя рутину (80% тикетов - это типовые вопросы), а сложные случаи передаёт живым специалистам. Так клиенты получают быстрые и точные ответы, а операторы не тонут в однотипных задачах. Но вы правы, технология должна быть настроена правильно, иначе она только вредит.
Поверьте, общаясь с AI-агентом, построенным на продвинутых языковых моделях, вы даже не поймёте, что это не человек. В одном из наших кейсов клиент, который привык общаться с одним и тем же сотрудником, даже и не понял, что сейчас общается с ии-ассистентом, так как наши ии-агенты обучаются на реальных диалогах и адаптируются к стилю общения клиента.
Вы правы, никто не любит, когда общение с поддержкой превращается в пинг-понг с раздражёнными клиентами или операторами. Именно поэтому наши AI-агенты - это не просто чат-боты, которые кидаются шаблонными фразами. Они построены на продвинутых языковых моделях, которые понимают контекст, сленг и даже эмоции в запросах. + Живой сотрудник как раз может заняться сложными кейсами, где нужен настоящий человеческий подход.
Спасибо за вопрос! В примере кода индекс 42- условное число, взятое просто для иллюстрации. В реальности индекс слова формируется на этапе построения словаря при препроцессинге текста.
Как строится словарь и откуда берутся индексы
Токенизация, то есть текст разбивается на слова (токены):
"Я люблю яблоко и грушу"→["я", "люблю", "яблоко", "и", "грушу"]Подсчёт частот считаем, как часто каждое слово встречается в корпусе.
Фильтрация- оставляем только топ‑N самых частых слов (например, 10 000), отбрасывая редкие
Нумерация- каждому уникальному слову присваивается индекс:
Cам индекс зависит от: порядка добавления (обычно по убыванию частоты),размера словаря, языка и корпуса (в одном датасете «яблоко» может быть под индексом 1423, в другом допустим 897). Сам по себе индекс не несёт смысла, он просто ключ для поиска в матрице эмбеддингов. Смысл появляется только после обучения: строки матрицы, соответствующие словам «яблоко» и «груша», сближаются в векторном пространстве, даже если их индексы (1423 и 2891) численно далеки друг от друга
Добавили это в статью с таблицей и примером. Спасибо за толковый фидбек!
вы правы- всегда можно лучше
Спасибо за комментарий! Да, BFGS действительно быстрее на маленьких задачах, тк он видит кривизну и прыгает прямо к минимуму, но в нейросетях с миллиардами параметров BFGS требует огромной памяти, а градиентный спуск (и особенно SGD) лёгкий, работает по кусочкам, шум от батчей помогает выбраться из мелких ямок, оэтому побеждает простота и масштаб, а не умность BFGS, но в гибридных подходах ( LoRA + L-BFGS) уже экспериментируют
Метод, описанный в статье, не включает напрямую объективные статистические данные, такие как уровень дефолта по кредитам или средний доход, он анализирует локальные различия в результатах классификатора между защищёнными и незащищёнными группами в окрестностях, схожих по характеристикам. Это позволяет выявить предвзятость, но не отвечает, оправданы ли различия статистикой. Такой подход делает метод прозрачным и универсальным, но для учёта объективных данных требуется доработка, например, интеграция статистических метрик в аргументационные дебаты
Многие сталкивались с примитивными чат-ботами, которые только раздражают бессмысленными ответами. В статье речь идёт об AI-агентах, которые построены на современных языковых моделях с обработкой естественного языка и дообучаются на реальных тикетах конкретного бизнеса. Это позволяет им понимать контекст, сленг и даже сложные запросы, а не просто выдавать заученные фразы. При этом мы не заменяем людей полностью: AI берёт на себя рутину (80% тикетов - это типовые вопросы), а сложные случаи передаёт живым специалистам. Так клиенты получают быстрые и точные ответы, а операторы не тонут в однотипных задачах. Но вы правы, технология должна быть настроена правильно, иначе она только вредит.
Поверьте, общаясь с AI-агентом, построенным на продвинутых языковых моделях, вы даже не поймёте, что это не человек. В одном из наших кейсов клиент, который привык общаться с одним и тем же сотрудником, даже и не понял, что сейчас общается с ии-ассистентом, так как наши ии-агенты обучаются на реальных диалогах и адаптируются к стилю общения клиента.
Вы правы, никто не любит, когда общение с поддержкой превращается в пинг-понг с раздражёнными клиентами или операторами. Именно поэтому наши AI-агенты - это не просто чат-боты, которые кидаются шаблонными фразами. Они построены на продвинутых языковых моделях, которые понимают контекст, сленг и даже эмоции в запросах. + Живой сотрудник как раз может заняться сложными кейсами, где нужен настоящий человеческий подход.
Заглядывайте к нам в тг-канал). Там все есть!
Робот работает в режиме точки доступа. Подключали дополнительный WiFi адаптер для выхода в интернет
Вычислитель nvidia jetson nano 8gb, лидар YDLIDAR_G4, камера DABAI , питание 11,1v через плату распределения