Обновить
-2
6
NIKTA.AI@Nikta3

Разрабатываем AI-системы для бизнеса

Отправить сообщение

Спасибо за вопрос! В примере кода индекс 42- условное число, взятое просто для иллюстрации. В реальности индекс слова формируется на этапе построения словаря при препроцессинге текста.

Как строится словарь и откуда берутся индексы

  1. Токенизация, то есть текст разбивается на слова (токены):
    "Я люблю яблоко и грушу"["я", "люблю", "яблоко", "и", "грушу"]

  2. Подсчёт частот считаем, как часто каждое слово встречается в корпусе.

  3. Фильтрация- оставляем только топ‑N самых частых слов (например, 10 000), отбрасывая редкие

  4. Нумерация- каждому уникальному слову присваивается индекс:

    0 → "<PAD>"   (заполнитель)
    1 → "<UNK>"   (неизвестное слово)
    2 → "и"
    3 → "в"
    4 → "на"
    ...
    1423 → "яблоко"
    2891 → "груша"
    

Cам индекс зависит от: порядка добавления (обычно по убыванию частоты),размера словаря, языка и корпуса (в одном датасете «яблоко» может быть под индексом 1423, в другом допустим 897). Сам по себе индекс не несёт смысла, он просто ключ для поиска в матрице эмбеддингов. Смысл появляется только после обучения: строки матрицы, соответствующие словам «яблоко» и «груша», сближаются в векторном пространстве, даже если их индексы (1423 и 2891) численно далеки друг от друга

Добавили это в статью с таблицей и примером. Спасибо за толковый фидбек!

Спасибо за комментарий! Да, BFGS действительно быстрее на маленьких задачах, тк он видит кривизну и прыгает прямо к минимуму, но в нейросетях с миллиардами параметров BFGS требует огромной памяти, а градиентный спуск (и особенно SGD) лёгкий, работает по кусочкам, шум от батчей помогает выбраться из мелких ямок, оэтому побеждает простота и масштаб, а не умность BFGS, но в гибридных подходах ( LoRA + L-BFGS) уже экспериментируют

Метод, описанный в статье, не включает напрямую объективные статистические данные, такие как уровень дефолта по кредитам или средний доход, он анализирует локальные различия в результатах классификатора между защищёнными и незащищёнными группами в окрестностях, схожих по характеристикам. Это позволяет выявить предвзятость, но не отвечает, оправданы ли различия статистикой. Такой подход делает метод прозрачным и универсальным, но для учёта объективных данных требуется доработка, например, интеграция статистических метрик в аргументационные дебаты

Многие сталкивались с примитивными чат-ботами, которые только раздражают бессмысленными ответами. В статье речь идёт об AI-агентах, которые построены на современных языковых моделях с обработкой естественного языка и дообучаются на реальных тикетах конкретного бизнеса. Это позволяет им понимать контекст, сленг и даже сложные запросы, а не просто выдавать заученные фразы. При этом мы не заменяем людей полностью: AI берёт на себя рутину (80% тикетов - это типовые вопросы), а сложные случаи передаёт живым специалистам. Так клиенты получают быстрые и точные ответы, а операторы не тонут в однотипных задачах. Но вы правы, технология должна быть настроена правильно, иначе она только вредит.

Поверьте, общаясь с AI-агентом, построенным на продвинутых языковых моделях, вы даже не поймёте, что это не человек. В одном из наших кейсов клиент, который привык общаться с одним и тем же сотрудником, даже и не понял, что сейчас общается с ии-ассистентом, так как наши ии-агенты обучаются на реальных диалогах и адаптируются к стилю общения клиента.

Вы правы, никто не любит, когда общение с поддержкой превращается в пинг-понг с раздражёнными клиентами или операторами. Именно поэтому наши AI-агенты - это не просто чат-боты, которые кидаются шаблонными фразами. Они построены на продвинутых языковых моделях, которые понимают контекст, сленг и даже эмоции в запросах. + Живой сотрудник как раз может заняться сложными кейсами, где нужен настоящий человеческий подход.

Робот работает в режиме точки доступа. Подключали дополнительный WiFi адаптер для выхода в интернет

Вычислитель nvidia jetson nano 8gb, лидар YDLIDAR_G4, камера DABAI , питание 11,1v через плату распределения

Информация

В рейтинге
913-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность