Комментарии / Профиль Nikta3 / Хабр

Разрабатываем AI-системы для бизнеса

Рейтинг

Подписчики

ПрофильСтатьи21ПостыНовостиКомментарии11

От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги

Спасибо за вопрос! В примере кода индекс 42- условное число, взятое просто для иллюстрации. В реальности индекс слова формируется на этапе построения словаря при препроцессинге текста.

Как строится словарь и откуда берутся индексы

Токенизация, то есть текст разбивается на слова (токены):
"Я люблю яблоко и грушу" → ["я", "люблю", "яблоко", "и", "грушу"]
Подсчёт частот считаем, как часто каждое слово встречается в корпусе.
Фильтрация- оставляем только топ‑N самых частых слов (например, 10 000), отбрасывая редкие

Нумерация- каждому уникальному слову присваивается индекс:

0 → "<PAD>"   (заполнитель)
1 → "<UNK>"   (неизвестное слово)
2 → "и"
3 → "в"
4 → "на"
...
1423 → "яблоко"
2891 → "груша"

Cам индекс зависит от: порядка добавления (обычно по убыванию частоты),размера словаря, языка и корпуса (в одном датасете «яблоко» может быть под индексом 1423, в другом допустим 897). Сам по себе индекс не несёт смысла, он просто ключ для поиска в матрице эмбеддингов. Смысл появляется только после обучения: строки матрицы, соответствующие словам «яблоко» и «груша», сближаются в векторном пространстве, даже если их индексы (1423 и 2891) численно далеки друг от друга

Градиентный спуск: как «слепой в лабиринте» находит выход в миллиардном пространстве — и почему это сердце любого ML

Nikta3 29 окт 2025 в 08:42

Добавили это в статью с таблицей и примером. Спасибо за толковый фидбек!

Nikta3 29 окт 2025 в 05:22

вы правы- всегда можно лучше

Nikta3 29 окт 2025 в 05:21

Спасибо за комментарий! Да, BFGS действительно быстрее на маленьких задачах, тк он видит кривизну и прыгает прямо к минимуму, но в нейросетях с миллиардами параметров BFGS требует огромной памяти, а градиентный спуск (и особенно SGD) лёгкий, работает по кусочкам, шум от батчей помогает выбраться из мелких ямок, оэтому побеждает простота и масштаб, а не умность BFGS, но в гибридных подходах ( LoRA + L-BFGS) уже экспериментируют

Прозрачное обнаружение предвзятости в ИИ: Новый подход с использованием аргументации

Nikta3 7 авг 2025 в 12:55

Метод, описанный в статье, не включает напрямую объективные статистические данные, такие как уровень дефолта по кредитам или средний доход, он анализирует локальные различия в результатах классификатора между защищёнными и незащищёнными группами в окрестностях, схожих по характеристикам. Это позволяет выявить предвзятость, но не отвечает, оправданы ли различия статистикой. Такой подход делает метод прозрачным и универсальным, но для учёта объективных данных требуется доработка, например, интеграция статистических метрик в аргументационные дебаты

Как AI спасает отдел поддержки от выгорания: меньше стресса, больше эффективности

Nikta3 24 июн 2025 в 10:03

Многие сталкивались с примитивными чат-ботами, которые только раздражают бессмысленными ответами. В статье речь идёт об AI-агентах, которые построены на современных языковых моделях с обработкой естественного языка и дообучаются на реальных тикетах конкретного бизнеса. Это позволяет им понимать контекст, сленг и даже сложные запросы, а не просто выдавать заученные фразы. При этом мы не заменяем людей полностью: AI берёт на себя рутину (80% тикетов - это типовые вопросы), а сложные случаи передаёт живым специалистам. Так клиенты получают быстрые и точные ответы, а операторы не тонут в однотипных задачах. Но вы правы, технология должна быть настроена правильно, иначе она только вредит.

Как AI спасает отдел поддержки от выгорания: меньше стресса, больше эффективности

Nikta3 24 июн 2025 в 09:59

Поверьте, общаясь с AI-агентом, построенным на продвинутых языковых моделях, вы даже не поймёте, что это не человек. В одном из наших кейсов клиент, который привык общаться с одним и тем же сотрудником, даже и не понял, что сейчас общается с ии-ассистентом, так как наши ии-агенты обучаются на реальных диалогах и адаптируются к стилю общения клиента.

Как AI спасает отдел поддержки от выгорания: меньше стресса, больше эффективности

Nikta3 24 июн 2025 в 09:49

Вы правы, никто не любит, когда общение с поддержкой превращается в пинг-понг с раздражёнными клиентами или операторами. Именно поэтому наши AI-агенты - это не просто чат-боты, которые кидаются шаблонными фразами. Они построены на продвинутых языковых моделях, которые понимают контекст, сленг и даже эмоции в запросах. + Живой сотрудник как раз может заняться сложными кейсами, где нужен настоящий человеческий подход.

Как мы программировали робота-краба для ЦИПР2025: AI, который выделяет нас на фоне пультов

Nikta3 16 июн 2025 в 12:20

Заглядывайте к нам в тг-канал). Там все есть!

-1

Как мы программировали робота-краба для ЦИПР2025: AI, который выделяет нас на фоне пультов

Nikta3 16 июн 2025 в 11:18

Робот работает в режиме точки доступа. Подключали дополнительный WiFi адаптер для выхода в интернет

Как мы программировали робота-краба для ЦИПР2025: AI, который выделяет нас на фоне пультов

Nikta3 15 июн 2025 в 12:31

Вычислитель nvidia jetson nano 8gb, лидар YDLIDAR_G4, камера DABAI , питание 11,1v через плату распределения