Краткий обзор токенизаторов: что это такое и зачем это надо? / Comments / Habr

LinkToOS Mar 16 2024 at 10:23

Представьте себе, что вы читаете книгу и хотите найти все места, где упоминается слово «кот».

Для этого используется "индексирование".

использует регулярные выражения для разделения текста на токены. Например, вы можете использовать его для разделения текста на слова, разделенные пробелами

Разделение на слова это split. Обычная функция текстовых процессоров.

"Токенизация" это преобразование объекта из текстового формата, в формат базы данных.
Например, сначала слово преобразуется в адрес. Каждое слово это уникальная последовательность букв, которую можно напрямую преобразовать в уникальное число, которое после редукции можно использовать как адрес в базе данных. Например string "корова" преобразуется в uint_ адрес_коровы. По этому адресу лежит дескриптор слова. Например адрес_коровы{ [Имя: "корова"][код:id_существительное] [код:id_женский] [съедобное:да] [хищное:нет]...[акустически активное: да] [электорально активное:нет] [самодвижущееся:да] [оскорбительное:да] [мем-ассоциированность:0] []}. Набор признаков задается разработчиком. Теперь слово это уже не просто набор букв, а набор признаков, которые можно использовать для реализации модели условного "машинного понимания". После обработки нейросетью, фраза "корова съела человека" будет иметь низкое значение достоверности, из-за значения параметра [хищное:нет].

Кроме массива признаков может быть массив "степень ассоциированности". Если реализуется двумерный массив Associativity[column,row], то по адресу [строка "корова", столбец"мяч"] значение будет равно 0. ["корова", "поле"] = 100, ["футбол", "поле"] = 100, ["футбол", "корова"] = 0, ["футбол", "трава"] = 100, ["корова", "трава"] = 100. Значения заполняются в процессе обучения на основе текстов, например по частоте нахождения слов в одном текстовом блоке.
После обработки нейросетью, фраза "корова играет в футбол" будет иметь низкое значение достоверности, из-за низкого значения в массиве по адресу ["футбол", "корова"].
(принципы организации базы данных даны чисто для примера, и не связаны с реальными моделями обучения)

Краткий обзор токенизаторов: что это такое и зачем это надо?

Comments 2

Articles