Pull to refresh

Comments 7

Не хочется, что бы звучало как придирка, но почему БЯМ, а не устоявшийся термин LLM?
Я даже не сразу сообразил, что имеется в виду.

Где устоявшийся? Покажите, пожалуйста, решение Комитета по аббревиатурам и сокращениям русского языка.

Устоявшийся - не значит кем-то выбранный. Что бы убедиться что русскоязычное сообщество предпочитает использовать термин LLM, неужели чем БЯМ, думаю достаточно взглянуть на количество статей на habr по этим запросам. По LLM - 22 страницы результатов, по БЯМ - 2 (но скорее даже одна, тк на второй странице только одна статья).

Про комитет — это моя ирония. Я этот орган выдумал. Никто не приходит и не диктует, как правильно писать сокращения.

Это как жанры в музыке: нет единого стандарта, как характеризовать различные композиции. Где-нибудь в недрах «Ютуба», наверное, идут баталии в комментариях под клипами Скриллекса про то, что нужно называть эти треки электрохаусом. Спорящие легко могут заявить, что в настоящем дабстепе должны присутствовать элементы даба, особого направления ямайской музыки. В любом случае подобные споры будут полностью непродуктивны, поскольку ни одна из сторон мнение не поменяет.

Эта моя ирония — про некорректность вопроса «почему не устоявшийся термин». Потому что никто не сделал этот термин «устоявшимся»: центрального регулятора нет.

***

А ведь когда-то регулятор был. Но после эпохи перестройки в русский язык иностранные термины заходят в три этапа:

  1. Написание буквами английского алфавита. (Именно английского: не ищут специальные символы, а пишут с заменами. Пример: Haagen-Dazs, а не Häagen-Dazs. Других символов на клавиатуре нет.) При этом даже в устной речи слово никак не склоняется, что режет слух.

  2. Постепенный вход в русский язык в кириллическом написании. Как правило, по правилам практической транскрипции, но иногда с нарушениями.

  3. Почти сразу же — слово начинает склоняться и участвует в словообразовании.

Например, все три этапа прошло слово «Интернет». Ещё в конце девяностых его употребляли латиницей и без склонений. Сейчас некоторые предлагают даже писать «интернет», со строчной, а ещё, к примеру, есть прилагательное «интернетный».

При этом у процесса три характеристики:

  • Неизбежность. В русском языке 33 буквы. Латиница в литературном русском языке не используется. Рано или поздно термин записывается кириллицей, когда выходит за рамки специализированного сленга.

  • Необратимость. Обратно процесс не идёт. НАСА, «Боинг», ДАРПА и любые другие крупные иностранные организации, известные русскому языку до перестройки, пишутся кириллицей. NASA, Boeing и DARPA — это недочёт.

  • Неуникальность относительно других языков. Более того, там всё похлеще. В английском языке никто даже не подумает использовать кириллицу. Пишут sputnik и Ilizarov apparatus. Криков «а давайте напишем кириллицей» там почему-то не наблюдается. Какой национализм творится во французском, я вообще молчу: замены ради замен.

Смелые нонконформисты (типа меня) сразу приближают третий этап. Это делать возможно, поскольку некоторые термины переводятся однозначным образом, а правила практической транскрипции зафиксированы в соответствующих справочниках.

Аббревиатуры могут отличаться по звучанию и даже числу букв в русском и английском языках. Это нормальное явление. Примеры: ВОЗ и WHO, ООН и UN.

Эта историческая справка — про некорректность вопроса «почему не устоявшийся термин». Потому что это не устоявшееся написание, а переходное.

Постепенно станет общепринятым написание «БЯМ», пусть «LLM» и будут помнить. Примерно так же все говорят «процессор» и «видеоускоритель», хотя помнят термины «CPU» и «GPU». Я иду в авангарде, следуйте за мной.

***

Приведением статистики, кто как пишет, вы лишь демонстрируете, что устоявшегося написания нет даже на Хабре. Есть как минимум двадцать примеров употребления «БЯМ» в публикациях. Вопрос «почему не устоявшийся термин» опять некорректен.

Нет ничего труднопереводимого и неоднозначного в трёх словах «large language model». Они переводятся, заимствовать их латиницей смысла нет. Тем не менее некоторые ленятся.

А ещё продолжать писать «LLM» безопаснее. Если так не делать, тебя заклюют в комментариях. Ваш довод про статистику даже звучит странно: нужно писать так, как мы говорим, потому что другие пишут так, потому что их мы уже так делать заставили. Круг замкнулся.

В других местах всё ещё более расплывчато. На «Википедии» пишут «БЯМ». В соответствующей статье термин «LLM» просто не упоминается.

Кстати говоря, чтобы искалось лучше, я у себя в тэгах публикаций про БЯМ ставлю как LLM, так и БЯМ. Поэтому я посчитан в поиске Хабра как сторонник написания «LLM». А ещё в некоторых статьях из поиска «LLM» употребляется где-нибудь в листинге кода или является частью названия модели.

От самого довода про число страниц в поиске вы быстро захотите отказаться. Я могу писать, не напрягаясь, по тридцать публикаций про одну и ту же тему в месяц. Через год написание кириллицей станет доминирующим. Представляете, в 2025 году я вам начну диктовать написание «БЯМ» этим же самым доводом? Вой будет стоять до небес.

Пока далеко не ушли, примите заявку в комитет. Вместо подозрительно звучащего БЯМа использовать устоявшийся и благозвучный ЯМБ (Языковая Модель Большая).

Во всех работах (научных, научно-популярных статьях и пр.) принято вводить в начале (при первом употреблении) используемые сокращения, чтобы читатель мог понять автора, а не гадать. Это и помогло бы избежать лишних споров и комментариев, по объёму превышающих сам пост.

Полностью с вами согласен. Лучше сразу начать употреблять БЯМ, чем потом продвигать эту аббревиатуру, тем более она несет смысл без перевода. А выражение LLM уже везде пихают, и в название моделей и в названия команд разработки. В итоге у некоторых получается что-то вроде AI LLM SuperTeam.

А благодаря вашему комментарию, все кто его прочитал навсегда запомнят что такое БЯМ. Отличная работа. Детям вечером расскажу, что это такое, тем более звучит прикольно, может друзьям потом расскажут. Они нейронками пользуются периодически, но что такое БЯМ не слышали.

Sign up to leave a comment.

Other news