Комментарии / Профиль bt2901 / Хабр

Пользователь

Как заставить LLM сортировать данные: от наивного подхода до TrueSkill

Заземление в реальную статистику репостов - отлично, но всё равно не хватает эксперимента по устойчивости предсказанного рейтинга между разными запусками модели (с разным рандомным сидом, или там стояла нулевая температура?) Если сид не влияет, то всё равно будет зависимость от порядка постов, если их перемешать.

Для TrueScore Batch это вдвойне интересно, потому что добавляется ещё фактор разбиения постов на батчи. Аргумент, что TrueScore можно считать инкрементально, не пересчитывая все сравнения при добавлении новых объектов, работает только при условии того, что полученные в итоге оценки более-менее воспроизводимы и устойчивы.

Сложение с подвохом: что мы до сих пор не понимаем в 1 + 1? Гипотеза Эрдеша о множествах без суммы

bt2901 3 июл 2025 в 14:14

Такое ощущение, будто из этого можно построить какой-то чудной криптографический протокол а-ля proof of work. Берём некоторое множество специальной структуры (чтобы исключить лёгкие тривиальные ответы типа "все нечётные элементы") и просим вторую сторону предъявить бессумное подмножество размера в хотя бы N/3 + 10 элементов. Благодаря описываемому результату мы точно знаем, что решение существует и увеличение N позволяет регулировать вычислительную сложность задачи.

Аналог криптографии с открытым ключом тоже возможен: юзер генерирует большое бессумное множество размера N (это пароль), к нему как-то хитро добавляется 2N случайных чисел, при аутентификации мы показываем это большое множество размера 3N и просим предъявить его бессумное подмножество размера N. Это скорее всего не очень надёжно и не очень эффективно, но в областях типа защиты от спама или криптовалют может иметь смысл.

Нейрошиза: как мы потеряли голову из-за искусственного интеллекта

bt2901 29 мая 2025 в 18:01

Первая аббревиатура как-то связана с названием консоли/терминала в unix-подобных системах?

В сеть утек полный системный промпт Claude 3.7 Sonnet

bt2901 19 мая 2025 в 03:31

Я бы предположил, что поскольку чат подаётся в формате

[User]: question

[Claude]: answer

[User]: another question

[Claude]: <сгенерируй сюда новых токенов>

то LLM из контекста понимает, что вставлять нужно такие токены, которые согласуются с описанием этого неведомого зверя под названием Claude.

bt2901 11 апр 2025 в 09:00

Предвосхищая вопрос про импортность десятичной системы счисления - арабские цифры на самом деле из Индии, а страны БРИКС это вам не коллективный Запад, тут всё хорошо.

Сиракузская проблема, идея для решения (часть 1)

bt2901 16 дек 2024 в 11:15

Хочу обратить внимание автора на работу https://arxiv.org/abs/2007.06979, которая обнаружила интересную связь между гипотезой Коллатца и представлениями чисел в двоичной и троичной системах счисления.

Когда есть разница регистров, но это не верхний и не нижний регистры?

bt2901 8 ноя 2024 в 08:17

Iraq по-другому никогда не пишется.

Когда есть разница регистров, но это не верхний и не нижний регистры?

bt2901 8 ноя 2024 в 07:21

А почему бы нам тогда не вспомнить историю буквы У, которая до Петра Первого обозначалась как диграф "оу" (Юникод сохранил следы этой традиции в символах Ꙋꙋᲈ и Ѹѹ), хотя "у" в отдельности нигде не встречалась? Почему бı нам не упростить эти странıе символı-лигатурı?

Шутка, если что.

Разработка самой маленькой в мире книги на e-ink дисплее

bt2901 18 июн 2024 в 18:56

Возможно, я что-то не понял, но зачем рисовать свой шрифт с нуля? Разве нет возможности заимпортировать какой-то готовый шрифт? Сейчас есть куча моноширинных шрифтов с поддержкой большого количества символов, многие из которых ещё и учитывают потребность показывать свои символы на дисплеях маленького разрешения (например, Fairfax рисует всё черно-белым на сетке 6x12 пикселей)

Википедии на искусственных языках

bt2901 17 мая 2024 в 06:18

Я пишу этот комментарий с диким опозданием, но считаю, что всё же должен сказать пару слов по поводу Википедии на межславянском.

Во-первых, она есть: isv.miraheze.org. Как можно заметить, хостинг у неё не "официальный" медиавики (и не Инкубатор), а Miraheze. Что там с количеством и объёмом статей? По мне -- вполне неплохо, хотя конечно было бы очень интересно услышать мнение автора :)

Почему она на miraheze? Это подводит нас ко "во-вторых". Дело в том, что после фиаско с "сибирским языком" Википедия разрешает только такие разделы, которые имеют 639-3 код ISO (аналогичное требование есть и в других местах: forvo, tatoeba, GBoard, ...).

Межславянский пытался получить ISO код больше 10 лет, причём последние года три ситуация выглядела примерно так: на столе SIL лежит очень сильный proposal, который они по регламенту должны рассмотреть в конце года, а до тех пор -- он всё ещё висит в статусе PENDING без какого-либо движения и комментариев. Год проходит, статус не меняется (кажется, у SIL не было под рукой компетентного лингвиста-слависта, который мог бы оценить оный пропозал, а в одиночку принимать решение SIL не решался). На второй год этого ожидания аналогичный запрос отправили представители Токи Поны и их запрос исполнили; то есть Токи Пона, выйдя позже, дошла до финиша позже. Это было немного обидно :(

Но, наконец -- причём буквально на днях -- код ISO 639-3 языку всё же дали: ISV.

Что будет дальше? Это уже в-третьих. Мы потихоньку пытаемся получить полноценную википедию (и заимпортить туда дамп истории мирахезовой, это по идее технически возможно). Есть пара технических проблем (перенос js-гаджетов, которые делают транслитерацию и облегчают ввод текста), есть какие-то организационные проблемы (кажется, ISO 639-3 недостаточно, нужен ещё код IETF BCP-47 и какие-то минимальные данные о локали в Unicode CLDR).

Кто-то уже создал официальный запрос на создание Инкубатора, идёт голосование (пока что не очень активное, но все единогласно "за"). Непонятно, хватит ли активных участников, чтобы вытащить википедию из Инкубатора. С другой стороны, новость об открытии Инкубатора может наоборот привлечь большой поток пользователей, которые (подобно ТС) ранее об miraheze не слышали.

Мегагайд: культура работы с Git

bt2901 9 мая 2024 в 05:26

Кто? Коммит исправляет ошибки и форматирует. Это пошло ещё от английской версии, где, правда, коммит-месседжи писались в повелительном наклонении (или в инфинитиве, но без частицы to). Можно заметить по автоматическому сообщению про мердж: merge X into Y (не "merged", не "will merge", не "a/the merge" и уж точно не "merging").

Как я понимаю, смысл тут такой: "этот коммит сделает то-то, если его применить" - просто добавляешь в начале "will" и готово. Imperative mood тут тоже работает: на Гитхабе можно сначала написать issue с названием типа "use LibraryA instead of LibraryB", обсудить в нём плюсы и минусы, а потом сделать пулл реквест с дословно таким же названием.

Как адаптировать такое соглашение для русского языка? Можно писать "добавить XYZ" - это ок, но не самый короткий вариант. "Добавь XYZ" - смотрится странно и чуть невежливо. "Добавил XYZ" - глаз не мозолит, но здесь подразумевается актор "Я" (я добавил), а зачем он здесь, если мы говорим только про код и коммиты? "Добавит XYZ" - на один символ длиннее чем повелительное наклонение, но не такое странное. "Добавлено XYZ" - мне нравится больше всего, но это самый длинный вариант (я не думаю, что стоит так сильно заморачиваться краткостью в 2024 году, но тут автор выше пишет про 72/79 символов, так что наверное для кого-то это всё ещё важно).

Является ли "добавит XYZ" самым уместным вариантом для русского языка? Не знаю, но в целом этот стиль мне смотрится адекватным и продуманным. Я бы не назвал его насилием над русским языком.