All streams
Search
Write a publication
Pull to refresh
4
0
Send message

Вы как будто не про эффективных инвест банкиров пишите. Бонусы попилены? Если да, то всё отлично.

А так да, длинные хвосты/tail risk/чёрный лебедь реализовался. Именно поэтому у нормальных людей всегда возникает вопрос, как этот tail risk захеджирован.

Зависит от того как сделаете. Но это однозначно рабочий вариант, который будет значительно выигрывать в простоте и качестве. В поисковиках поиск по картинке уже давно на схожих принципах работает.

Да я не то чтобы серьезно. Но математика это вообще не наука в привычном понимании. В первом приближении это просто игра в абстракции. Игра в которой правила, давно установлены (мат. логикой). А получаемые в результате абстракции бывают полезными, позволяя получать из очевидных предпосылок не очевидные результаты. Да и вообще это самая "бронебойная" область, так как результаты - доказательства, может проверить любой математик соответствующей квалификации, и все либо соглашаются с доказательством, либо находят ошибку или контр-пример. Доказывать мне лично "грузя" мат.логикой, ничего не надо,- опирайтесь на обще признанные результаты, и небольшое количество промежуточных шагов, а потом я еще и постараюсь проверить насколько выводы сойдутся с практикой/вычислительным экспериментом.

Какая-то методика из конца нулевых. В современных реалиях это гораздо проще делать, через эмбединги "визуальных" нейросеток, и находя ближайшие из них(с косинусной или другой метрикой). Примерно так же как это сделано в распознавании лиц.

Они правы лишь в своей безграмотности, есть такой раздел в философии "методология науки". Где все разложено по полочкам, в том числе и про Поппера, "единство и противоположность" экспериментального и теоретического метода и т.д. А так срабатывает стандартная мудрость "Один дурак может задать столько вопросов, что и сто мудрецов не ответят".

Под метрикой в ML обычно понимают, некоторую скалярную величину показывающую степень ошибки/невязки между "целевой" переменной(например, нажатием пользователем кнопки X) и тем что предсказывает модель. Обычно, стоит задача ее минимизации, в идеале модель должна предсказать все случаи когда пользователь нажал/не нажал кнопку X. Вопрос интерпретируемости, то есть понимания почему некоторые входные воздействия привели к данному результату, отдельная больная тема, которая хорошо решена в основном, лишь для простейших линейных моделей.

PS: в рекомендашках может быть метрика максимизирующая релевантность, то есть что пользователь кликнет какую-то рекомендацию, или что-то в этом духе.

Современные системы ML и рекомендашки в том числе, это во многом вещи в себе, так что главный инженер не имеющий опыта в ML, очевидно, вряд ли мог знать до конца как это все работает. А инженеров непосредственно занимающихся ML и тех кто выше по иерархии(тим лиды), могли уже давно уволить.

Надо. Но я вот это "переделывали чтобы добиться правильных показателей", слышал ни раз и не два, применительно к любой статистики, в том числе и американской. Доверия у меня к подобным заявлениям, очень малое, как говорится "каковы ваши доказательства". Помимо того, что переделывали, что вполне может быть частью рабочего процесса. Надо еще и доказать влияние этих переделок на существенное искажение статистической картины рассматриваемых экономических параметров.

В линуксе они так и работают, вызывают внутри ядерные функции по "хардкоженым адресам", а символы в загружаемых модулях по факту "линкуются к ядру" во время загрузки.

"После кризиса 2008-2009 годов начался процесс постепенного снижения показателя – актуальный уровень безработицы в США с 2013 по 2023 год:

  • 2013 год – 7,3%;

  • 2017 год – 4,4%;

  • 2018 год – 3,7%;

  • 2019 год – 3,5%;

  • 2020 год – 6.7%

  • 2021 год – 4.2%

  • 2022 год – 4.2%

  • 2023 год – 3.7% (данные ноября 2022 года)

Последние цифры беспрецедентны даже для американской экономики."

Если бы я верил в теории заговора, то моей актуальной гипотезой было бы, что ребята с волл стрит в заговоре с ФРС, решили пошатать акции самого "горячего" сектора. Чтобы там начали резать издержки, прежде всего самые существенные "человеческие", чтобы отодвинуть перспективы роста зарплат и перегрева экономики с последующим ростом инфляции. (/trololo)

Оставлю: https://how.complexsystems.fail/

Вот это вообще бессмертно и жиза:

Because overt failure requires multiple faults, there is no isolated
‘cause’ of an accident. There are multiple contributors to accidents.
Each of these is necessarily insufficient in itself to create an
accident. Only jointly are these causes sufficient to create an
accident. Indeed, it is the linking of these causes together that
creates the circumstances required for the accident. Thus, no
isolation of the ‘root cause’ of an accident is possible. The
evaluations based on such reasoning as ‘root cause’ do not reflect a
technical understanding of the nature of failure but rather the
social, cultural need to blame specific, localized forces or events
for outcomes.

Токенизатор там как раз более-менее стандартный, по крайней мере в gpt-3 был такой. https://arxiv.org/pdf/1909.03341.pdf

В лучших традициях современного DS/NLP. Насколько я понимаю, сплит делается только по границе слов. Все остальное просто байтики в utf-8 с забавными статистическими свойствами.

Да, вы в общем правы. Но к кодированию байтами пришли как раз из этих соображений, минимизации базового словаря(и энтропии).

bpe-nlp

byte-level BPE

а вот и пэйпер с которого началось Neural Machine Translation with Byte-Level Subwords

При должной наглости, можно всю экономику рассматривать, как граф с консервацией потока в узлах )

"и правильный ответ в том, что различий нет."

Нет, товарищи из QA, так просто вы не отделаетесь. ) Cортировка пузырьком - стабильная, а быстрая нет, если с ключами ассоциированы данные, то на практике результат может быть принципиально разный.

Нет, градиент это локальное направление наибыстрейшего убывания/возрастания функции. Градиентный спуск это итеративный процесс движения вдоль градиента. Если функция выпуклая то мы более менее гарантированно попадаем в глобальный оптимум.

Формально приравнивая градиент нулю, мы находим локальные "ямы". Проблема в том, что если функция достаточно сложная, то решение "обратной задачи" нахождения точек где градиент равен нулю, может быть сопоставимо по сложности или сложнее чем исходная задача оптимизации, да и таких "ям" может быть счетная бесконечность.

То что делают в школе приравнивая градиент нулю с ростом размерности и сложности, становится все менее и менее применимо на практике.

UTF-8 вряд ли, а вот то что токены связаны с энтропией вполне возможно. (часто встречающиеся входные последовательности отображаются более "плотно" в токены, а менее наоборот)

На рынках с более трилионным дневным оборотом, это очевидно работает ни так как вы знаете. Чтобы хоть сколько бы значительно двинуть индексы, прочитав чейто твит - столько людей никогда в жизни не найдется.

Проблема в том что у вас наверняка будут библиотеки и возможно сторонний код "на английском". В результате получится мешанина, которая точно никому не поможет.

Information

Rating
Does not participate
Registered
Activity

Specialization

Software Developer, Application Developer
Senior
C++
C++ STL
Linux
Python
Machine learning
Applied math
Algorithms and data structures
Code Optimization