Pull to refresh
2
0

ML/DL expert

Send message

Эмм. Там же BPE токенизация, т.е. токены - это даже не слова а их части. И уникальных - там да, несколько десятков тысяч. Т.е. речь явно не о них.

В общем, руки дошли посмотреть оригинал - подозрения подтвердились, на стр. 26 написано дословно следующее:
"Moreover, for more specific domains like code, there are many fewer tokens still, e.g. public github repos are estimated to be in low trillions of tokens."

Если рассматривать область программирования, то все публичные репозитории на Github оцениваются примерно в 1 миллион токенов.

Тут что-то не так. 1 миллион токенов (даже не Lines of Code) - это вполне по силам обычному много пишущему разработчику. Соответственно, исходя из примерного числа гитхаб-писателей, цифра должна быть на 6-7 OOM выше (т.е. триллионы токенов).

Всё так. Вот сам ChatGPT насчитал, что 1 кг пуха среднего качества на весах в Пятёрочке покажет примерно 880 грамм (8,624 Н / 9,8 = 0,88 кг).

def objective(trial):
  ...
  predictions = model.predict(X_test)

Небольшой комментарий - делать подбор гиперпараметров прямо по тест-сету - это "неспортивно", т.к. приводит к завышению реальных метрик модели. Обычно делают подбор на отдельном валидационном сете, и уже потом проверяют лидера на тест сете.

Когда владелец компании публично извиняется за что-то, да ещё с конкретикой, значит это "что-то" его реально выбесило.

В такой ситуации публичный ответ "this is wrong" - это предельно логичное действие только в одном случае - у тебя на руках оффер в другую компанию, и ты хочешь, чтобы тебя прямо сегодня уволили по инициативе работодателя :)

Advanced Soft Skills, учимся у лучших! :)

Для указанной задачки с определением простоты Numba должна быть плюс-минус сравнима по скорости с Cython. Вероятнее всего, дело в "непрогретости" (один из постов про это).

Вариант лечения: в декораторе после numba.njit уточнить в скобочках сигнатуру: (boolean(int_))

Топикстартеру:
не стоит обижаться, это специфика Я, причём вынужденная: вы просто представьте себя на месте HR, когда на одну позицию претендует человек с опытом и ожиданиями 200к+, и еще пяток неопытных но с горящими глазами студентов-олимпиадников из МГУ, МФТИ и тп, вообще без ожиданий по компенсациям. Да, с ними придётся повозиться на первых порах, но растут они очень быстро (видел своими глазами).
В общем, для состоявшегося специалиста идти в Я за деньгами смысла нет. А вот если материальные проблемы +- решены и хочется уникальных проектов с петабайтными данными — это идеальное место.

гарнитуры у нас хорошие, чувствительные, моя команда хорошо слышит, что говорит жена

Сейчас есть крутые гарнитуры, почти полностью убирающие этот эффект.
Пару недель назад тут пробегал пост (как обычно, с хорошими комментами) про один из неплохих вариантов, хотя и не дешёвых.
на текущей работе я всё купил себе сам: и ноут, и винду на него, и тулзы для программирования

Стартап? :)
То есть, к примеру, если есть два фонда с условной историей для 4 дней:
фонд1: [100, 110, 150, 160]
фонд2: [500, 510, 515, 530]
то сначала вычисляются отношения цен между соседними днями:
фонд1: [1.10, 1.36, 1.07]
фонд2: [1.02, 1.01, 1.03]
и потом считается корреляция между ними?

Почему хочется уточнить этот момент — видел расчёты разными способами, и результаты могут принципиально отличаться. К примеру, для исходных массивов корреляция будет сильно-положительной, около +0.9, а для вторых массивов с отношениями — сильно-отрицательной, около -0.9. Т.е. даже знаки могут разные.
корреляция по изменениям цен

А как именно вычислялась корреляция? По самим ценам или по их дневным разностям?
Да, в оценках с чайником целью была именно грубая проверка качества внутренней проводки. А токи КЗ — согласен, надо оценивать с учётом входных линий до щитка. И если в многоквартирных домах ещё более-менее стабильная ситуация, то в частном секторе можно ожидать чего угодно. Типа, в трёхфазке днём одна фаза 200 вольт, а другая 240, и выравнивается только «тёплой летней ночью» (зимой народ греться любит электронагревателями) :)
Да, ваша правда. Я в том тесте оценивал качество внутренней проводки, сравнивал разные группы розеток, выведенные от разных автоматов щитка.

Возвращаясь к «трём утюгам» — а что мешает воспользоваться одним утюгом, построив на графике две точки: без нагрузки и с нагрузкой? Меньшая точность?
Спасибо, отличное интервью — и вопросы, и ответы.

Подвис вот только на этом:
Во многих элементах этого стека ML сейчас нужен, либо в state-of-the-art решениях не используется.

Как-то измерял сопротивление проводки одним чайником:
Включаем чайник и измеряем:
Us — напряжение на щитке
Uc — напряжение на чайнике
P — мощность, показываемая счётчиком (но грубо можно и номинальную мощность чайника взять, +- лапоть)

Дальше, как в школе учили:
I = P / Us
R петли = (Us — Uc) / I
В помощь практикующим:
1. Не все мультиметры одинаково полезны. Ток у нас крохотный, поэтому показания сильно зависят от внутренних схем прибора. К примеру, у меня один показывает 75 В переменного напряжения, а другой всего 0.1 В. В розетке оба показывают чётко порядка 220 В.
2. Не все поверхности одинаково металлические :)
С удивлением обнаружил это на одном из ноутов (ASUS) — с виду корпус металлический, тыльной стороной ладони эти 110 В ощущаются, но мультиметры ничего не показывают. В итоге с помощью режима омметра выяснилось, что сверху на корпусе тонкое диэлектрическое покрытие.
3. Эти конденсаторы присутствуют и в других импульсных блоках питания. Например, обычный зарядник телефона (там заземляющего контакта вообще нет) при измерении между батарей и внешним металлическим контактом кабеля USB показывает 20 В (вероятно, номиналы конденсаторов меньше, чем в ноутбучных БП).
Тоже такое замечал, что по большинству задач срабатывает принцип 20/80, когда 20% усилий даёт 80% результата.
За пару месяцев с момента поста ничего не поменялось — по-прежнему, у всех «ручки» :)

И ещё, что странно — ни один из переводчиков при генерации русского текста не смог правильно указать род для местоимения it: «Джон искал свою игрушечную коробку. В конце концов он нашел его.» (ну, Гугл отчасти выкрутился, заменив на угловатое «это»).
Впечатление, что уход в нейросетевые модели сломал старые добрые правила восстановления рода в анафорических ссылках.
Это примерно как сранивать сортировку пузырьком и квиксорт на массиве из двух-трёх элементов :)
1
23 ...

Information

Rating
Does not participate
Location
Россия
Registered
Activity