Эмм. Там же BPE токенизация, т.е. токены - это даже не слова а их части. И уникальных - там да, несколько десятков тысяч. Т.е. речь явно не о них.
В общем, руки дошли посмотреть оригинал - подозрения подтвердились, на стр. 26 написано дословно следующее: "Moreover, for more specific domains like code, there are many fewer tokens still, e.g. public github repos are estimated to be in low trillions of tokens."
Если рассматривать область программирования, то все публичные репозитории на Github оцениваются примерно в 1 миллион токенов.
Тут что-то не так. 1 миллион токенов (даже не Lines of Code) - это вполне по силам обычному много пишущему разработчику. Соответственно, исходя из примерного числа гитхаб-писателей, цифра должна быть на 6-7 OOM выше (т.е. триллионы токенов).
Небольшой комментарий - делать подбор гиперпараметров прямо по тест-сету - это "неспортивно", т.к. приводит к завышению реальных метрик модели. Обычно делают подбор на отдельном валидационном сете, и уже потом проверяют лидера на тест сете.
Когда владелец компании публично извиняется за что-то, да ещё с конкретикой, значит это "что-то" его реально выбесило.
В такой ситуации публичный ответ "this is wrong" - это предельно логичное действие только в одном случае - у тебя на руках оффер в другую компанию, и ты хочешь, чтобы тебя прямо сегодня уволили по инициативе работодателя :)
Для указанной задачки с определением простоты Numba должна быть плюс-минус сравнима по скорости с Cython. Вероятнее всего, дело в "непрогретости" (один из постов про это).
Вариант лечения: в декораторе после numba.njit уточнить в скобочках сигнатуру: (boolean(int_))
Топикстартеру:
не стоит обижаться, это специфика Я, причём вынужденная: вы просто представьте себя на месте HR, когда на одну позицию претендует человек с опытом и ожиданиями 200к+, и еще пяток неопытных но с горящими глазами студентов-олимпиадников из МГУ, МФТИ и тп, вообще без ожиданий по компенсациям. Да, с ними придётся повозиться на первых порах, но растут они очень быстро (видел своими глазами).
В общем, для состоявшегося специалиста идти в Я за деньгами смысла нет. А вот если материальные проблемы +- решены и хочется уникальных проектов с петабайтными данными — это идеальное место.
гарнитуры у нас хорошие, чувствительные, моя команда хорошо слышит, что говорит жена
Сейчас есть крутые гарнитуры, почти полностью убирающие этот эффект.
Пару недель назад тут пробегал пост (как обычно, с хорошими комментами) про один из неплохих вариантов, хотя и не дешёвых.
То есть, к примеру, если есть два фонда с условной историей для 4 дней:
фонд1: [100, 110, 150, 160]
фонд2: [500, 510, 515, 530]
то сначала вычисляются отношения цен между соседними днями:
фонд1: [1.10, 1.36, 1.07]
фонд2: [1.02, 1.01, 1.03]
и потом считается корреляция между ними?
Почему хочется уточнить этот момент — видел расчёты разными способами, и результаты могут принципиально отличаться. К примеру, для исходных массивов корреляция будет сильно-положительной, около +0.9, а для вторых массивов с отношениями — сильно-отрицательной, около -0.9. Т.е. даже знаки могут разные.
Да, в оценках с чайником целью была именно грубая проверка качества внутренней проводки. А токи КЗ — согласен, надо оценивать с учётом входных линий до щитка. И если в многоквартирных домах ещё более-менее стабильная ситуация, то в частном секторе можно ожидать чего угодно. Типа, в трёхфазке днём одна фаза 200 вольт, а другая 240, и выравнивается только «тёплой летней ночью» (зимой народ греться любит электронагревателями) :)
Как-то измерял сопротивление проводки одним чайником:
Включаем чайник и измеряем:
Us — напряжение на щитке
Uc — напряжение на чайнике
P — мощность, показываемая счётчиком (но грубо можно и номинальную мощность чайника взять, +- лапоть)
Дальше, как в школе учили:
I = P / Us
R петли = (Us — Uc) / I
В помощь практикующим:
1. Не все мультиметры одинаково полезны. Ток у нас крохотный, поэтому показания сильно зависят от внутренних схем прибора. К примеру, у меня один показывает 75 В переменного напряжения, а другой всего 0.1 В. В розетке оба показывают чётко порядка 220 В.
2. Не все поверхности одинаково металлические :)
С удивлением обнаружил это на одном из ноутов (ASUS) — с виду корпус металлический, тыльной стороной ладони эти 110 В ощущаются, но мультиметры ничего не показывают. В итоге с помощью режима омметра выяснилось, что сверху на корпусе тонкое диэлектрическое покрытие.
3. Эти конденсаторы присутствуют и в других импульсных блоках питания. Например, обычный зарядник телефона (там заземляющего контакта вообще нет) при измерении между батарей и внешним металлическим контактом кабеля USB показывает 20 В (вероятно, номиналы конденсаторов меньше, чем в ноутбучных БП).
За пару месяцев с момента поста ничего не поменялось — по-прежнему, у всех «ручки» :)
И ещё, что странно — ни один из переводчиков при генерации русского текста не смог правильно указать род для местоимения it: «Джон искал свою игрушечную коробку. В конце концов он нашел его.» (ну, Гугл отчасти выкрутился, заменив на угловатое «это»).
Впечатление, что уход в нейросетевые модели сломал старые добрые правила восстановления рода в анафорических ссылках.
Эмм. Там же BPE токенизация, т.е. токены - это даже не слова а их части. И уникальных - там да, несколько десятков тысяч. Т.е. речь явно не о них.
В общем, руки дошли посмотреть оригинал - подозрения подтвердились, на стр. 26 написано дословно следующее:
"Moreover, for more specific domains like code, there are many fewer tokens still, e.g. public github repos are estimated to be in low trillions of tokens."
Тут что-то не так. 1 миллион токенов (даже не Lines of Code) - это вполне по силам обычному много пишущему разработчику. Соответственно, исходя из примерного числа гитхаб-писателей, цифра должна быть на 6-7 OOM выше (т.е. триллионы токенов).
Всё так. Вот сам ChatGPT насчитал, что 1 кг пуха среднего качества на весах в Пятёрочке покажет примерно 880 грамм (8,624 Н / 9,8 = 0,88 кг).
Небольшой комментарий - делать подбор гиперпараметров прямо по тест-сету - это "неспортивно", т.к. приводит к завышению реальных метрик модели. Обычно делают подбор на отдельном валидационном сете, и уже потом проверяют лидера на тест сете.
Когда владелец компании публично извиняется за что-то, да ещё с конкретикой, значит это "что-то" его реально выбесило.
В такой ситуации публичный ответ "this is wrong" - это предельно логичное действие только в одном случае - у тебя на руках оффер в другую компанию, и ты хочешь, чтобы тебя прямо сегодня уволили по инициативе работодателя :)
Advanced Soft Skills, учимся у лучших! :)
Для указанной задачки с определением простоты Numba должна быть плюс-минус сравнима по скорости с Cython. Вероятнее всего, дело в "непрогретости" (один из постов про это).
Вариант лечения: в декораторе после
numba.njit
уточнить в скобочках сигнатуру:(boolean(int_))
Топикстартеру:
не стоит обижаться, это специфика Я, причём вынужденная: вы просто представьте себя на месте HR, когда на одну позицию претендует человек с опытом и ожиданиями 200к+, и еще пяток неопытных но с горящими глазами студентов-олимпиадников из МГУ, МФТИ и тп, вообще без ожиданий по компенсациям. Да, с ними придётся повозиться на первых порах, но растут они очень быстро (видел своими глазами).
В общем, для состоявшегося специалиста идти в Я за деньгами смысла нет. А вот если материальные проблемы +- решены и хочется уникальных проектов с петабайтными данными — это идеальное место.
Сейчас есть крутые гарнитуры, почти полностью убирающие этот эффект.
Пару недель назад тут пробегал пост (как обычно, с хорошими комментами) про один из неплохих вариантов, хотя и не дешёвых.
Стартап? :)
фонд1: [100, 110, 150, 160]
фонд2: [500, 510, 515, 530]
то сначала вычисляются отношения цен между соседними днями:
фонд1: [1.10, 1.36, 1.07]
фонд2: [1.02, 1.01, 1.03]
и потом считается корреляция между ними?
Почему хочется уточнить этот момент — видел расчёты разными способами, и результаты могут принципиально отличаться. К примеру, для исходных массивов корреляция будет сильно-положительной, около +0.9, а для вторых массивов с отношениями — сильно-отрицательной, около -0.9. Т.е. даже знаки могут разные.
А как именно вычислялась корреляция? По самим ценам или по их дневным разностям?
Возвращаясь к «трём утюгам» — а что мешает воспользоваться одним утюгом, построив на графике две точки: без нагрузки и с нагрузкой? Меньшая точность?
Подвис вот только на этом:
Включаем чайник и измеряем:
Us — напряжение на щитке
Uc — напряжение на чайнике
P — мощность, показываемая счётчиком (но грубо можно и номинальную мощность чайника взять, +- лапоть)
Дальше, как в школе учили:
I = P / Us
R петли = (Us — Uc) / I
1. Не все мультиметры одинаково полезны. Ток у нас крохотный, поэтому показания сильно зависят от внутренних схем прибора. К примеру, у меня один показывает 75 В переменного напряжения, а другой всего 0.1 В. В розетке оба показывают чётко порядка 220 В.
2. Не все поверхности одинаково металлические :)
С удивлением обнаружил это на одном из ноутов (ASUS) — с виду корпус металлический, тыльной стороной ладони эти 110 В ощущаются, но мультиметры ничего не показывают. В итоге с помощью режима омметра выяснилось, что сверху на корпусе тонкое диэлектрическое покрытие.
3. Эти конденсаторы присутствуют и в других импульсных блоках питания. Например, обычный зарядник телефона (там заземляющего контакта вообще нет) при измерении между батарей и внешним металлическим контактом кабеля USB показывает 20 В (вероятно, номиналы конденсаторов меньше, чем в ноутбучных БП).
И ещё, что странно — ни один из переводчиков при генерации русского текста не смог правильно указать род для местоимения it: «Джон искал свою игрушечную коробку. В конце концов он нашел его.» (ну, Гугл отчасти выкрутился, заменив на угловатое «это»).
Впечатление, что уход в нейросетевые модели сломал старые добрые правила восстановления рода в анафорических ссылках.