Комментарии / Профиль KelThuzed / Хабр

Пользователь

Подписчики

Почему Россия тратит на науку как Китай, а результат хуже Бразилии?

Каждый раз, когда кто-то начинает очень уверенно апеллировать к каким-то индексам, у меня всегда возникает множество вопросов, а этот кто-то вообще читал, что это за индекс, как он считается, какие данные использует, где он применим и что вообще оценивает?

Давайте просто посмотрим на GII. Там 78 индикаторов. Из них 63 data, 10 композитных и 5 экспертных индикаторов. То есть почти 20% этого индекса это уже другие индексы, композитные конструкции и опросники. Это буквально метаиндекс, индекс на индексах. Делать индекс на чужих индексах занятие интересное, но не всегда осмысленное и интерпретируемое.

Но статья то вроде бы про науку, но проблема в том, что наука в GII занимает очень небольшое место. Явно научный блок Human capital and research дает примерно 10% итоговой оценки. То есть перед нами не индекс науки, а очень широкий индекс чего-то гораздо более общего. Но ладно наука, но он же все равно там наверное что-то важное и полезное как-то круто измеряет. Да? Ведь да?
Даже если на секунду забыть, что это не индекс науки, внутри него все равно очень много мутного, оценочного и регионально/культурно чувствительного. Там сидят вещи типа Operational stability for businesses, Government effectiveness, Regulatory quality, Rule of law, Policy stability for doing business, Entrepreneurship policies and culture. То есть насколько страна выглядит удобной и предсказуемой для бизнеса и инвестора, а методология расчета любого из этих показателей это отдельная тема для дискуссии. Там же дальше огромный кусок про кредиты, инвестиции, венчур, капитализацию, масштаб рынка, тарифы, торговлю, инфраструктуру, цифровой доступ.
Причем там не просто “широкий взгляд на инновации”, а реально много очень спорных по смыслу индикаторов. Например, Government online service это композитный показатель про цифровые госуслуги. Logistics performance это опросник. ICT access/use это композиты про мобильные телефоны, интернет и покрытие сетями. Global brand value и Intangible asset intensity завязаны на оценочные рыночные методологии под определенный тип экономики. GitHub commits и mobile app downloads тоже входят в индекс. Еще например количество фильмов, и энтертеймент. Вопрос не в том, плохие это показатели или хорошие. Вопрос в другом: что именно они измеряют и какое отношение это имеет к статье про науку?
Различные Low-carbon energy use и ISO 14001 environment также о науке ничего не говорят и окрашены зеленой повесткой. Доля женщин занятых тоже оставляет вопросы, причем тут наука вообще.

Даже внутри того небольшого блока, который формально ближе к науке, тоже полно спорного. University–industry R&D collaboration это снова опросник. Public research–industry co-publications зависят от публикационной культуры и от того, как именно в стране оформляется сотрудничество науки и индустрии. QS и THE плохо применимы к системам, где исследования во многом сосредоточены не в университетах, а в НИИ. Доля иностранных студентов тоже очень чувствительна к языку, визовому режиму, международной мобильности и общей внешней открытости, а не только к качеству науки.
А как насчет Global corporate R&D investors, top 3. Его считают как средние расходы на R&D у трех крупнейших глобальных компаний страны. Если это банк, то получается оцениваем R&D банка ? А если это например Луи Витон, то получается в сфере моды...? Если таких компаний две, берут среднее по двум, если одна, одну. Это показатель есть ли в экономика большая компания которая говорит, что делает много R&D.
Еще из интересного объем кредитования в микрофинансовых организациях, и кредитования частных лиц. Часто у нас люди берут в МФО деньги на реализацию своих научных изысканий или их трудов?
Это индекс, в котором намешаны институциональная предсказуемость, зрелость рынка, финансовая инфраструктура, цифровизация, коммерциализация, торговля, энтертеймент, оценки брендов, репутационные рейтинги, опросники и композиты и все что только можно. Но уж точно не индекс науки, этот индекс скорее показывает, насколько страна встроена в формализованную, глобальную модель западной инновационной экономики. Такой инструмент скорее всего можно использовать для сравнения Франции и Германии, но уж точно не для сравнения Бразилии с РФ.

Если резюмировать, нет этот индекс не про науку, и нет он не супер классный, и нет его нельзя корректно применять на весь мир без множества допущений и понимания что он и как вообще измеряет.

Как построить прогноз, которому верит бизнес: от Excel до нейросетей за полгода

KelThuzed 25 мар в 15:52

Да тут джуна бы кто-нибудь хотя бы дал, что бы в одиночку несколько таких проектов не вести параллельно, ждите следующую статью, будем пытаться заработать Большом Директору лишний миллиард через байесовские регрессии, что бы ему хватило денег дать мне джуна и премию...

AGI математически невозможен, но хайп уже не остановить

KelThuzed 30 июл 2025 в 11:19

Не на том уровне абстракции смотрите, человек точно также на вход получает какие-то иксы и выдает какие-то игреки, иксы ребенок получается с 0 лет и еще даже до своего рождения и кусок этих иксов идет не из внешней среды а из генетики и т.д.. То что иишка ничего сама по себе не делает это не архитектурная проблема, это лишь то что у нее на входе нет иксов, ей еще не дали их , а мы пользуемся иксами которые были вчера , позавчера , год назад , 10 лет назад , и иксами которые были до нашего рождения. Мы их бесконечно обрабатываем крутим и снова в себя же и подаем и бесконечно получаем новые иксы. А иишка в ваккуме сидит пока вы ей не дадите хотя бы что-то на вход, а у вас они есть , даже если вас посадить в ваккум в 0 лет вы все равно будете что-то испытывать, потому что базово в вас что-то генетика заложила и у вас уже будут какие-то иксы . Ну а про букварь что вы быстрее учитесь, так у вас и мозгов больше чем у самых крутых суперкомпьютеров и вы буквально заточены под то что бы быстро обучаться. Идейно я лично не вижу особо большой разницы, как будто если текущей гптшке дать х1000 мощности для обучения что бы GPT 5 условный имел не пару триллионов параметров , а пару тысяч триллионов параметров + сами нейроны были бы не с простыми функциями, а более докрученные как и у человека, и контекстное окно что бы ну миллиардами или может триллионами токенов измерялось, а не миллионом, то вполне себе что-то такое не отличимое от человека мы бы и получили, проблема скорее количественная чем качественная, осталась бы проблема первого запроса первого икса после обучения но это вовсе не настолько критично как вам кажется, запросно ответная система вам не нужна потому что вы и так получаете иксы и запросы , то что вы видите слышите чувствуете холод голод жару, то что вы думали вчера это и есть ваши "запросы" один кусок мозга у другого что-то запрашивает бесконечно , а иишка сидит в ваккуме

Программисты ничего не знают (и это нормально)

KelThuzed 9 дек 2024 в 04:41

Насчет ресерчей совсем не согласен, буквально вот занимаюсь исследованием CJM юзеров через эмбендинги последовательностей поисковых запросов, и такой ресерч может занять от двух дней до года, два дня если первая выбранная методология дала какие-то результаты прям сразу сходу на микро данных (мы не знаем какие результаты вообще хотим получить и возможно ли их в целом получить, на момент начала мы даже не знали что исследуем CJM юзеров, это просто была идея а вдруг там что-то есть) и год если ты пробуешь первую, результатов нет, придумываешь/ищешь другую, результатов нет, потом еще 10 , потом комбинируешь их между собой, пробуешь на других данных (а вдруг дело в том что надо подать не 3 миллиона строк а 300 и тогда все сложиться), или вдруг надо запариться и лучше обработать исходные данные и тогда будут результаты, или прикрутить туда еще последовательности категории товаров, а может обучить на поисковых запросах, зафиксировать пространство и как-то выкинуть туда категории, а потом уже накидывать кластеризацию а результатов все еще может не быть. Получается пространство огромной размерности условно 200 гипотез как разные комбинации параметров ресерча, и сработать может первая, а может двухсотая, при том чем дальше нет результатов тем больше ты параметров добавляешь и тем больше расширяется пространство гипотез