Про американских инженеров хорошо раскрыта тема в книге Галушка А. С., Ниязметов А. К., Окулов М. О. Кристалл роста к русскому экономическому чуду. Глава 4. ТЕХНОЛОГИИ.
Про строительство самолётов – Адлер Е. Г. Земля и Небо. Записки авиаконструктора. И Черток Б.Е. Ракеты и люди. Первый том.
Американские инженеры хоть и принимали участие в развитии промышленности, но не на них она держалась.
В ваших краях я прожил в 16-17 годах в общей сложности полгода. У нас был маленький офис во Фримонте. При первом визите я жил там же рядом во Фримонте. Потом в Сан-Хосе. Что запомнилось - в интервале с начала 16-го до конца 17-го, Сан-Хосе очень активно застраивался. У меня на глазах выросло несколько зданий на пустырях. Возможно, что с Восточным Пало-Альто что-то подобное и произошло. Вопрос только - куда делись прежние жители?.... Из криминальных мест, помнится, меня предупреждали не заходить в Ричмонд, который сверху справа от залива.
По Сан-Франциско у меня очень смешанные воспоминания. Когда-то пользовался станциями BART – Civic Center, Powell. Лежащие тела. Запах как в туалете. А отходишь от выхода со станции, сверкающие здания, где проходят дорогие мероприятия...
Однажды довелось участвовать в многодневной конференции. Проходила она где-то в районе Pacific Heights, если память не изменяет. Надо было приезжать к 9-ти утра. И заканчивалась она примерно в 5 вечера. По-моему, как раз, через Civic Center я и добирался из Сан-Хосе. Тогда ветку BART дотянули ещё только до Фримонта. Примерно в 8 утра проходил по относительно пустым улицам мимо помпезных зданий, включая San Francisco City Hall. Где-то, местами, скученно спали бездомные. А вот когда возращался после 5-ти к той же станции, то ближе к центру, все улицы были забиты весьма странными людьми, мимо которых проходить, мягко говоря, некомфортно. Знакомые мне сказали, что "подумаешь, они же не избивают прохожих". Но идти мимо людей, которые кричат в пустоту, плюются в направлении прохожих и размахивают руками, что-то на повышенных тонах выясняют друг с другом – это всё не выглядит безопасно.
Как-то раз мимо меня проехала толпа на мотоциклах. С рёвом двигателей и гиканьем. Лица у всех были закрыты. Проехали так, что заняли чуть ли не всю ширину дороги...
Несколько раз специально выезжал пофотографировать разные места Сан-Франциско. В 17-м году. Шел я в Golden Gate Park. По-моему, входил под Alvord Lake Bridge. Меня окрикивают и предлагают "мариванну"... Я сначала не понял, поскольку жаргоном не владел и переспросил. Мне достали пакет и показали...
Ещё, как-то раз, решил пройтись от Oakland Bay Bridge вдоль пирсов. И, уже не помню точно где, но где-то в районе Ferry Building. Увидел толпу буквально голых мужиков, которые ходили среди людей, сидящих на скамейках. Причём явно демонстрируя то, что у них есть. Я аккуратно прошел дальше вдоль пирсов. Где-то дальше по пути, они проехали мимо в том же виде кто на велосипеде, кто на самокате. Как объяснили мне местные, для Сан-Франциско это нормально. Либеральные законы разрешают любое самовыражение, если это не физическое воздействие на других.... Но для меня это дикость.
С тех пор я в Bay Area не был. Не очень представляю как всё выглядит.
Однозначно выделяют гранты. Скрыть их нельзя, поскольку в отчётных публикациях по гранту, они должны быть явно указаны. Формы, где надо было отвечать получал ли государственные гранты за последние 5 лет, мне встречались.
По поводу зарплаты – вопрос в серой зоне. Существенное количество образовательных и исследовательских институтов России внесены в список санкций. МГУ, МГТУ им. Баумана, МФТИ, институты РАН - точно там присутствуют. Поэтому сама работа в организации под санкциями может интерпретироваться как угодно.
Точно нельзя для человека с американским налоговым резиденством получать любое вознаграждение из организаций под санкциями. Будут проблемы уже на следующий год после заполнения налоговых документов по зарубежным доходам. То есть, никакого совместительства и никакой дистанционной работы. До 22-го года российские банки отправляли отчёты в США об их налоговых резидентах. Сейчас – не знаю.
С 22-го года могло и измениться у них что-нибудь. Но сейчас мне это просто не интересно. А тогда, paypal просто не позволял изменить страну нахождения и отправлял по всем вопросам в закрытый в России офис. Без какой-либо возможности написать куда-то ещё. Про eBay просто не помню. По-моему, тоже не позволял изменить страну при попытке добавить местный адрес.
Этот Ванкувер знаменит тем, что в нём садился Чкалов при перелёте из СССР в США через северный полюс. Рядом с до сих пор существующим аэродромом стоит стелла. А в местном музее почти вся стена посвящена этому событию.
У меня нет никакой возможности узнать о причинах её применения в отношении меня. Но по имеющейся у меня информации: проводит её именно АНБ, и если раз попал на проверку, то пожизненно при каждом получении её будут проводить, а визу выдавать на минимальный срок.
Моя ИТ-молодость прошла в то время, когда соц. сетей не было никаких. А мнение про размещение информации в Интернете было - никакой правды о себе. И вообще, лучше никаких следов не оставлять. Потом я много лет работал доцентом. И тоже, очень аккуратно надо было следить за тем, что и где сказал. Поэтому проще было не иметь соц. сетей, а ограничиться чисто профессиональной темой.
Нет, это статистика. И, напоминаю, курс доллара до августа 2008-го был 23 руб. А вот в 15-м году я никаких перспектив уже не видел. И начал выстраивать международные контакты. Один из которых и привёл к тому, что описано в статье.
Обращаю внимание, что статья помечена как "мнение", а не как аналитический обзор или что-то ещё документальное.
Не стоит цепляться за слова. Для меня смысл жизни определяется как научно-технический прогресс и развитие общества. Общество должно меняться. А вот как именно меняться и что есть "к лучшему" – это отдельный вопрос. Тем не менее, там, где я "свой", я могу обсуждать то, что считаю лучшим для себя и потомков. Там где я "чужой", очевидно, не только навязывать своё мнение не могу. Но и не факт, что и высказываться то смогу - просто должен принимать то, что этим чужим обществом считается нормой.
Как у нас, так и у них всё зависит от конкретного учебного заведения. И даже от конкретных факультетов и преподавателей. Впрочем, у нас определённая стандартизация есть, а у них - нет.
В части готовности к работе - ну реально как повезёт. Однако именно в США я услышал фразу от одного фотографа-американца на выставке "зато я не тратил время на учёбу". Он реально хвастался тем, что вместо образования пошел зарабатывать коммерческой съемкой (портретов в том конкретном случае), и ничего другого не умеет.
В любой стране и в любом обществе можно найти и плюсы, и минусы. Если смотреть чисто на уровень благосостояния, то в России рост был до лета 2008-го. Потом девальвация, в 14-м опять девальвация. Про "сменился на развитие и созидание" я не писал. И более того, написал что именно мне не нравится.
В целом, я очень долго думал, стоит вообще публиковать своё не самое популярное мнение. Но, всё же, решился. Хотя и максимально сгладил все острые углы. Тема эммиграции - она не про факты. Она про эмоции. Я неоднократно сталкивался с теми, кого реально в дрожь бросает, когда говоришь хоть что-то, чем Россия лучше, даже если факты и цифры на руках. Тем не менее, постарался более-менее объективно изложить свой опыт.
Ну и самое главное. У меня не было никакого морального права "строить новое общество" в США. А вот в России оно есть. Смогу ли я повлиять на наше будущее и сделать его лучше - это отдельный вопрос. Но моральное право на это есть.
pgvector упомянули, но как-то не развили. А тренд сейчас такой, что любая традиционная СУБД скоро будет иметь векторный индекс с приближенным поиском. Именно для того, чтобы команде разработчиков не надо было изучать новые сторонние инструменты. Собственно, PostgreSQL, Clickhouse, MariaDB, Cassandra уже их имеют. И во всех случаях - доступ к ним через язык SQL. В некоторых случаях, типа Snowflake Cortex, есть даже доступ к языковым моделям прямо через SQL.
В OpenSearch и ElasticSearch используются различные реализации векторного индекса и разные схемы ранжирования при гибридном поиске. Год назад у ElasticSearch было ограничение на размер векторов не более 1500. Сейчас, вроде, уже 4096. То есть, Amazon была проворнее в разработке.
Если размещать приложения на AWS, то OpenSearch однозначно. В остальных случаях есть о чём думать.
При этом россиянам с О1 получить гринкарту очень просто.
Не стоит обобщать. О1 никак не связана с greencard (GC). Получение GC времяёмкий процесс. Закладывать на него надо не меньше года. А, если компания не будет это оплачивать, то цена вопроса - 15-20 тыс. Из них больше 10-ти тыс. оплаты работы миграционного юриста без каких-либо гарантий вообще. Для особо желающих, можно прямо из дома подать на визу EB1 без O1 вообще и без посещения США.
Ещё надо отметить, что не стоит соглашаться на переезд по О1 если нет семьи. Первые год-два, пока загружен работой, одиночество особо не замечаешь (некогда думать об этом), но потом начинаешь осознавать, что друзья/знакомые так и не появились, а все, кто дорог - очень далеко. А за это время, контакты уже начали теряться. Местные русскоговорящие, часто, очень странные люди, чтобы с ними близко знакомиться. В то же время, пока нет GC, положение весьма зыбкое. При увольнении, находясь на O1, обязан покинуть США тут же.
Векторный приближенный поиск - это совершенно отдельное направление поиска данных. Чаще всего его используют как замену полнотекстового поиска. Или как рекомендацию похожего (например товаров). Но приближенный поиск абсолютно не годится для замены формальных фильтров по значению.
Например, если задача - фильтровать по фамилии - то СУБД с реляционной моделью будет идеальным решением. А вот если мы храним резюме и надо обеспечить поиск по навыкам - ситуация иная. Допустим имеем три резюме. У одного запись "программирую на Java, знаю Spring Framework". У второго "Использую в работе NodeJS, React, Anglular". У третьего - "разрабатываю приложения для браузера". А запрос получили "веб-разработка". Эмбединг этого запроса на основании статистического контекста модели типа GPT3.5, скорее всего, вытащит близкие вектора второго и третьего резюме. При этом, для обычного полнотекстового поиска, в этих фразах нет общих ключевых слов. Ну и общий подход при подобном поиске, что если мы потеряли какие-то конкретные записи - это не проблема в общей массе.
Векторые СУБД следует отделять от моделей эмбедингов. Как и то, является ли векторная БД точной или приближенной. Например, pgvector реализует два типа векторных индексов - точный, но медленный VFFlat и приближенный, но очень быстрый HNSW. При этом, в момент создания индекса мы сами можем решить на сколько HNSW-индекс должен быть точным и на сколько быстрым. Для этого у него есть параметры m и ef_construction (определяют топологию).
Касаемо цифр по точности, есть бенчмарки именно по векторным инструментам - https://ann-benchmarks.com/index.html . По точности см. Recall. Чем выше требуется recall, тем, соответственно, медленнее будет приближенный векторный поиск. В части же чистой производительности, см. другие бенчмарки.
Ну а по точности моделей текстовых эмбедингов - это совершенно отдельный разговор, который к СУБД отношения не имеет. Например https://huggingface.co/blog/mteb . Однако общий результат, действительно, складывается из качества эмбедингов и контекста + качество приближенного векторного поиска.
Это вопрос к модели, которая вычисляет векторы-эмбединги. Векторному поиску всё равно к чему близость считать. Но в целом, эмбединги сильно зависят от контекста. На коротком контексте могут быть ошибки. Одно слово "кошкин" даст совершенно непредсказуемый вектор. А вот фраза "фамилия: Кошкин" - здесь уже любая современная модель даст вполне сносный результат и точно к животным это близко не будет.
Про американских инженеров хорошо раскрыта тема в книге Галушка А. С., Ниязметов А. К., Окулов М. О. Кристалл роста к русскому экономическому чуду. Глава 4. ТЕХНОЛОГИИ.
Про строительство самолётов – Адлер Е. Г. Земля и Небо. Записки авиаконструктора. И Черток Б.Е. Ракеты и люди. Первый том.
Американские инженеры хоть и принимали участие в развитии промышленности, но не на них она держалась.
Спасибо за уточнение. Поправил в тексте.
В ваших краях я прожил в 16-17 годах в общей сложности полгода. У нас был маленький офис во Фримонте. При первом визите я жил там же рядом во Фримонте. Потом в Сан-Хосе. Что запомнилось - в интервале с начала 16-го до конца 17-го, Сан-Хосе очень активно застраивался. У меня на глазах выросло несколько зданий на пустырях. Возможно, что с Восточным Пало-Альто что-то подобное и произошло. Вопрос только - куда делись прежние жители?.... Из криминальных мест, помнится, меня предупреждали не заходить в Ричмонд, который сверху справа от залива.
По Сан-Франциско у меня очень смешанные воспоминания. Когда-то пользовался станциями BART – Civic Center, Powell. Лежащие тела. Запах как в туалете. А отходишь от выхода со станции, сверкающие здания, где проходят дорогие мероприятия...
Однажды довелось участвовать в многодневной конференции. Проходила она где-то в районе Pacific Heights, если память не изменяет. Надо было приезжать к 9-ти утра. И заканчивалась она примерно в 5 вечера. По-моему, как раз, через Civic Center я и добирался из Сан-Хосе. Тогда ветку BART дотянули ещё только до Фримонта. Примерно в 8 утра проходил по относительно пустым улицам мимо помпезных зданий, включая San Francisco City Hall. Где-то, местами, скученно спали бездомные. А вот когда возращался после 5-ти к той же станции, то ближе к центру, все улицы были забиты весьма странными людьми, мимо которых проходить, мягко говоря, некомфортно. Знакомые мне сказали, что "подумаешь, они же не избивают прохожих". Но идти мимо людей, которые кричат в пустоту, плюются в направлении прохожих и размахивают руками, что-то на повышенных тонах выясняют друг с другом – это всё не выглядит безопасно.
Как-то раз мимо меня проехала толпа на мотоциклах. С рёвом двигателей и гиканьем. Лица у всех были закрыты. Проехали так, что заняли чуть ли не всю ширину дороги...
Несколько раз специально выезжал пофотографировать разные места Сан-Франциско. В 17-м году. Шел я в Golden Gate Park. По-моему, входил под Alvord Lake Bridge. Меня окрикивают и предлагают "мариванну"... Я сначала не понял, поскольку жаргоном не владел и переспросил. Мне достали пакет и показали...
Ещё, как-то раз, решил пройтись от Oakland Bay Bridge вдоль пирсов. И, уже не помню точно где, но где-то в районе Ferry Building. Увидел толпу буквально голых мужиков, которые ходили среди людей, сидящих на скамейках. Причём явно демонстрируя то, что у них есть. Я аккуратно прошел дальше вдоль пирсов. Где-то дальше по пути, они проехали мимо в том же виде кто на велосипеде, кто на самокате. Как объяснили мне местные, для Сан-Франциско это нормально. Либеральные законы разрешают любое самовыражение, если это не физическое воздействие на других.... Но для меня это дикость.
С тех пор я в Bay Area не был. Не очень представляю как всё выглядит.
Однозначно выделяют гранты. Скрыть их нельзя, поскольку в отчётных публикациях по гранту, они должны быть явно указаны. Формы, где надо было отвечать получал ли государственные гранты за последние 5 лет, мне встречались.
По поводу зарплаты – вопрос в серой зоне. Существенное количество образовательных и исследовательских институтов России внесены в список санкций. МГУ, МГТУ им. Баумана, МФТИ, институты РАН - точно там присутствуют. Поэтому сама работа в организации под санкциями может интерпретироваться как угодно.
Точно нельзя для человека с американским налоговым резиденством получать любое вознаграждение из организаций под санкциями. Будут проблемы уже на следующий год после заполнения налоговых документов по зарубежным доходам. То есть, никакого совместительства и никакой дистанционной работы. До 22-го года российские банки отправляли отчёты в США об их налоговых резидентах. Сейчас – не знаю.
С 22-го года могло и измениться у них что-нибудь. Но сейчас мне это просто не интересно. А тогда, paypal просто не позволял изменить страну нахождения и отправлял по всем вопросам в закрытый в России офис. Без какой-либо возможности написать куда-то ещё. Про eBay просто не помню. По-моему, тоже не позволял изменить страну при попытке добавить местный адрес.
Нет, никогда с ними не работал.
Этот Ванкувер знаменит тем, что в нём садился Чкалов при перелёте из СССР в США через северный полюс. Рядом с до сих пор существующим аэродромом стоит стелла. А в местном музее почти вся стена посвящена этому событию.
https://ru.wikipedia.org/wiki/Беспосадочный_перелёт_Москва_—_Северный_полюс_—_Ванкувер
У меня нет никакой возможности узнать о причинах её применения в отношении меня. Но по имеющейся у меня информации: проводит её именно АНБ, и если раз попал на проверку, то пожизненно при каждом получении её будут проводить, а визу выдавать на минимальный срок.
Именно она
Моя ИТ-молодость прошла в то время, когда соц. сетей не было никаких. А мнение про размещение информации в Интернете было - никакой правды о себе. И вообще, лучше никаких следов не оставлять. Потом я много лет работал доцентом. И тоже, очень аккуратно надо было следить за тем, что и где сказал. Поэтому проще было не иметь соц. сетей, а ограничиться чисто профессиональной темой.
Нет, это статистика. И, напоминаю, курс доллара до августа 2008-го был 23 руб. А вот в 15-м году я никаких перспектив уже не видел. И начал выстраивать международные контакты. Один из которых и привёл к тому, что описано в статье.
Обращаю внимание, что статья помечена как "мнение", а не как аналитический обзор или что-то ещё документальное.
Не стоит цепляться за слова. Для меня смысл жизни определяется как научно-технический прогресс и развитие общества. Общество должно меняться. А вот как именно меняться и что есть "к лучшему" – это отдельный вопрос. Тем не менее, там, где я "свой", я могу обсуждать то, что считаю лучшим для себя и потомков. Там где я "чужой", очевидно, не только навязывать своё мнение не могу. Но и не факт, что и высказываться то смогу - просто должен принимать то, что этим чужим обществом считается нормой.
Как у нас, так и у них всё зависит от конкретного учебного заведения. И даже от конкретных факультетов и преподавателей. Впрочем, у нас определённая стандартизация есть, а у них - нет.
В части готовности к работе - ну реально как повезёт. Однако именно в США я услышал фразу от одного фотографа-американца на выставке "зато я не тратил время на учёбу". Он реально хвастался тем, что вместо образования пошел зарабатывать коммерческой съемкой (портретов в том конкретном случае), и ничего другого не умеет.
В любой стране и в любом обществе можно найти и плюсы, и минусы. Если смотреть чисто на уровень благосостояния, то в России рост был до лета 2008-го. Потом девальвация, в 14-м опять девальвация. Про "сменился на развитие и созидание" я не писал. И более того, написал что именно мне не нравится.
В целом, я очень долго думал, стоит вообще публиковать своё не самое популярное мнение. Но, всё же, решился. Хотя и максимально сгладил все острые углы. Тема эммиграции - она не про факты. Она про эмоции. Я неоднократно сталкивался с теми, кого реально в дрожь бросает, когда говоришь хоть что-то, чем Россия лучше, даже если факты и цифры на руках. Тем не менее, постарался более-менее объективно изложить свой опыт.
Ну и самое главное. У меня не было никакого морального права "строить новое общество" в США. А вот в России оно есть. Смогу ли я повлиять на наше будущее и сделать его лучше - это отдельный вопрос. Но моральное право на это есть.
pgvector упомянули, но как-то не развили. А тренд сейчас такой, что любая традиционная СУБД скоро будет иметь векторный индекс с приближенным поиском. Именно для того, чтобы команде разработчиков не надо было изучать новые сторонние инструменты. Собственно, PostgreSQL, Clickhouse, MariaDB, Cassandra уже их имеют. И во всех случаях - доступ к ним через язык SQL. В некоторых случаях, типа Snowflake Cortex, есть даже доступ к языковым моделям прямо через SQL.
+ https://superlinked.com/vector-db-comparison/
В OpenSearch и ElasticSearch используются различные реализации векторного индекса и разные схемы ранжирования при гибридном поиске. Год назад у ElasticSearch было ограничение на размер векторов не более 1500. Сейчас, вроде, уже 4096. То есть, Amazon была проворнее в разработке.
Если размещать приложения на AWS, то OpenSearch однозначно. В остальных случаях есть о чём думать.
Не стоит обобщать. О1 никак не связана с greencard (GC). Получение GC времяёмкий процесс. Закладывать на него надо не меньше года. А, если компания не будет это оплачивать, то цена вопроса - 15-20 тыс. Из них больше 10-ти тыс. оплаты работы миграционного юриста без каких-либо гарантий вообще. Для особо желающих, можно прямо из дома подать на визу EB1 без O1 вообще и без посещения США.
Ещё надо отметить, что не стоит соглашаться на переезд по О1 если нет семьи. Первые год-два, пока загружен работой, одиночество особо не замечаешь (некогда думать об этом), но потом начинаешь осознавать, что друзья/знакомые так и не появились, а все, кто дорог - очень далеко. А за это время, контакты уже начали теряться. Местные русскоговорящие, часто, очень странные люди, чтобы с ними близко знакомиться. В то же время, пока нет GC, положение весьма зыбкое. При увольнении, находясь на O1, обязан покинуть США тут же.
Векторный приближенный поиск - это совершенно отдельное направление поиска данных. Чаще всего его используют как замену полнотекстового поиска. Или как рекомендацию похожего (например товаров). Но приближенный поиск абсолютно не годится для замены формальных фильтров по значению.
Например, если задача - фильтровать по фамилии - то СУБД с реляционной моделью будет идеальным решением. А вот если мы храним резюме и надо обеспечить поиск по навыкам - ситуация иная. Допустим имеем три резюме. У одного запись "программирую на Java, знаю Spring Framework". У второго "Использую в работе NodeJS, React, Anglular". У третьего - "разрабатываю приложения для браузера". А запрос получили "веб-разработка". Эмбединг этого запроса на основании статистического контекста модели типа GPT3.5, скорее всего, вытащит близкие вектора второго и третьего резюме. При этом, для обычного полнотекстового поиска, в этих фразах нет общих ключевых слов. Ну и общий подход при подобном поиске, что если мы потеряли какие-то конкретные записи - это не проблема в общей массе.
Векторые СУБД следует отделять от моделей эмбедингов. Как и то, является ли векторная БД точной или приближенной. Например, pgvector реализует два типа векторных индексов - точный, но медленный VFFlat и приближенный, но очень быстрый HNSW. При этом, в момент создания индекса мы сами можем решить на сколько HNSW-индекс должен быть точным и на сколько быстрым. Для этого у него есть параметры m и ef_construction (определяют топологию).
Касаемо цифр по точности, есть бенчмарки именно по векторным инструментам - https://ann-benchmarks.com/index.html . По точности см. Recall. Чем выше требуется recall, тем, соответственно, медленнее будет приближенный векторный поиск. В части же чистой производительности, см. другие бенчмарки.
Ну а по точности моделей текстовых эмбедингов - это совершенно отдельный разговор, который к СУБД отношения не имеет. Например https://huggingface.co/blog/mteb . Однако общий результат, действительно, складывается из качества эмбедингов и контекста + качество приближенного векторного поиска.
Это вопрос к модели, которая вычисляет векторы-эмбединги. Векторному поиску всё равно к чему близость считать. Но в целом, эмбединги сильно зависят от контекста. На коротком контексте могут быть ошибки. Одно слово "кошкин" даст совершенно непредсказуемый вектор. А вот фраза "фамилия: Кошкин" - здесь уже любая современная модель даст вполне сносный результат и точно к животным это близко не будет.
https://tembo.io/blog/vector-indexes-in-pgvector
https://github.com/pgvector/pgvector?tab=readme-ov-file#hnsw