какие scores, что уходит в prompt и когда backend вообще должен отказаться от генерации.
Для production RAG на мой взгляд обязательны request_id, sources, debug endpoint, negative tests, метрики retrieval/generation и набор контрольных вопросов
Вот это очень интересные вопросы с удоволствием бы почитал ответы. Какие скоры, какие метрики на проде для retrieval/generation и как связаны контрольные вопросы и прод
RAG всё равно нужно отдельно проверять: тестовые вопросы, качество найденного контекста, precision/recall хотя бы на базовом уровне.
Вот это вот все есть в джупитере у ДСа а вот в проде есть только None precision/recall - это классические оффлановые метрики, их так просто не посчитаешь на проде, значит нужно собирать какие то прокси метрики, но какие именно и в каких частях системы, до ретривера после ретривера, до генерации или после, как это все интерпретировать и т.д и т.п. Вот и получается что у ДСа нет понимания как работает сервис целиком, а у бэкендера нет компетенций по АИшной/МЛной части. Так и живем
согласен что не во всех проектах важны всякие NDCG и понимать чем векторный поиск отличается от bm25, или как именно работает реранкер на би энкодере. Но если бэкендер с трудом отличает прессижн от реклла то в проекте не обойтись без МЛ инженера. Плюс есть отличия между систем дизайном и мл систем дизайном если есть арихитектор который шарит или МЛщик который не только шарит но и может донести свою мысль тогда ок, в противном случае будет вот это вот что сейчас на проектах Сбера откуда выгали "дорогих" синьоров под предлогом оптимизации и оставили мидлов и тру бэкендеров в итоге RAG для бизнеса отвечает либо None либо совсем не то что спрашивали. Тру стори
спасибо за развернутый ответ, да сложно не согласится с приведенной аргументацией. Видел с десяток уже проектов где ллм приложения не работают из за того что есть юпитерноутбук от датасанстистов и есть тру бэкендероры но чего то нехватает) Получается что нужен еще МЛ инженер в команду что бы это все заработало по идее он должен знать про ассинхроность и многопоточность но не обязательно. Его задлача взять юпитер ноутбук и переписать в его в приложение с обработкой эксепшенов с логгированием, причем логирование в таких проектах специфическое не только в плане МЛ метрик, но и специфические инструменты например MLflow, langfuse а не привычные прометеусы с графанами
Во первых спасибо что поделился своим взглядом на разработку ЛЛМ приложений, достаточно познавательно. Особенно в свете последних событий когда есть дата сотонист готорый написал 1200 строк кода на пистоне в джупитере и есть тру бэкендер на джаве/си шарпе, но как итог в проде RAG на половину запросов отвечает None а на вторую не то что его спрашивали. Как быть в такойм случае?
Если почитать книгу то становится ясно почему сделанно именно так Алгоритм реализуется при помощи структур данных и максимально эффективно по памяти и вычислениям
Спасибо, очень понравился подход. не хватает информации по постановке задач и оценки сложности и сроков, что бы избежать микроменеджмента с одной строны и не срывать сроки с другой.
Но глобально моя боль в другом, что делать если сознательно устраивают встречи ради встреч, без повестки и артифактов, если задачи ставятся не через трекер и без оценки и т.д и т.п.
Нет, это не так. В индустрии есть четкое разделение между датасантистами и МЛ инженерами. И инструменты которые я перечислил являются обязательными для того что бы называть себя МЛ инженером.
А еще есть MLOps инженер.
Датасантист это специалист который шарит за модели, тервер матстат линал и прочее, делает MVP в юпитерноутбуке и как бэ все. Мл инж пишет product ready code переписывая юпитер в МЛ сервис. В этом легко убедится, пишешь в поисковике ml engineer vs data scientist
Вот у нас набрали народу по ки пи ай, расчет был с потолка но были кипиай и бюджет и премия по результатам.
Теперь эти же люди покрасили свою эксельку в другой цвет и решили сокращать и опять кипиай бюджет и премия Сервисов правда в проде нет но это и не надо, есть раскрашенные эксельки
В смысле? Сказали же плохие, а почему? а потому что так чувствуют У меня сейчас так задачи ставятся и оцениваются, типа нам кажется что это несложно /не долго и т.д.
а если результат не такой как ожидалось то это не проблемы аналитики или постановки а технической реализации.
Ну хз, прошел специализацию МЛ инженер от ЯП, получил много релевантных знаний и диплом о проф переподготовке, пока всем доволен.
Не уверен что за 4 месяца смог бы сам все это узнать и разобраться. Например про аплифт моделирование много читал на хабре но все было какое то путанное и лоскутное а тут у меня сложилась наконец цельная картинка. Преподы на курсе были ок, вполне себе прокаченные в своих темах явно не джуны и даж не мидлы. Но это мое мнение и только по одному пройденному мной курсу как дела на других курсах я хз. Учится кстати было не легко и многие датасантисты с гонором что они не первый год работают в дата саенсе истерили когда им приходилось ковырятся в линуксе, конфигах и прочих ямлах, жаловались что сложно что много времени уходит что дедлайны горят Так что про тыканье мышкой тож мимо, но опять же я проходил специализацию для тех у кого уже есть опыт работы в индустрии, какого качества курсы для новичков я не знаю.
Не я писал учебник по финансам, а там так написано. Для ФинДира это безрисковый инструмент, надежней только облигации гос долга, опять же по теории Девальвации и прочее ФинДира особо не волнуют если у него нет например валютных платежей скажем за лизинг воздушного или морского судна. Если компания работает внутри перимитра расходы в рублях и выручка в рублях то любые девальвации вообще никак не парят финдира. Вопрос сохранности денег и прочих норм прибыли владельцев бизнеса решают другие люди и другими инструментами.
Вот это очень интересные вопросы с удоволствием бы почитал ответы.
Какие скоры, какие метрики на проде для retrieval/generation и как связаны контрольные вопросы и прод
Вот это вот все есть в джупитере у ДСа а вот в проде есть только None
precision/recall - это классические оффлановые метрики, их так просто не посчитаешь на проде, значит нужно собирать какие то прокси метрики, но какие именно и в каких частях системы, до ретривера после ретривера, до генерации или после, как это все интерпретировать и т.д и т.п.
Вот и получается что у ДСа нет понимания как работает сервис целиком, а у бэкендера нет компетенций по АИшной/МЛной части.
Так и живем
согласен что не во всех проектах важны всякие NDCG и понимать чем векторный поиск отличается от bm25, или как именно работает реранкер на би энкодере.
Но если бэкендер с трудом отличает прессижн от реклла то в проекте не обойтись без МЛ инженера.
Плюс есть отличия между систем дизайном и мл систем дизайном если есть арихитектор который шарит или МЛщик который не только шарит но и может донести свою мысль тогда ок, в противном случае будет вот это вот что сейчас на проектах Сбера откуда выгали "дорогих" синьоров под предлогом оптимизации и оставили мидлов и тру бэкендеров в итоге RAG для бизнеса отвечает либо None либо совсем не то что спрашивали. Тру стори
спасибо за развернутый ответ, да сложно не согласится с приведенной аргументацией.
Видел с десяток уже проектов где ллм приложения не работают из за того что есть юпитерноутбук от датасанстистов и есть тру бэкендероры но чего то нехватает)
Получается что нужен еще МЛ инженер в команду что бы это все заработало по идее он должен знать про ассинхроность и многопоточность но не обязательно. Его задлача взять юпитер ноутбук и переписать в его в приложение с обработкой эксепшенов с логгированием, причем логирование в таких проектах специфическое не только в плане МЛ метрик, но и специфические инструменты например MLflow, langfuse а не привычные прометеусы с графанами
Вайбкодеров пока не встречал
Те кто строит нейросетки в пайторчах у них ка бэ свои очень специфические задачи зачем им знать про asyncio?
Во первых спасибо что поделился своим взглядом на разработку ЛЛМ приложений, достаточно познавательно.
Особенно в свете последних событий когда есть дата сотонист готорый написал 1200 строк кода на пистоне в джупитере и есть тру бэкендер на джаве/си шарпе, но как итог в проде RAG на половину запросов отвечает None а на вторую не то что его спрашивали.
Как быть в такойм случае?
А кто такие нейросетивые погрмисты?
Если почитать книгу то становится ясно почему сделанно именно так
Алгоритм реализуется при помощи структур данных и максимально эффективно по памяти и вычислениям
понял, спасибо за ответ
Спасибо, очень понравился подход.
не хватает информации по постановке задач и оценки сложности и сроков, что бы избежать микроменеджмента с одной строны и не срывать сроки с другой.
Но глобально моя боль в другом, что делать если сознательно устраивают встречи ради встреч, без повестки и артифактов, если задачи ставятся не через трекер и без оценки и т.д и т.п.
очень сомневаюсь, на роботов уже бюджет потрачен, а эффект от внедрения считали как экономию человеко часов
Вот чего не понимаю так как они говорят про %bank_name%, запись же в трудовой должна быть?
Да что там учить?
print("Hello, World!") - и я уже миддл
def im_senior_MLE():
return print("Hello, World!")
Где мои 300к в наносек?
Нет, это не так. В индустрии есть четкое разделение между датасантистами и МЛ инженерами. И инструменты которые я перечислил являются обязательными для того что бы называть себя МЛ инженером.
А еще есть MLOps инженер.
Датасантист это специалист который шарит за модели, тервер матстат линал и прочее, делает MVP в юпитерноутбуке и как бэ все.
Мл инж пишет product ready code переписывая юпитер в МЛ сервис.
В этом легко убедится, пишешь в поисковике ml engineer vs data scientist
У тебя то датасантист то МЛ инженер, МЛ инженер это все же другое там и MLflow, DVC, Airflow, FastApi плюсом к тому что может датасантист
Премии получает тот кто перевыполняет ки пи ай
Вот у нас набрали народу по ки пи ай, расчет был с потолка но были кипиай и бюджет и премия по результатам.
Теперь эти же люди покрасили свою эксельку в другой цвет и решили сокращать и опять кипиай бюджет и премия
Сервисов правда в проде нет но это и не надо, есть раскрашенные эксельки
В смысле? Сказали же плохие, а почему? а потому что так чувствуют
У меня сейчас так задачи ставятся и оцениваются, типа нам кажется что это несложно /не долго и т.д.
а если результат не такой как ожидалось то это не проблемы аналитики или постановки а технической реализации.
Сорри за негатив просто накипело
Ну хз, прошел специализацию МЛ инженер от ЯП, получил много релевантных знаний и диплом о проф переподготовке, пока всем доволен.
Не уверен что за 4 месяца смог бы сам все это узнать и разобраться.
Например про аплифт моделирование много читал на хабре но все было какое то путанное и лоскутное а тут у меня сложилась наконец цельная картинка.
Преподы на курсе были ок, вполне себе прокаченные в своих темах явно не джуны и даж не мидлы.
Но это мое мнение и только по одному пройденному мной курсу как дела на других курсах я хз.
Учится кстати было не легко и многие датасантисты с гонором что они не первый год работают в дата саенсе истерили когда им приходилось ковырятся в линуксе, конфигах и прочих ямлах, жаловались что сложно что много времени уходит что дедлайны горят
Так что про тыканье мышкой тож мимо, но опять же я проходил специализацию для тех у кого уже есть опыт работы в индустрии, какого качества курсы для новичков я не знаю.
Не я писал учебник по финансам, а там так написано.
Для ФинДира это безрисковый инструмент, надежней только облигации гос долга, опять же по теории
Девальвации и прочее ФинДира особо не волнуют если у него нет например валютных платежей скажем за лизинг воздушного или морского судна.
Если компания работает внутри перимитра расходы в рублях и выручка в рублях то любые девальвации вообще никак не парят финдира.
Вопрос сохранности денег и прочих норм прибыли владельцев бизнеса решают другие люди и другими инструментами.
Ну наш текущий CEO почти 10 лет на посту
А инвестиционные стратегии они же разные есть краткосрочные например а это от года