Comments / Profile of apcs660 / Habr

User

Что бы я сделал, если бы сегодня начинал учить Data Science / ML?

Сейчас начал раскопки RAG, копаю примерно месяц.10 лет примерно занимался написанием поисковых корпоративных систем по классике. Работа на заказчика закончилась но привычка, как говорится, осталась. Идеи на полке тоже. Решил освежить знания, немного отойти от колеи и сразу попал на RAG.

RAG по сути, есть трех типов: vanilla, это когда в лоб ищем по knn векторам составленным из кусков текста. Подобный поиск встроен в Solr/Elastic.

Hybrid Rag - когда ищем применяя knn и классический поиск по фразам и ключевым словам а затем пытаемся отранжировать и соединить результаты поиска. Как вы извлекли ключевые слова и фразы, это отдельная песня. Бывает так, что нужно отделить поиск по метаданным от поиска по контенту, и создать маппинг от онтологии в NLP запросе к полям метаданных в базе или индексе.

И третий, он же немного второй способ, RDF хранилища, SPARQ, использование graph db как хранилища и если ресурсы позволяют, нейросети для обработки и хранения связей графа знаний.

Сразу после сокращения создал проект на гитхабе, пригласил туда коллегу из QA (нас кучно сократили, отвалился клиент жирный), создал организацию на гитхаб чтобы работать в группе. Учебное окружение должно напоминать рабочее. Может еще кого подтяну из знакомых.

С недельку помучал ChatGPT, придумал себе имя для домена и заодно продукта. За небольшие деньги зарегал пару доменов, . Dev с SSL (18 баксов) и . аi (140), чтоб застолбить, заодно нормальную почту корпоративную.

Все нужно делать по настоящему, даже когда учишься. Потихоньку пилим в песочнице то что уже делали раньше но в силу NDA не могли утащить - создаю базу, улучшаю код с учетом опыта. Делаю необходимый минимум но по феншую чтоб не краснеть когда выложу в открытый доступ. Потихоньку набьем руку, затем начну прощупывание клиентов с которыми работал, попробую на контракт заскочить.

Питон если честно, раздражает, но делать нечего - учу. Он меня как Бейсик, немного выбешивает. Что то сложное поставить - надо anaconda + mamba, это просто ужасно.

Проектов масса, по RAG заинтересовал haystack. Лонгчейн, ллм индекс, пара векторных баз типа milvus, тоже мимо не пройдут.

На литкод зашел и вышел. Одной книжки по алгоритмам достаточно полистать, и пару листингов или публикаций, зачем больше то знать на обычной работе? 90 процентов разработчиков в запарке применяют наивные алгоритмы или готовые библиотеки и все на этом

поймал себя на мысли, что устал кодировать. Начал почитывать пару книг по корпоративной архитектуру и это мне зашло намного лучше чем программирование. Авторы поумнее как то показались, меньше тупой бравады и думать пытаются. Все как в реальных больших проектах - много шишек и компромиссов. Наверное пора с кодинга уходить.

Через полгода примерно подкуюсь, демо проекты закончу, буду готов но работу начну прощупывать примерно через месяц - новье конечно нужно знать но по Легаси работы море никто не отменял принцип "сначала продай а потом сделай", это норма сейчас.