Обновить
8
0

Аналитик

Отправить сообщение

За пределами embeddings: комбинируем векторный и лексический поиск для повышения релевантности

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели8.5K

Привет, Хабр! В предыдущем материале мы упомянули, что при работе с текстовыми корпусами embedding-модели не всегда оптимальный инструмент. В этой публикации на примере задачи поиска релевантных документов по запросу рассмотрим ограничения такого варианта решения, разберем на практике гибридный подход и оценим его эффективность.

Меня зовут Вадим Скляров, я аналитик компании MWS, и уже по традиции мы будем разбираться в технической задаче с позиции системного и бизнес-анализа:

— сформулируем основные моменты, которые нужно знать и описать, прежде чем передать проект команде разработки;

— рассмотрим, как быстро проверить подходы к решению.

Читать далее

Векторизация текстов с помощью LLM. Гайд для аналитиков, которые не хотят, чтобы их проекты переделывали с нуля

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели6.6K

Когда речь заходит о языковых моделях (LLM), большинство представляет себе инструмент для генерации текста или изображения по запросу. Эта функция действительно стала визитной карточкой технологий вроде ChatGPT. Однако существует менее известная, но не менее важная функция: преобразование текста в числовые векторы (эмбеддинги).

Меня зовут Вадим Скляров, и я бизнес-аналитик в MWS. Казалось бы, тема векторизации текстов сугубо техническая, зачем мне в нее погружаться? Ответ прост: чтобы понимать возможности и ограничения работы с векторными представлениями и задавать правильные вопросы заказчику, не обещать того, чего сделать не получится. Плюс это помогает точнее оценить сроки и стоимость проекта.

В этом материале я разберу, как использовать эмбеддинги для решения практических бизнес-задач, опишу основные шаги векторизации текстов и акцентирую внимание на ключевых моментах, которые позволят обсуждать задачи с командой разработки на одном языке.

Читать далее

ИИ в корпоративном чате: Как LLM-модели решают задачи безопасности и конфиденциальности вашей компании?

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели1K

Современные корпоративные чаты стали неотъемлемой частью бизнес-коммуникаций, но вместе с удобством они приносят и новые риски: утечки конфиденциальных данных, нарушения корпоративной этики и даже юридические угрозы. Традиционные методы модерации, основанные на ручном контроле или простых фильтрах, уже давно ,не справляются с объемами сообщений и сложностью контекста.

Цель данной публикации - объективно оценить потенциал предобученных LLM-моделей
для решения задачи автоматической модерации чата, выявить ключевые преимущества и ограничения.

Читать далее

Open Street Map — OSINT-инструмент для маркетологов

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели2K

Собрать базу телефонов / email для холодных контактов можно несколькими способами:

1) купить готовую базу

2) написать и запустить парсер сайтов по списку

3) собирать в режиме ручного поиска в интернете

Все перечисленные способы имеют свои преимущества и недостатки. В статье мы разобрали еще один способ, тоже не идеальный, но с двумя большими плюсами — быстро и бесплатно.

Читать далее

Индивидуальный цифровой отпечаток — реальность которая подкралась незаметно

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели4.3K

Поводом для любопытства стала статья на Хабре «Перейди по ссылке, и я узнаю твой номер». Сейчас наверное уже не найти обычного человека на которого с незнакомых номеров не сыпятся «уникальные выгодные предложения». И бесполезно пытать очередного абонента «Откуда у вас мой номер?». А действительно, откуда?

Про злых хакеров, и корыстных менеджеров, которые сливают базы пользователей известно всем и давно. Но есть и другой способ получения данных. Для меня стало откровением что просто открывая впервые страницу сайта пользователь оставляет свой цифровой отпечаток. Который уникален как ИНН. И cookies здесь совсем не причем.

Читать далее

Как пишут SQL-запросы гуманитарии

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели28K

Когда говорят «мы ускорили выполнение нашего запроса в N раз» это значит, что сначала сделали плохо а потом начали думать как улучшить.

Так я думал раньше.

Читать далее

Затаскиваем sqlite в облачный Битрикс24

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели3.1K

Для каких целей? На момент возникновения идеи было еще не совсем понятно. Но предпосылки развития идеи были.

Читать далее

Распознавание лиц в Битрикс24 без сторонних зависимостей

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели3.6K

Был такой функционал в Битрикс24 - Face-трекер. В 2022 году его отключили, о чем вышло официальное уведомление

Причина для отключения - "Провайдер, с которым мы сотрудничаем, сейчас не может предоставить сервис распознавания лиц"

По фану возникла идея проверить, можно ли реализовать распознавание лиц самостоятельно, без привлечения сторонних сервисов и провайдеров? Ведь в открытом доступе достаточно много предобученных нейронных сетей распознавания лиц и инструментов для их использования. Взять хоты бы решения

MediaPipe от Google,

OpenFace

face-api.js

различные реализации на dlib + OpenCV

Цель была сформулирована.

Читать далее

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Бизнес-аналитик
Ведущий
От 300 000 ₽
Битрикс24
BPMN
UML
SQL
Python
PostgreSQL
Бизнес аналитика
Анализ требований