All streams
Search
Write a publication
Pull to refresh
7
4
Send message

Векторизация текстов с помощью LLM. Гайд для аналитиков, которые не хотят, чтобы их проекты переделывали с нуля

Level of difficultyEasy
Reading time12 min
Views986

Когда речь заходит о языковых моделях (LLM), большинство представляет себе инструмент для генерации текста или изображения по запросу. Эта функция действительно стала визитной карточкой технологий вроде ChatGPT. Однако существует менее известная, но не менее важная функция: преобразование текста в числовые векторы (эмбеддинги).

Меня зовут Вадим Скляров, и я бизнес-аналитик в MWS. Казалось бы, тема векторизации текстов сугубо техническая, зачем мне в нее погружаться? Ответ прост: чтобы понимать возможности и ограничения работы с векторными представлениями и задавать правильные вопросы заказчику, не обещать того, чего сделать не получится. Плюс это помогает точнее оценить сроки и стоимость проекта.

В этом материале я разберу, как использовать эмбеддинги для решения практических бизнес-задач, опишу основные шаги векторизации текстов и акцентирую внимание на ключевых моментах, которые позволят обсуждать задачи с командой разработки на одном языке.

Читать далее

ИИ в корпоративном чате: Как LLM-модели решают задачи безопасности и конфиденциальности вашей компании?

Level of difficultyEasy
Reading time7 min
Views1.4K

Современные корпоративные чаты стали неотъемлемой частью бизнес-коммуникаций, но вместе с удобством они приносят и новые риски: утечки конфиденциальных данных, нарушения корпоративной этики и даже юридические угрозы. Традиционные методы модерации, основанные на ручном контроле или простых фильтрах, уже давно ,не справляются с объемами сообщений и сложностью контекста.

Цель данной публикации - объективно оценить потенциал предобученных LLM-моделей
для решения задачи автоматической модерации чата, выявить ключевые преимущества и ограничения.

Читать далее

Open Street Map — OSINT-инструмент для маркетологов

Level of difficultyEasy
Reading time4 min
Views2.9K

Собрать базу телефонов / email для холодных контактов можно несколькими способами:

1) купить готовую базу

2) написать и запустить парсер сайтов по списку

3) собирать в режиме ручного поиска в интернете

Все перечисленные способы имеют свои преимущества и недостатки. В статье мы разобрали еще один способ, тоже не идеальный, но с двумя большими плюсами — быстро и бесплатно.

Читать далее

Индивидуальный цифровой отпечаток — реальность которая подкралась незаметно

Level of difficultyEasy
Reading time3 min
Views6.2K

Поводом для любопытства стала статья на Хабре «Перейди по ссылке, и я узнаю твой номер». Сейчас наверное уже не найти обычного человека на которого с незнакомых номеров не сыпятся «уникальные выгодные предложения». И бесполезно пытать очередного абонента «Откуда у вас мой номер?». А действительно, откуда?

Про злых хакеров, и корыстных менеджеров, которые сливают базы пользователей известно всем и давно. Но есть и другой способ получения данных. Для меня стало откровением что просто открывая впервые страницу сайта пользователь оставляет свой цифровой отпечаток. Который уникален как ИНН. И cookies здесь совсем не причем.

Читать далее

Как пишут SQL-запросы гуманитарии

Level of difficultyEasy
Reading time5 min
Views27K

Когда говорят «мы ускорили выполнение нашего запроса в N раз» это значит, что сначала сделали плохо а потом начали думать как улучшить.

Так я думал раньше.

Читать далее

Распознавание лиц в Битрикс24 без сторонних зависимостей

Level of difficultyEasy
Reading time6 min
Views2.9K

Был такой функционал в Битрикс24 - Face-трекер. В 2022 году его отключили, о чем вышло официальное уведомление

Причина для отключения - "Провайдер, с которым мы сотрудничаем, сейчас не может предоставить сервис распознавания лиц"

По фану возникла идея проверить, можно ли реализовать распознавание лиц самостоятельно, без привлечения сторонних сервисов и провайдеров? Ведь в открытом доступе достаточно много предобученных нейронных сетей распознавания лиц и инструментов для их использования. Взять хоты бы решения

MediaPipe от Google,

OpenFace

face-api.js

различные реализации на dlib + OpenCV

Цель была сформулирована.

Читать далее

Information

Rating
1,080-th
Registered
Activity

Specialization

Business Analyst
Lead
Bitrix24
BPMN
UML
SQL
Python
PostgreSQL
REST