Григорий Мацнев @allseeteam
Главный по спецпроектам в AllSee.team
Information
- Rating
- Does not participate
- Location
- Россия
- Registered
- Activity
Specialization
Backend Developer, Machine Learning Engineer
Git
Linux
Python
English
Docker
Database
Designing application architecture
Надеюсь, что разрешено в комментариях прикреплять ссылки на внешние сервисы.
Протестировать можно на нашей пилотной странице на этапе регистрации: https://hubech.com/home/
Согласен с вашим тезисом о сложности сбора обучающих данных. Но часто (в реальных, а не академических задачах) нам приходится иметь дело с ситуациями, когда данных нет, а результат нужен.
78% Recall без файнтьюнинга модели — это достойная стартовая ступенька для дальнейшего улучшения результатов:
- Работы с более серьёзными LLM
- Точного подбора параметров предобработки и постобработки данных
- Работа над промптами к модели
- Файнтьюнинга (при наличии данных в объёме меньшем необходимого для обучения моделей под данную задачу с нуля)
Что же касается того, что можно назвать достойным результатом, то рамки приемлемости стоит определять уже из бизнес-требований. В нашем примере мы тестируем подход к задаче распознавания заранее заданных сущностей в тексте с использованием LLM без обучающего множества: результаты данного эксперимента могут быть приемлемы для одних приложений и неприемлемы для других.
Я бы был рад обсудить ваши мысли по поводу других возможных подходов к решению поставленной задачи, если вам есть, чем поделиться. Мы можем быть где-то не согласны друг с другом, но я люблю думать, что в споре действительно рождается истина.
Салют! По моему опыту, есть рекомендация максимально упрощать промпты для модели. Также, по моим наблюдениям, на версии YandexGPT 3 стали лучше отрабатывать инструкции вида "Ответ дай в виде: ..., без дополнительных комментариев".
Салют! В статье использовались примерные цифры, полученные на основе опыта работы над задачей, описанной в статье. В сравнении YandexGPT 3 и GPT 4 turbo.
Стандартная модель или порт на плюсы?
Сейчас на nvidia v100 работает large‑модель. Есть в планах поэксперементировать и запустить пайплайн транскрибации и диаризации на «дешёвом» CPU, чтобы мы смогли оставить доступ к боту открытым навсегда
Да, на русском достаточно хорошо работает на модели large. Правда, как я уже писал, используется WhisperX — там свои доработки есть
На самом деле так и есть.
Компании давно внедряют решения для автоматизации найма, просто относительно недавно появились реально крутые и доступные алгоритмы обработки слабо структурированной информации резюме / сопроводительных писем.
Единые официальные стандарты обмена информации о вакансиях и кандидатах никто и никогда не сделает, да и не надо, а значит нам предстоит просто совершенствовать процесс преобразования неструктурированной информации о себе, как о соискателе в относительно структурированные документы, типа резюме, а работодателям — алгоритмы преобразования наших документов в ранжируемые между собой в контексте вакансии объекты (в идеальном варианте, к которому многие идут).
Тут важно учитывать, что алгоритмы должны именно структурировать реальную информацию, а не создавать вымышленные факты для релевантности той же вакансии. Также важным аспектом я считаю этическую сторону вопроса: как в бизнесе сделки заключают именно люди, так и люди должны принимать на работу людей, но я думаю, что со временем мы найдём компромиссный вариант между полной оптимизаций процесса найма и полностью живым общением.
Я хочу упомянуть, что не являюсь даже на 10% профессионалом в область управления персоналом, поэтому могу в каких-то тезисах быть не прав: всё, что я написал выше основано на моём опыте общения с людьми, занимающимися HR-tech и понимании возможностей ИИ в данной области.
Заранее извиняюсь за стену текста. Постарался вынести все мысли, которые не высказал в статье по причине её технического характера. А также указать те мысли, на которые натолкнула ваша достаточно интересная картинка.
В данной статье я использую python-telegram. Он позволяет взаимодействовать именно с API телеграмм (не Bot-API), в том числе писать в личные сообщения. В параграфе «Python‑Telegram» я привёл пример кода, который позволяет отправлять личные сообщения прямо по нику целевого контакта.
Да, можно. Возможно, то, что вы ищите, описано в данной статье.
Читает. Отправил ей статью в первую очередь?
На самом деле, тут никакого обмана: идею проекта я ей первой и озвучил. Не все девушки без чувства юмора?