Pull to refresh
8K+
31
Игорь Хмельков@khmelkoff

Data Scientist

9
Rating
23
Subscribers
Send message

Когда я только настраивал промпты, не было ограничения на "клонированные и синтетические" организмы. Вы не поверите, но у меня волосы вставали дыбом от того, что генерила gemma в тестовых запросах.

Загрузил в репозитарий. проверяйте

КДПВ в статье не показывается, только в ленте. Попробуйте поиском "RAG: Как собрать свой ретривер", она там будет на втором или третьем месте.

Спасибо! Собаку поменял )

Qwen3.5 27B пробовал. Инференс не стартует, остановил. Нужно разобраться, возможно обновить ollama. Говорят, хорошая модель. Получится запустить - сделаю апдейт.

Спасибо за статью, с удовольствием попробовал!
В функции make_docs список файлов лучше брать из annotated, у файлов из raw не у всех есть пара.

У меня получилось на trax 1.3.6. Попробовал и TPU и GPU, но тексты были короткими.

В Trax версии 1.3.7 в реформер не получалось загрузить веса. Старая ошибка, которую в 1.3.4 вроде бы исправляли. У Вас вышло?

Купил. С примерами да, проблема. По-моему spacy сейчас уже работает с русским языком.
Ну хоть шрифт нормальный, можно в транспорте почитать. «Обработку естественного языка в действии» изд. Питер — только при ярком свете днём или под стоваттной лампой.
Отличная идея использовать всего две точки на шее и подбородке, чтобы показать поворот головы! Красиво. Удачи Вам!
Да, точно, вложение!
Да, Вы правы, bias — смещение, смещенность. Но я имел в виду именно предвзятость. Последнее время встречаю немало публикаций на эту тему. Что-то вроде «can be interpreted as one group's prejudice based on a particular categorical distinction». Западные коллеги даже Embeddings (векторные пространства слов, кажется Вы предложили вариант «внедрения», на мой взгляд — вполне удачный) корректируют, что бы избежать обвинений в сексисзме.
Но модель в силу алгоритма усвоения внутри нее улавливает неразличимые для человека сведения уже сама.

Это только часть моделей. А для другой части нужно разметить данные, т.е. «показать» алгоритму, что правильно, что нет, что искать на изображении, каким должно быть удачное «саммари» для текста. Процесс разметки данных или подготовки правильных ответов может занимать 99% времени проекта.

Возможно Вам будет интересно, среди моих коллег термин модель применяется только к обученной модели, ну или по вашему, модели, усвоившей знания. Пока процесс не завершен, это, например, машина или алгоритм и никакой ценности она не представляет, какой бы сложной не была её архитектура.
Поставил плюс статье за Вашу позицию и то, как Вы её отстаиваете.
Тема действительно интересная. На мой скромный взгляд практикующего DS, оба термина, и обучение и усвоение не очень удачны. Обучение, потому что процесс больше похож на тренировку. Почти всегда в коде есть модуль «train» и также называется часть данных, которая используется в этом процессе.

Термин «усвоение» мне непривычен, но проблема не только в нём. Проблема — в знаниях, которые машина должна усваивать. Мне всегда казалось, что знания должны быть как-то связаны с индивидом, с отражением действительности в сознании, которым пока машины не обладают. На мой взгляд то, что приобретает машина на данном уровне развития технологий больше похоже на интуицию.

Пожалуй «усвоение» еще как-то выключает меня из процесса (а это обидно). Да, есть такие системы, где роль исследователя данных минимальна, но в основном, это я подбираю для машины кейсы, я оцениваю как и сколько она учится, я слежу за качеством модели и иногда за предвзятостью, и да, это я подкручиваю гиперпараметры.

Интересно, что термин «знания» в оригинальной статье упоминается только два раза, в определении Dr. Yoshua Bengio. И там не очень понятно, это относится к ML или AI.
Если будете еще экспериментировать, попробуйте RuBERT. Она помещается на 8ГБ GPU, если размер сообщения не больше, чем 64 токена.
Там очень интересный генератор. U-net c механизмом (само)внимания. Судя по ссылкам в репо, проект вырос из омолаживателя :) github.com/jantic/DeOldify. Если бы кто-то всё это рассказал, а заодно про спектральную нормализацию и прочие трюки, была бы классная статья.
Для классификации узкоспециализированных обращений обычно хватает простого эмбеддинга. Даже если нужно, например, определять сходство запроса с вопросом из базы знаний.
похоже на классификатор типов обращений
Свёрточные нейросети отвечали заданным требованиям. Выбор был остановлен именно на них.
Необходимую точность показывали только модели типа GPT и BERT
Интересно, с каких пор трансформеры стали относится к сверточным архитектурам?

Information

Rating
822-nd
Location
Москва, Москва и Московская обл., Россия
Registered
Activity