Как стать автором
Обновить
19
0
Константин Шитьков @kitaisky

DS

Отправить сообщение

У вас пока задача прогнозирования спроса. Для бизнеса актуальнее задача ценообразования в разрезе максимизации прибыли. А тут обычной регрессией на спрос не обойдешься - нужно копать в сторону моделей эластичности и навешивать многоруких бандитов для оптимизации цены билета на конкретную дату, а можно еще и для конкретного класса покупателей.

Технически возможно повесить 3, но сделано максимально всрато и неудобно - проектрировщики видимо не пробовали подумать, как этим будут пользовтаься

Я не спорю, но в статье визуализация входа как матрица 3х3, что отсылает таки к стандартным методам обработки именно изображений. С ваших слов это матрица 77х[размерность датентного пространства] - мне кажется это не логично, и что скорее там тогда одномергый вектор, к которому как раз из 77 векторов текстового представления подмешивается новая информация. Хотелось бы этот момент прояснить.

77 этт количество векторов из текстового описания, как я понимаю, а юнет вроде для картинок изначально, типа 512х512х3. Видимо этеншн подмешивает в латентное представление сумму из этих 77

Там u-net для одномерных векторов используется? Не мог в это въехать, спасибо.

Подмешивает в вектор картинки в латентном пространстве? А в резнет она потом перед подачей разворачивается обратнотв картинку?

Именно что "самостоятельно" обучать - основная проблема таки как раз в этом. Про дистилляцию -возможно, но таки опять же тут сетку нужно учить с нуля. Возмьжно небольшие сетки на такой архитектуре могут хорошо подходить для решения кааих-то задач, не связанных с языковым моделязыковым моделированием, гдк нужны гигантские объемы данных - я бы с удовольствием почитал о применении указанных выше архитектур к каким-нибудь табличкам, рядам и прочему.

Это все конечно интересно, но на практике упирается в то, какую архитектуру выберут и предобучат большие дяди, и после этого будут использовать для решения своих задач все остальные.

Я так и не понял, как используется векторное представление текста. На вход ResNet у нас подается картинка с шумом(или ее проекция во внутреннее пространство?), а как на ее обработку сеткой влияет этэншн и текстовый вектор?

Добавить опиание специфики применения трансформеров для временных рядов. А так смысл статьи в том, что если хотите во врменнные ряды, то сейчай SOTA это трансформеры - а дальше сами разбирайтесь)

В тексте есть общие слова про трансформеры - где тут про их применение к временным рядам кроме отсылок к статьям? "Архитектура очень похожа на оригинальный трансформер. В качестве оптимизатора в этой работе использовался Adam. Для регуляризации авторы добавили dropout и dropout rate - 0.2 для каждого слоя." - очень информативно конечно)

Заходишь почитать про применение трансформеров, а в сухом остатке только ссылка на пару статей по теме.

Спасибо за первоисточник

Спасибо, так заработало)

В ноутбуке в колабе по ссылке на гитхаб. Там конечно саммари такое себе - часто получается склейка новостей, и выглядит диковато)

Поясните, как из токенов получается вектор, который подается на ваш обучаемый классификатор?

"Входной слой — это слой встраивания, он ставит вектор в соответствие каждому индексу. Последовательность индексов заменяется на матрицу. Изначально векторы либо выбираются случайными, либо задаются предварительно обученные, а далее, во время обучения сети могут обучаться вместе со всей сетью при помощи обратного распространения ошибки (backpropagation)."

Что здесь вектор, что здесь индекс?

Самое интересное место, но и самое мутное.

Как я понимаю, мы прогоняем полученные токены через векторизатор, получаем векторы для каждого сгенеренного варианта фразы, потом ранжируем по расстоянию. Не очень понял, как считаем вектор для всего предыдущего диалога - токенизируем и прогоняем весь предыдущий текст диалога?

И еще - ваша модель нужна для выбора вариантов, сгенеренных ruGPT? А просто перплексию фразы на языковой модели вы не сравнивали?

PS как-то очень запутанно написано - если бы тема не была интересна, то прошел бы мимо

"метод query_pinecone принимает вводимое пользователем содержимое статьи, преобразует его в сопоставления векторов, а затем запрашивает индекс Pinecone, чтобы найти похожие статьи." - хотелось бы узнать, как происходит само преобразование и поиск.

Да, сама статья не особо полезна - новичку сложно, остальные и так наверное уже разобрались, тут скорее просто порадоваться за подход автора :)

Спасибо за замечание, попробую дополнить.

1

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность