Как стать автором
Обновить

Как стать автором

Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)

Уровень сложностиСредний
Время на прочтение6 мин

В статье коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста. Статья (1-я часть) основана на моей магистерской работе в МФТИ, которую защитил в июне 2024г.

Читать далее
Всего голосов 2: ↑1 и ↓10
Комментарии1

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

Время на прочтение3 мин

В этой статье я расскажу, как я смог обучить модель, которая превзошла GPT 3.5 Turbo на русскоязычной части MT-Bench. Также я рассмотрю новую конфигурацию для обучения на двух графических процессорах параллельно с помощью accelerate и deepspeed.

Особенный интерес представляет мой датасет для обучения. Он получен из сабсета мультиязычных промтов набора lightblue/tagengo-gpt4 на русском, английском и китайском, всего 10 тысяч примеров, сгенерированных с помощью GPT-4o. Это в 8 раз меньше, чем исходный набор Tagengo, но обученная на последнем Suzume, как показали бенчмарки, лишь очень незначительно превосходит мою модель на ru_mt_bench, а на англоязычном бенче и вовсе уступает ей. Это значит, что я в разы сэкономил на GPU за счет более высокого качества данных, полученных с помощью GPT-4o. 

Я использовал скрипт для получения ответов по заданным промптам. Для генерации русскоязычной выборки я изменил часть скрипта, чтобы выбрать все промпты на русском из Tagengo (8K примеров), так как основной фокус при обучении модели был на русском языке. 

В итоге я получил датасет ruslandev/tagengo-rus-gpt-4o и приступил к обучению.

Для этого я создал виртуальную машину с NVIDIA H100, используя сервис immers.cloud. Для достижения наилучших результатов по instruction-following (что проверяется на MT-Bench) я взял в качестве исходной модели meta-llama/Meta-Llama-3-8B-Instruct. Именно на ней обучена модель Suzume, у которой высокая оценка на MT Bench. Предыдущие эксперименты показали, что базовая Llama-3 8B,  а особенно ее четырехбитная версия для QLoRA - unsloth/llama-3-8b-bnb-4bit - значительно отстает по оценкам бенчмарка.

Читать далее
Всего голосов 12: ↑11 и ↓1+13
Комментарии5

Простые, но редко используемые методы аналитики, которые улучшат показатели ваших рекламных кампаний

Время на прочтение11 мин

Digital-аналитика рекламных каналов является неотъемлемой частью работы над маркетинговыми кампаниями.

Одним из самых результативных подходов при анализе рекламных кампаний является исследование показателей эффективности в разрезе различных сегментов.

На практике чаще всего используются следующие популярные разбивки:

Анализ в разрезе рекламных кампаний;

По ключевым словам и группам объявлений;

По типу устройств (смартфоны, планшеты, компьютеры);

По гео (города и страны);

По демографическим признакам (пол и возраст).

Как правило, в ходе исследования специалист разделяет трафик между сегментами и оценивает разницу в стоимости лида (CPL) либо стоимости заказа (CPO). Далее производятся соответствующие корректировки.

Подобный анализ может дать специалисту большой объем полезной информации, которая, будучи правильно учтенной, даст значительный положительный эффект.

Однако практика показывает, что стандартных сегментов часто оказывается недостаточно, и многие аналитики / маркетологи начинают задаваться вопросом: 

На что еще взглянуть в рекламных кампаниях, чтобы увеличить эффективность привлекаемого трафика?

Давайте разбираться! 

Читать далее
Всего голосов 2: ↑1 и ↓1+2
Комментарии1

Основы управления проектами: на чём следует сосредоточиться?

Уровень сложностиСредний
Время на прочтение11 мин

«Сосредоточьтесь на основах, делайте их хорошо и делайте их неустанно..»

Все менеджеры проектов знакомы с ними, и те, кто не являются менеджерами проектов, тоже их узнают. Проекты состоят из задач, вех, этапов, ресурсов различных типов, рисков, проблем и т. д. Каждая задача, срок или человек неделимы – атомы проекта, если хотите..

Я уверен, что у вас будет свой собственный список. И хотя я ожидаю, что ваш список во многом будет пересекаться, он вполне может отличаться в деталях. Вы можете не включать одну или две из моих лучших концепций, но при этом добавить несколько своих собственных. Скорее всего, у вас будет та же идея, но выразите ее по-своему.

Читать далее
Всего голосов 4: ↑0 и ↓4-4
Комментарии1

Телеприсутствие, 3D-видеосвязь и НЕголографические будки

Время на прочтение12 мин

Почему модные способы 3D-коммуникации никак не станут массовыми, какое отношение они имеют к голограммам и чем нас не устраивает просто видео.

Читать далее
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Большие простые числа: теория и практика их поиска

Время на прочтение8 мин

Самое большое простое число, известное на данный момент, состоит из почти 25 млн. цифр. Есть ли простые числа больше? Несомненно. Простых чисел бесконечное количество. Найдём ли мы простое число больше 25 млн. цифр? Тоже да, поиск не останавливается ни на секунду. Можно ли принять в нём участие? Конечно, достаточно присоединиться к одному из добровольных распределённых проектов по поиску больших простых чисел.

Читать далее
Всего голосов 9: ↑7 и ↓2+7
Комментарии8

Что такое Data-Oriented ECS

Уровень сложностиПростой
Время на прочтение5 мин

В этой статье пойдет речь о довольно интересной реализации Entity System Component (ECS), а именно о Data-Oriented ECS (DOD ECS). Эта статья подойдет для тех, кто хочет ознакомиться с ECS, а в частности с его DOD ECS реализацией. В этой статье не будут рассматриваться детали конкретных реализаций или оптимизаций, вместо этого в статье будет описана принципиальная разница между классической ECS и DOD ECS, приведены особенности, преимущества и недостатки DOD ECS.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Как мы попали в Матрицу и начали в ней жить

Время на прочтение3 мин

Привет! На связи Елена Платковская. В SM Lab, которая входит в «Спортмастер», занимаюсь построением и оптимизацией IT-процессов.

Когда я пришла в компанию, не было понимания какими навыками сотрудники именно нашего отдела, на тот момент недавно сформированного, должны обладать. Унифицированный это будет набор или разный для каждого? Что и каким образом важно «подтянуть», а в чем мы бесспорные молодцы? Есть ли необходимость проводить скилл-ревью? Не было понятно, что сделать, чтобы переходить с одного карьерного уровня на другой. А когда пришло время набирать новичков, мы и вовсе споткнулись о разное понимание того, кого ищем. Мысли витали в воздухе, но не были описаны и формализованы.

Читать далее
Всего голосов 6: ↑1 и ↓5-4
Комментарии0

GSN и dApps: Роман без газовых препятствий

Уровень сложностиСредний
Время на прочтение9 мин

Представьте себе: вы только что создали невероятное децентрализованное приложение, и оно настолько крутое, что даже ваша бабушка захотела его попробовать. Но стоит только пользователям столкнуться с необходимостью оплаты комиссии и весь UX (User Experience) стремительно скатывается вниз как мячик с горки. Блокчейн обещает светлое будущее, в котором децентрализация, прозрачность и безопасность – наши лучшие друзья, а сам заставляет платить за ежедневные операции. Представьте, если бы вам приходилось платить каждый раз, когда вы ставите лайк в соцсетях или отправляете сообщение в мессенджере. Ужас, правда? А ведь пользователи dApps сталкиваются с чем-то подобным ежедневно.

В этой статье мы разберем, что такое GSN, как он работает, и как внедрить его в свои проекты, чтобы порадовать пользователей.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Почему LLVMpipe ORCJIT важен для RISC-V?

Уровень сложностиПростой
Время на прочтение3 мин

16 июля официальный репозиторий mesa объединил MR о RISC-V, llvmpipe: add a new JIT engine based on LLVM ORCJIT, also add RISC-V support (updated)

Это радует всех пользователей RISC-V. Мы ждали патча больше двух лет, и он наконец-то вышел!

И, почему LLVMpipe ORCJIT важен для RISC-V? Давай я расскажу!

Читать далее
Всего голосов 5: ↑1 и ↓4-3
Комментарии1

Сравнение сервисов Искусственного Интеллекта

Время на прочтение47 мин

Данная сфера очень быстро развивается и, вероятно, данная статья устареет очень быстро, потому следует обозначить то что пишется она в конце мая 2024 года.

Читать далее
Всего голосов 11: ↑3 и ↓8-2
Комментарии9

Обзор новостей из соцсетей #1: забугру досталось, Дуров в турне по СНГ, бот Dogs «завирусился», Дзен не меняется

Уровень сложностиПростой
Время на прочтение6 мин

Обзор на главные новости соцсетей минувших двух недель: зарубежные соцсети никто не замедлял, Роскомнадзор потребовал разблокировать 200+ российских ютуб‑каналов, Дуров продолжает турне по СНГ, телеграм‑бот Dogs «завирусился», Telegram почти догнал ВКонтакте и другие новости.

Читать далее
Всего голосов 8: ↑4 и ↓4+2
Комментарии3

Мой путь в тестирование. Сравнение двух курсов

Уровень сложностиПростой
Время на прочтение6 мин

Великое искусство научиться многому — это браться сразу за немногое. Джон Локк

Здравствуйте, меня зовут Виталий и я хотел бы поделиться своим опытом обучения на различных онлайн-платформах. После 20 лет работы в сфере связи и телекоммуникаций, решил сменить вид своей деятельности. Выбрав для себя профессию QA-инженера, я имел счастье поучиться в двух школах. Они настолько разные и по подходам к обучению и по организации самого процесса обучения, что думаю, читателям, особенно тем, кто задумывается о приобретении профессии «QA инженера», будет интересно сравнить различные подходы.

ВПЕРЕД
Всего голосов 9: ↑6 и ↓3+5
Комментарии14

Виды инфраструктуры для развертывания автоматизированных систем

Уровень сложностиСредний
Время на прочтение4 мин

Работая с менеджерами в сфере ИТ, обнаружил, что часто отсутствует системное представление о видах инфраструктуры, которая необходима для развертывания автоматизированных систем (АС). Вследствие этого возникают ошибки в планировании разработки и развертывания АС - некоторые виды инфраструктуры упускаются из внимания: не учитываются в проектах, не запрашиваются технические условия, не согласовывается использование, отсутствуют договоры на использование нужной инфраструктуры и т. п. Также возникают ошибки в распределении ответственности при эксплуатации развернутой АС, когда часть инфраструктуры оказывается «ничейной», потому что о ее обслуживании забыли договориться.

Для того, чтобы облегчить жизнь специалистам, с которыми приходилось работать, я создал простую иерархическую диаграмму, которой хотел бы поделиться с общественностью. Она хороша для учебных целей или для быстрой оценки проекта.  Диаграмма показана на Рисунке 1. Данная диаграмма наглядно представляет, какие виды инфраструктур существуют, и дает разбивку АС на 5 типов, в зависимости от используемых видов инфраструктуры.

Читать далее
Всего голосов 3: ↑2 и ↓1+3
Комментарии3

Мы сопоставили языки программирования с специализацией World Of Warcraft

Уровень сложностиПростой
Время на прочтение2 мин

Привет, друзья разработчики и геймеры!

Мы с командой разработчиков "*** Telecom" решили весело и с увлечением сопоставить языки программирования с классами из мира World of Warcraft. Почему бы не объединить наше любимое хобби с нашей профессиональной деятельностью? Давайте вместе погрузимся в этот волшебный мир и узнаем, как каждый язык программирования может быть аналогом одного из классов в WoW!

Читать далее
Всего голосов 18: ↑6 и ↓12-5
Комментарии15

Что такое интеллектуальная собственность и какие виды интеллектуальной собственности бывают?

Уровень сложностиПростой
Время на прочтение7 мин

Что такое интеллектуальная собственность?

Интеллектуальная собственность (ИС) – это широкое категориальное описание совокупности нематериальных активов, принадлежащих компании или физическому лицу, которое юридически защищено от постороннего использования или реализации без согласия правообладателя интеллектуальной собственности.

Концепция интеллектуальной собственности связана с тем фактом, что определенным продуктам человеческого интеллекта должны быть предоставлены те же охранные права, которые применяются к физическому имуществу, называемому материальными активами. В большинстве развитых стран приняты правовые меры для защиты обеих форм собственности.

Читать далее
Всего голосов 11: ↑7 и ↓4+6
Комментарии31

Место забавных ситуаций в жизни или сертификация у PT

Время на прочтение3 мин

Забавная по сути своей ситуация получилась при работе с Positive Technologies. Согласно требованиям партнерских программ, я проходил необходимые сертификации на их сайте edu.ptsecurity.com и по старой доброй привычке решил просмотреть тела и хедеры запросов, которые отправляются на сайт при переходе по различным ссылкам. Burp Suite всегда отлично помогал в решении такого рода задач, он не подвел и в этот раз =)

Читать далее
Всего голосов 8: ↑8 и ↓0+10
Комментарии3

Фокусы с опторазвязкой

Уровень сложностиСредний
Время на прочтение7 мин

Нюансы оптронной развязки, борьба с её недостатками и интересный на мой взгляд костыль: как разогнать скорость копеечной опторазвязки и наполучать других бонусов. Я не силён в рекламе, поэтому на месте КДПВ будет сразу тема статьи.

Читать далее
Всего голосов 84: ↑83 и ↓1+108
Комментарии52

От любви к играм до становления разработчиками игр: история страданий инди команды 2V Studio длиною в год

Уровень сложностиПростой
Время на прочтение4 мин

Все мы в детстве мечтали сделать свою игру, а кто-то даже пробовал что-то сделать в различных конструкторах. Мы проводили часами в мечтаниях, как сделаем свою игру мечты, как станем богатыми, как о нас услышат все игроки мира. Но с взрослением эта идея угасала или же выбрасывалась в мусорку к другим нереализованным планам. Наша же команда одна из того мизерного количества людей, которое всё-таки решило воплотить свою мечту в жизнь.

Читать далее
Всего голосов 6: ↑3 и ↓3+2
Комментарии2

Опыт обучения в магистратуре МФТИ «Управление IT-продуктом». Обзор первого семестра и появление стартапа ZNATNO

Уровень сложностиПростой
Время на прочтение5 мин

В октябре 2023 г. стартовала учеба. Это полностью онлайн-магистратура очного формата при МФТИ. Я сразу стал вести дневник и фиксировать кол-во часов, которое я вкладываю в обучение. Делюсь с вами.

Читать далее
Всего голосов 3: ↑2 и ↓1+3
Комментарии5
1
23 ...