Search
Write a publication
Pull to refresh
28
0
Pavel Tsvetkov @tsvetkovpa

Technical Project Manager

Send message

В бытность свою студентом строительного факультета обрел навык срезания туши лезвием для бриться с минимальным повреждением бумаги.

Эх... хорошее было время

Спасибо. А я ищу плату на основе ESP32 с низким током утечки.

Пробовал собрать девайс на основе LILIGO T-Display, который большую часть времени проводит в режиме глубокого сна, который по спекам ESP32 должен потреблять микроамперы.

Но, к сожалению, переферия этой платы, даже в режиме глубокого сна потребляет ток, который высаживает 18650 за пару недель, даже если девайс не трогать.

Ищу теперь плату с минимальным током утчеки

А от чего питаете?

В плане генерации голоса посмотрите на XTTS v2 или на этот проект на ее основе https://github.com/DrewThomasson/ebook2audiobook

Прелесть в том, что можно скормить 6 секунд образца голоса, и потом им зачитывать текст

А как тут работает версионирование, командная работа? Авто-тесты?

Можно собирать колекцию любимой музыки на сервисе годами, а потом правообладатели что-нибудь не поделят с сервисом и ваша коллекция накроется медным тазом.

За годы у меня пропали множество композиций из коллекций Youtube.Music и ему подобных

Отсылка к болотам намекает, что ревьюэр был из Украины.

Из того что хотелось бы поменять, наверное только подход к дообучению. Т.е. не учить на том, что модель разметила. А то получается что из всего набора новостей она отбирает процентов 10%, с явным смещением в сторону науки и техники, и они же потом с моими лайками-дислайками добавляются в датасет, из за чего там со временем растет пропорция таких новостей и распределение начинает отличатся от изначального, когда я руками размечал все подряд.

Видимо надо, чтобы она подкидывала случайные новости в телеграм и именно их добавлять в датасет. Обычная проблема Exploration vs Exploitation.

Текст для классификации формировал из заголовка и той части текста статьи, который был доступен в RSS (в некоторых фидах только заголовок).

Код писал пользуясь этим примером. https://huggingface.co/docs/transformers/en/training

Первый пайплайн собрать довольно быстро. Больше времени писал сбор и хранение данных. Ну и потом игрался с подбором параметров обучения.

Из моих отличий. Датасет сильно несбалансированный по классам. Пришлось добавить Sample Weights.

У видяхи всего 8 GB Ram, влезал батч максимум на 6 сэмплов. Использовал Gradient Accumulation (слава богу transformers это умеет из коробки, просто параметр включить), подобрал оптимальный батч 384 сэмпла.

Обучение проводил в два этапа. На первом этапе учил только слои классификатора и замораживал все остальное.
На втором этапе размораживал слоит трансформера, но оставлял замороженными эмбеддинги токенов. И уменьшал шаг обучения.

Смотрел по тензорборду на метрики и выбирал модель, которая нравилась мне по метрикам.

Ввёл кастомную метрику качества, сколько процентов статей мне придется просмотреть по порядку, если их отсортировать по скору от нейросетки, прежде чем я найду 90% от всех интересных статей.

Использовал предобученную модель от Сбера https://huggingface.co/ai-forever/ruBert-base в режиме классификатора.
Использовал библиотеки pytorch и transformers для файн-тюнинга.

Первичный датасет разметил при помощи Doccano, потом система вошла в закрытый цикл и стала учиться на лайках/дислайках, которые я ставил в Телеграме.

Обучение на GPU на ноутбуке. Инференс на CPU на файлопомойке от Synology в докере.

Схема работы получается примерно такая.
По таймеру система просыпается, скачивает новости с RSS каналов, прогоняет через нейросетевой классификатор, и если вероятность полученная от классификатора выше порогового значения, то присылает мне ссылку в Телегу.

Там я могу полайкать-дислайкать - эта инфа ложится обратно в базу новостей и используется для дальнейшей обучения.

Переобучение запускал руками время от времени. Перестал это делать когда датасет разросся до примерно 20 тыс. Работает больше года так.

Пару нет назад тоже дошёл до осознания проблемы перегрузки информацией из новостей и запилил себе нейросетевой фильтр, который читает RSS фиды и постит мне в Телеграм, что потенциально мне понравится.

К сожалению мое решение не скейлится - пришлось руками разметить около 4000 новостей, прежде чем он начал приемлемо работать.

Для публичного продукта надо подходы типа коллаборативной фильтрации использовать.

Британский Роскомнадзор aka. Ofcom так же без суда оштрафовал Russia Today в 2019 году. А в 2022 отозвал лицензию на вещание, тоже без суда.

И все демократично.

Те же ценности, которые проповедует демпартия США, спонсором которой является Alphabet Inc, который владеет Ютюбом.

Можете легко нагуглить официальную отчетность с последних выборов президента США. Там Alphabet Inc. указан как один из спонсоров предвыборной кампании Камалы Харрис.

Рассмотрим две ситуации. Американский регулятор или спецслужбы просят Youtube заблокировать пророссийиский канал на территории США за нарушение американского законодательства.

И, аналогично, российский регулятор просит Youtube заблокировать какой-то канал на территории России, за нарушение российского законодательства.

Какой из запросов должен выполнить Ютюб. И что произойдет,если он этогл не сделает?

Я больше скажу. Гугл мог бы выплатить штраф год назад и выполнить требования регулятора. Или оспорить решение суда в Верховном суде. И не надо было бы никакого VPN.

У нормального бизнеса принято выполнять требования местного законодательства. Dura lex - sed lex. В Пакистане, например, европейские банки работают по правилам халяльного банкинга и не чирикают.

Думаю, ютюб таки решил слиться таким образом. Типа это не мы ушли - это нас ушли. Они давно не показывают рекламу на российскую аудиторию - читай, не получают прибыль. А так, возможность уйти сохранив лицо и (*надевает шапочку из фольги*) уколоть российске руководство, ибо Alphabet Inc. спонсор демпартии США.

Из относительно свежего Phoenix Point имеет отсылки к Югготу и ссылается на Лавкрафта

Может Интел решил закрыть офис в Израиле, из-за геополитических рисков.

Отбираем плюшки. Не платим бонусы. Не промоутим.

Глядишь - большая половина сбежит сама. Можно будет сэкономить на выходном пособии немногочисленным оставшимся.

Чтобы сравнивать, нужно посмотреть по соотношению арестов и приговоров.

У нас много дел закрываемся до суда, если прокурор не уверен что выиграет.

Поэтому до суда доходят дела с очень большой вероятностью обвинительного приговора.

Получается смещённая выборка в сторону обвинительных приговоров.

В ранних компьютерах (80286) действительно понижала. У меня друг читерил в тетрисе, когда скорость возрастала до некомфортной, он понижал скорость CPU этой кнопочкой и фигурки начинали падать медленее :-)

Information

Rating
10,219-th
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Registered
Activity