Pull to refresh
37
0
Антон@SnakeSolid

User

Send message

Индексация: разбиваем загруженный документ на фрагменты: текст на абзацы, таблицы по несколько строк, при необходимости переводим фрагменты на английский. Для каждого фрагмента считаем ембеддинги и складываем все это в базу со ссылками на источник.

Поиск: Считаем ембеддинг для запроса пользователя, в зависимости от языка переводим. Находим ближайшие к нему фрагменты в базе. Передаем модельке найденные фрагменты и просим ответить на вопрос пользователя, указывая ссылки на источники. Чтобы модельке было проще ссылаться на источники присваиваем их номерами вида #1, #2 и т.д.

В итоге получается некий аналог perplexity.ai, только работает локально с теми документами, которые в него загрузил пользователь.

Примечания

Ембеддинги - nomic-embed-text, моделька - gemma2, база - ChromaDB, перевод через запрос к модельке такого вида: "{text} Translate this text into {language}, maintaining the context and style. Write only text without an introduction and conclusion.", основной язык - английский все переводится на него и обратно.

Основное ограничение - размер контекста модельки. У gemma2 это 8192 токена, поэтому запрос вместе с фрагментами я стараюсь вписать в 24кб. Так как у ollama не нашел способа посчитать текущее число токенов.

Поиск по документам, перевод комментариев в коде (с китайского на английский), перефразирование в разных стилях, генератор фраз и продолжение диалога для знакомств. Еще хочу свою локальную читалку перевести на нормализацию текста с помощью LLM, чтобы от кучи правил преобразования избавиться.

Подскажите, на сколько хорошо работает TTS у таких читалок? Как он читает даты, числа и аббревиатуры, если в русском предложении есть английские слова они читаются на рунглише или на английском, какие есть настройки (скорость, голос, язык).

Да, если не хотите делиться своими данными или нет возможности работать с ChatGPT. Я для своих проектов локальную ollama на своем компе держу, пока всем доволен.

Я себе скрипт написал для GraceMonkey, который при изменении DOM делает document.querySelector("video").playbackRate = 4.0; , теперь на любом сайте смотрю ролики на четвертой скорости.

Если T-Head добавит в свое расширение поэлементные операции над матрицами (+, -, *, /) и поддержку int и float типов, то они закроют большую часть возможностей RVV. Не рассматривается ли вариант слияния этих расширений в одно или разделения функций?

Ускоряют ли матричные расширения популярные сейчас модели с квантизацией?

На сколько я понимаю более сложные функции вроде softmax, maxpooling и sigmiod, все равно реализуются циклом элементам или для них тоже если какие-то оптимизации?

В текстовом режиме все работает в терминале тоже (с юникодовыми шрифтами). У них на сайте, на главной странице, анимация из консольного режима есть. В принципе можно скачать AppImage и проверить на своем сервере.

Мне нужны были дескрипторы лиц, но понимания какой из них лучше подойдет для лайков у меня не было. Увидел, что DeepFace позволяет разные сети попробовать и для распознавания и для расчета десткрипторов. Поэтому ее и взял - попробовать разные варианты и выбрать тот, который будет лучше работать.

Сейчас у меня дескрипторы лиц используются для определения лайк/дизлайк через простую нейросеть. В планах попробовать дескрипторы лиц кластеризовать, в расчете на то, что получится несколько типажей из которых я смогу в ручную указать какие мне нравятся, а какие - нет. С кластерами более понятный для меня вариант, сразу видно кого будет лайкать, а вот нейросеть непонятно из каких предпосылок исходит, поэтому ей приходится занижать порог.

PS: мне еще хотелось как-то вес определять, но готовых сетей для этого не нашел. Поэтому он тоже через llava пойдет, наряду с первой фразой для знакомства.

Писал я подобную штуку для нескольких сайтов (репка), но у меня еще распознавание лиц на фотографии через DeepFace сделано.

Как мне кажется, сейчас такая автоматизация - это единственный способ пользоваться приложениями для знакомств. Из-за очень низкой конверсии из лайков в матчи, приходится либо весь день сидеть и лайкать, либо автоматизировать. Я, для себя, выбрал второе.

PS: сейчас приделываю распознавание фотографий через llava, чтобы узнавать есть ли на фотографии татуировки, сигареты и другие интересующие меня параметры, через текстовые запросы.

Что если взять какую-нибудь открытую модель, например, Code Llama и дообучить на имеющемся коде 1С? Синтаксис более-менее похож на другие языки, к тому же если модель открытая, ее можно будет использовать локально, что сейчас актуально. Может кто-то уже проводил такие эксперименты, интересно насколько получается качественный результат.

Насколько я понимаю это простые операции над векторами (a + b * c может быть одной операцией для видеокарты, которая вычисляет результат поэлементно, а не отдельно умножение потом сумму) и dot product (можно свести к умножению матриц (1,N) * (N,1)).

У меня тоже Firefox, из расширений стоит только uBlock. После блокировки видео ставится на паузу, но его можно запустить/остановить с экрана блокировки как в обычном плеере.

Насколько я понимаю ваш сервис - аналог perplexity, только на основе поиска Яндекса. В связи с этим возникают вопросы:

  • Есть ли значимые отличия от упомянутого perplexity (за исключением языка);

  • Будет ли возможность работать с Нейро в виде сайта или плагина для тех кто пользуется браузерами Firefox и Chrome;

  • Насколько хорошо Нейро работает с вопросами программистов, дает ли он примеры и ссылки на документацию или только то, что было в первых результатах поиска;

  • Каков будет ответ Нейро если в результатах поиска имеются противоречивые ссылки (например, "табы против пробелов"), какая точка зрения будет предоставлена пользователю, будет ли упоминание о том что есть другое мнение?

Все же для начала лучше брать Cetus или использовать раму с защитой. Особенно если это первый FPV дрон и планируется летать в помещении рядом с людьми/животными. Открытыми вентиляторами можно не только мебель и чужое имущество покромсать, но и сгладить себе выступающие части тела.

В свое время первым дроном я взял Cetus X именно из-за наличия защиты и много раз сказал себе спасибо за такой выбор.

Есть такая штука как парадокс гендерного равенства смысл в том, что в тех странах где уровень жизни не зависит от выбора профессии, женщины выбирают более "женские" профессии, связанные с общением и людьми, а мужчины более "мужские", связанные с конкуренцией и наукой. Есть мнение, что это связано с историческими стереотипами в воспитании, при этом прямых исследований предрасположенности к разным видам деятельности в зависимости от пола, которые бы показали отсутствие предрасположенности, я не нашел.

Недавно ребята из Stanford Medicine (статья, исследование) решили попробовать обучить нейросеть распознавать пол по МРТ мозга (фактически узнать есть ли различие в работе мозга между полами). В итоге нейросеть показала 90% точность (но там было всего 1 500 испытуемых, хотелось бы больше). Там же показано в каких областях мозга имеется отличие в активности у мужчин и женщин.

Недавно Клаудия Голдин получила Нобелевскую премию по экономике за исследование зарплат женщин. Так вот женщины получают меньше потому что у них есть выбор рожать или нет, отказавшись от этого выбора в пользу карьеры женщины начинают получать столько же сколько мужчины.

И лично мне подозрительно, что внимание обращают на видимость женщин только в условно хороших профессиях, где нужно можно сидеть в офисе и получать хорошие деньги. Ни кто не говорит про женщин в дальнобойщиках, таксистах, строителях или плотниках.

В WYSIWYG редакторе - добавить спойлер (символ плюса перед пустой строкой) и положить в него картинку. В Markdown - не знаю.

На картинке

Там один мотор крутит ногу, второй (поверх первого) через цепь/ремень/тягу крутит сустав. Сейчас это самая распространенная схема.

Выглядит так

Можно добавить к карте дополнительное значение - расстояние до ближайшего не пустого блока (по типу signed distance field), тогда можно будет пропускать сразу несколько пустых блоков и быстрее приходить к занятому. Либо организовать все в виде octree, там не только можно пропускать большие пустые блоки, но и упрощать детализацию на больших расстояниях, но деревья в шейдеры запихать будет сложнее (все же Хуанг их как-то хранит).

Mixtral по большей части себя неплохо показывает. При желании ее уже сейчас можно локально запустить, если памяти хватит (для Q2 нужно 15Гб, для Q4 - 25Гб). Правда по скорости она без видеокарты сильно отстает от облачных.

Если сравнивать картинки до/после, там хорошо заметен шум добавляемый на изображение. Скорее всего минимальное преобразование изображений сломает эту защиту, на reddit уже пишут, что защита обходится удалением шума.

Information

Rating
Does not participate
Date of birth
Registered
Activity

Specialization

Десктоп разработчик, Системный инженер
Ведущий
Java
Linux
Алгоритмы