All streams
Search
Write a publication
Pull to refresh
4
0
Артур Хайруллин @iximy

User

Send message

Действительно, при однотипной структуре документов целесообразно применение предобработки данных до векторизации с целью сократить объем БД и повысить релевантность выдачи, например при помощи парсинга, суммаризации и т.п методов, основной критерий это сохранение качества извлекаемых из документов данных, что в некоторых доменах, например медицина может стать критичным

Ставил локально r1:7B модель, тестировал под Q&A RAG, в довольно простых запросах модель щедро разбавляла русскоязычной текст, английским и китайским, та же llama3 справляется с русскоязычной генерацией намного лучше

PC/104 как стандарт опережали время, многослойная архитектура позволяла конфигурировать периферию на свой вкус, а размеры и промышленное исполнение позволяли интегрировать платы этого стандарта куда угодно от авто до спутников

Насколько линейно рост в геометрической прогрессии объема создаваемых данных влияет на количество судебных споров, связанных с защитой интеллектуальной собственности. По ссылке из статьи:

  1. 2023год - 52 620 ,

  2. 2022год - 43 608,

  3. 2021год - 33 863

При этом в 2022 году больше 10% споров инициировал один заявитель

Вопрос интересный, особенно с учетом того, что в последнее время чаще начинают заявлять о возможном нарушении авторских прав на произведения, которые были использованы для обучения AI моделей. Фактически генерация не является переработанным произведением, но с позиции самой модели, AI модель при генерации заимствует именно фрагменты - токены из этих "нелегальных" датасетов, а не генерирует из набора символов. По сути речь идет о фрагментах чужих произведений, грубо говоря собранных AI по требованию пользователя, основная дилемма - могут ли такие действия могут порождать авторские права

Information

Rating
Does not participate
Registered
Activity

Specialization

ML Engineer, AI разработчик
Lead
From 620,000 ₽
Git
Python
Database
C++
Software development
Programming microcontrollers
C#
PHP
Laravel
SQL