Comments / Profile of iximy / Habr

Артур Хайруллин @iximy

User

Действительно, при однотипной структуре документов целесообразно применение предобработки данных до векторизации с целью сократить объем БД и повысить релевантность выдачи, например при помощи парсинга, суммаризации и т.п методов, основной критерий это сохранение качества извлекаемых из документов данных, что в некоторых доменах, например медицина может стать критичным

Look

Быстрое локальное развертывание DeepSeek

iximy Feb 5 at 05:44

Ставил локально r1:7B модель, тестировал под Q&A RAG, в довольно простых запросах модель щедро разбавляла русскоязычной текст, английским и китайским, та же llama3 справляется с русскоязычной генерацией намного лучше

Look

Тайны индустриальных компьютеров: ISA-слот и древние «одноплатники»

iximy Feb 5 at 05:44

PC/104 как стандарт опережали время, многослойная архитектура позволяла конфигурировать периферию на свой вкус, а размеры и промышленное исполнение позволяли интегрировать платы этого стандарта куда угодно от авто до спутников

Look

Интеллектуальные права: почему вам придется навести в них порядок

iximy Feb 4 at 15:11

Насколько линейно рост в геометрической прогрессии объема создаваемых данных влияет на количество судебных споров, связанных с защитой интеллектуальной собственности. По ссылке из статьи:

2023год - 52 620 ,
2022год - 43 608,
2021год - 33 863

При этом в 2022 году больше 10% споров инициировал один заявитель

Look

Авторские права на контент, созданный искусственным интеллектом: что нужно знать

iximy Feb 4 at 07:03

Вопрос интересный, особенно с учетом того, что в последнее время чаще начинают заявлять о возможном нарушении авторских прав на произведения, которые были использованы для обучения AI моделей. Фактически генерация не является переработанным произведением, но с позиции самой модели, AI модель при генерации заимствует именно фрагменты - токены из этих "нелегальных" датасетов, а не генерирует из набора символов. По сути речь идет о фрагментах чужих произведений, грубо говоря собранных AI по требованию пользователя, основная дилемма - могут ли такие действия могут порождать авторские права

Look

Information

Specialization