All streams
Search
Write a publication
Pull to refresh
5
0
Сергей Лурье @Archelephant

Исследователь, популяризатор. DS (NLP), IoT

Send message

Простите, а можете прислать ссылочки на публикации про 3D-печать 40-летней давности? И чтобы дети могли делать... Спасибо!

Можно. Эти эксперименты мы ставили параллельно с динамическим подбором фьюшотов

Все верно.

Самая хитрость в подборе достаточного размера сегмента для векторизации - чтобы он был не слишком большим (иначе часто будем находить похожие друг на друга фрагменты) и не слишком маленьким (во-первых, схема данных становится сложной, да и вычислительных мощностей потребуется овердохрена).

Ну и храним таблицу соответствия вектора и индекса в эластике, чтобы после того как по вектору нашли близкий, по индексу из эластика достаем соответствующий текст, а уже этот текст подставляем в LLM.

Ну, во-первых, конкретно GigaChat, в том числе, дообучен на юридических текстах и юридических инструкциях. Благодаря чему в конце позапрошлого года сумел сдать тестовую часть квалификационного экзамена на адвоката.

Во-вторых, "шаг 1, шаг 2, шаг 3" - это уже не про LLM, это про некоторую цепочку рассуждений. LLM сами по себе в это не умеют, потому что они, как правило, языковые модели, поэтому надо либо человеку прописывать цепочку на LangChain и ей подобным (мы, например, предпочитаем Kor на текущий момент). Либо делать агента. Но тогда можно попасть на очень большой вычислительный overhead и слишком большое время ожидания ответа конвейера. Поэтому, кстати, некоторые факты вообще вредно с помощью LLM извлекать, для этого вполне подходят BERTы.

В-третьих, тут прозвучало предположение, что есть "нормальный юридический канцелярит, который потом ни в одном суде не прошибешь". Я, конечно, не юрист, но мой четырехлетний опыт работы с юридическими текстами показывает, что скорее, таковая сущность если и существует, то из разряда "черных лебедей", то есть, статистически непререзентативная.

Поэтому для принятия решения цепочка выстроена так (там в начале статьи есть ссылочка на публикацию прошлого года), что берем документ - извлекаем факты - пишем правила принятия решения для фактов. Правила принятия решений пишут юристы на мета-языке с целью ухода от амбивалентности.

Может, когда-нибудь, юристы ко-эволюционируют до того, чтобы и законодательство писать не-амбивалентно, но пока работаем с тем, что есть.

Когда я учился на физфаке, у нас ходила байка, что (кажется, это был Планк) одного впоследствии знаменитого физика попросили определить ускорение свободного падения с помощью барометра и он придумал штук пять разных способов применения этого барометра, помимо собственно измерения давления: привязывал его в качестве груза на маятник, использовал в качестве эталона длины и т.д. и т.п.

Хотя, казалось бы, можно было просто посмотреть в справочнике, да...

Ах да, забыл упомянуть: в открытом доступе ТТХ встроенных в умную розетка Сбера АЦП не найти. Так что способ не подходит, сорри. Ну и, опять же, свет клином на Сбере не сошелся - как уже было сказано выше, можно для своих экспериментов взять любую другую розетку.

Хах, прошу прощения, сделал прозрачным фон...

Во-первых, данные в Сбер в этом эксперименте не отдаются. Там есть ссылочка на репку в гитхабе - все собирается и обрабатывается локально.

Во-вторых, данные можно брать не только с розетки Сбера. Лично меня поразило то, что если еще лет пять назад для такого эксперимента нужен был мультиметр, способный писать логи (стоил около 100 баксов), то сегодня эти данные можно брать с розетки стоимостью до 20 баксов.

Есть умельцы, которые подключают любые розетки (в том числе и Яндекса, и Сбера) к Home Assistant - или тот же эксперимент можно собрать вообще на Arduino (https://lourie.info/?p=536). Но мне было интересно посмотреть, хватит ли точности встроенного в розетку АЦП, чтобы на нем какую-то поведенческую статистику собирать. Собственно, пост про это. Наверное, можно было бы сделать короче и четче - тут критика принимается.

Да, это действительно пока исследование и нет никакой уверенности в том, что паттерны энергопотребления не будут уникальными для каждого отдельно взятого устройства и работающим за ним пользователей. Это нам еще предстоит выяснить...

1) В данном случае речь о необратимом обезличивании. Восстановить обратно только по сумме операции за определенную дату не удастся, т.к. и сумма, и дата будут изменены. К тому же есть вероятность двойственности. Есть задачи, в которых суммы не нужно обезличивать, и задачи, в которых есть ограничения на даты. В Сбере с этим строго - нужно обезличивать все, но для конкретного клиента вне Сбера можно обсудить варианты.

2) Мы проверяли качество NLP/NER-моделей, обученных на необезличенных и обезличенных данных, по F1-мере. Она несколько падает. Но не фатально. Наш коллега делал про это доклад два года назад https://aclanthology.org/2021.ranlp-1.45/

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity

Specialization

Product Manager, Data Scientist
Senior
Python
PostgreSQL