Статьи / Закладки / Профиль NNikolay / Хабр

@NNikolay

Пользователь

Профиль Публикации 6Комментарии 383Закладки 54

zzzneg 4 окт 2023 в 12:00

В борьбе со сложностью, или Как обуздать лог-линейный алгоритм (со ссылкой на код)

Сложный

14 мин

2.5K

Программирование*Анализ и проектирование систем*Алгоритмы*Блог компании m2_tech

Кейс

В этой статье я расскажу об алгоритме, который помогает нам решить задачу дедупликации данных без идентификатора, дам контекст решаемой проблемы и словесное описание алгоритма с визуализацией. Реализацию алгоритма можно посмотреть по ссылке в заключении.

Алгоритм решает простую задачу. Он объединяет персональные данные из разных систем и получает на выходе «золотую запись». Делает он это в батчёвом и транзакционом режимах с приемлемой вычислительной сложностью, несмотря на принадлежность к формальному классу комбинаторных алгоритмов.

«Золотая запись» выступает в дальнейшей цепочке обработки данных в качестве уникального ключа. Это позволяет решить на масштабах компании задачу сопоставления ранее несвязанных событий, что даёт профит бизнесу как напрямую (через лучшее понимание клиентского пути), так и опосредованно через лучшую организацию аналитики и выстраивание предиктивных моделей.

+12

3Dvideo 17 дек 2019 в 10:11

Deep Fake Science, кризис воспроизводимости и откуда берутся пустые репозитории

13 мин

60K

Open source*Big Data*Машинное обучение*Научно-популярноеИскусственный интеллект

Технотекст 2020

Я мирно сидел на семинаре, слушал доклад студента о статье с прошлого CVPR и параллельно гуглил тему.

— К достоинствам статьи можно отнести наличие исходного кода….
Пришлось вмешаться:
— Наличие чего, простите?
— Э-э-э… Исходного кода…
— Вы его смотрели?
— Нет, но в статье указано…
~~(мать-мать-мать… привычно отозвалось эхо)~~
ㅡ Вы ходили по ссылке?

В статье, действительно, предельно обнадеживающе написано: “The code and model are publicly available on the project page …/github.io/...”, — однако в коммите двухлетней давности по ссылке значится вдохновляющее «Код и модель скоро выложим»‎:

Ищите и обрящете, стучите и откроется… Может быть… А может быть и нет. Я бы, исходя из печального опыта, ставил на второе, поскольку ситуация в последнее время повторяется ну уж о-о-очень часто. Даже на CVPR. И это только часть проблемы! Исходники могут быть доступны, но, к примеру, только модель, без скриптов обучения. А могут быть и скрипты обучения, но за несколько месяцев с письмами к авторам не получается получить такой же результат. Или за год на другом датасете с регулярными скайп-звонками автору в США не удается воспроизвести его результат, полученный в наиболее известной лаборатории в отрасли по этой теме… Трындец какой-то.

И, судя по всему, мы пока видим лишь цветочки. В ближайшее время ситуация кардинально ухудшится.

Кому интересно, ~~что стало со студентом~~ куда катится научный мир, в том числе по «вине»‎ глубокого обучения, добро пожаловать под кат!

Резюме