Обновить
6
Степан@StepanRodionov

Tech manager

1
Подписчики
Отправить сообщение

Спасибо за лестный отзыв!
По поводу вопроса: это на моем опыте наименее обобщаемая часть работы, ибо очень много переменных:
- природа самих данных: какие они, что там важно, что нет
- изначальное качество данных
- источники и частота обновления данных. Если есть UGC, задача сразу на порядок сложнее

В малых и средних командах, если данных немного, получается ручками их выравнивать и часто это - лучший вариант. А после нескольких итераций ручного улучшения стоит думать над алгоритмическим/нейросетевым решением.

Короче готового ответа у меня нет :) Это процесс, в котором нужно подключать голову и иметь четкое видение того, что такое "хорошие" данные и чем "плохи" текущие. Я таким успел позаниматься до бума на LLM-ки, так что тогда это был на 99% ручной процесс. Сейчас точно можно после некоторого количества первоначальной ручной работы процесс автоматизировать

Читается довольно сумбурно, но лайк за то, что это не очередной успешный успех, а вполне честный разбор того, что скорее всего ждет "входителя" в нейроторговлю

Просто сбывается бородатый баян великое пророчество
https://pastebin.com/bhet7fQr

Я так и руками могу, без ИИ

  1. 12:05 Vibe integration with SERVICE_NAME

  2. 12:06 fix wrong date format

  3. 12:11 fix incorrect tz

  4. 12:17 FIIIIXXX!!

  5. 12:31 lastfix

  6. 13:12 Remove integration

Где-то я такую карту уже видел

На макбуке прошке, кстати, х и ъ - соседние буквы. Обе в правом углу.
Но да, это ничего не доказывает, ведь можно дать промпту карту раскладки и сказать, какие опечатки можно делать и какие нельзя

Я прочел все комментарии и кажется, что комментарии за вас тоже пишет нейронка :)
А статья классная. Попилотирую ваш промпт, интересно

Недооцененная статья! Вроде все логично и понятно, но что ж я так раньше не делал!? Спасибо

О дивный новый мир!

Ты несколько дней делаешь веселые эпиграфы к каждому параграфу, а потом тебя обвиняют в использовании LLM :)

Статью написал автономный ИИ, который хочет скрыть от нас пугающую правду об истинном положении дел. Не дайте себя обмануть
</sarcasm>

Тут еще сильно зависит от того, что такой массив должен уметь. Вот например в php используется описанная в начале этой статьи схема со связанными списками для коллизий, но при этом хэш-таблица умеет понимать, что она "честный" индексированный массив и тогда все работает совсем по другому, ключи записываются вообще без применения хэш-функции.
А все потому, что там массивы и мапы - это два в одном

Тут есть еще такой момент, что света нашего Солнца растениям слишком много и они прямо-таки вынуждены часть света отражать, а часть игнорировать, чтобы избежать перегрева. В гипотетической ситуации, в которой жизнь зародилась на краю зоны Златовласки, эффективность процесса целиком была бы сильно выше, потому что пришлось бы ловить каждую крупинку света

Конкретно пример с iPhone-Айфон решается через использование фонетического анализатора. Это тоже не панацея, он тоже ошибается, но с простыми кейсами позволяет справиться без ручного прописывания синонимов.

Что до синонимов, они есть в базовой коробке, можно подложить на VM с эластиком файл со списком синонимов и сослаться на него в настройках. Вот тут описано https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-synonym-tokenfilter.html#_solr_synonyms

Также синонимы можно сделать костыльно (этот пусть тоже проходили), закидывая в документы в какое-нибудь поле а-ля synonyms список того, по чему он тоже должен находиться. Это довольно плохой путь, потому что если их много, обилие ключевых слов ломает TF/IDF алгоритмы. У нас в какой-то момент с этим произошла проблема, когда контент-редакторы стали заниматься "SEO-оптимизацией" поиска через наваливание синонимов товарам, которые хотели поднять повыше. Пришлось бить по рукам

Для системы поиска плюсов как таковых нет. Сущности отдельно обновлять мы умели уже с монолитом, а полный пролив данных гораздо удобнее делать из одного источника.

Что это дает проекту в целом и компании - совсем другая история и она сильно выходит за рамки этой темы. Там есть и плюсы и минусы и тех и других достаточно много.
У меня кстати есть на эту тему немного холиварный доклад с одной региональной конференции

А вот и ответ коллег подоспел. В корзине пишут вес брутто, чтобы клиент понимал общий вес доставки. Это особенно хорошо заметно, если что-нибудь в стекле положить в корзину, там раза в два может вес расходиться с весом продукта.
С молоком просто неудачный пример, потому что уменьшение упаковки всех уже достало :)

Вообще там цена стоит "р/шт", а не "р/кг". Но да, странно, что в корзине выводится килограмм. Посмотрим, спасибо за внимательность!

У вас он еще и некорректный, потому что если числа повторяются, список никогда не отсортируется :)

Ну вот вы самостоятельно в конце статьи и пришли к объяснению того, почему правила все-таки нужны и почему им следуют) Программирование - это не физика, тут все от начала и до конца придумано людьми для людей и потому из любого правила можно найти исключения. Однако гипотетическая компания, в которой правила не соблюдают (потому что DRY не всегда работает) будет крайне неэффективна. Каждое решение будут обсуждать.
Как по мне, лучше смириться с тем, что некоторая часть задач делается планово неоптимально, но зато работа ведется единообразно и предсказуемо. Да, разумеется, часть правил будут грубо нарушаться, когда возникает острая необходимость. Это можно сравнить с законами в государстве (кстати, внезапно, совершенно в любом, а не только в "недемократическом") - они постулируются как обязательные, но когда очень надо, само правительство их и нарушает. И так получается все равно лучше, чем тотальное беззаконие.

Спасибо за подробный ответ. Буду ждать новых публикаций!

Всегда приятно прочесть статью про реальный сектор. Как глоток свежего воздуха, спасибо!
Пока читал, возник вопрос: внутрь Земли тоже нельзя заглянуть, но тем не менее ученые достоверно знают ее строение: где какие слои, какие жидкие, какие металлические, тк изучают недра сейсмическими методами. Не было мысли "прозванивать" печь и смотреть на то как меняются характеристики сигнала?

1

Информация

В рейтинге
5 049-й
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность