Комментарии 54
Забавно, что эта странная идея пришла кому-то ещё в голову, и зашла намного дальше.
Впрочем, теперь монетизировать можно без проблем, написав мобильное приложение. Правда выхлоп будет копеечный.
As gratitude, you can mark this repository with an asterisk
As gratitude, you can star this repository
Не то что бы там что то сильно не правильно. Просто бросается в глаза дословность.
Мне эта база никаким боком не может понадобиться, но я почему-то все равно рад, что вы ее собрали и опубликовали. Спасибо.
И могут ли свободные штрихкоды закончиться?
Не желая выдавать нужду за добродетель, сообщу, что мы рассчитывали каким-то образом монетизировать обсуждаемый справочник. Однако, заметных успехов на этой ниве за прошедшие годы нам достичь не удалось.
Почему так, если не секрет? Вот (https://www.barcodelookup.com/api) у людей, вроде как, вполне неплохие расценки за запросы к API стоят. Но, судя по беглому сравнению, у вас в базе намного меньше продуктов и меньше информации по каждому из них — правильно ли я понимаю, что это основная причина ваших проблем с монетизацией, или есть ещё какие-то?
И ещё, прошу прощения за глупый вопрос, а скрейпинг данных крупных интернет-магазинов в качества источника информации вы не пробовали использовать? Учитывая, что у вас нет серьёзных ограничений по времени работы краулера и вам не нужны актуальные данные о ценах (в отличие от моих задач на нынешней работе), думаю, можно было бы наскрести приличное количество данных с относительно небольшими трудозатратами (если не учитывать постобработку, конечно).
1 Invalid utf8 character string: '(z80-76-841/2) бумага albeo engineer paper, инженер' SQL1.sql 1 1
убираю остатки этой строки, появляется
1 Invalid utf8 character string: '3963351/5 противень универсальный 350x 370' SQL1.sql 1 1
я сделал несколько проверок — (для быстроты использовал первый файл из "набора")
открыл его в LibreOffice и просто сменил шрифт (к сожалению не обратил внимание на какой) — в результате проявились строки с "кривыми символами", причём и нормальные русские символы присутствовали. Есть подозрение, что есть строки и с UTF8 и с UNICODE. просто нулевые байты не отображаются в некоторых шрифтах. а в других воспринимаются как двухбайтовые.
я из LibreOffice "сохранил как" выбрал фильтр…
после этого с помощью dbForge удалось импортировать...(были танцы с бубном....)
далее проверка
SELECT
uhtt_barcode_ref_0001_1.Name,
BIT_LENGTH(uhtt_barcode_ref_0001_1.Name) / 8 AS expr1,
CHAR_LENGTH(uhtt_barcode_ref_0001_1.Name) AS expr2
FROM uhtt_barcode_ref_0001_1
ORDER BY expr1 DESC
|"28пан мороженое змж ванильно-шоколадное с прослойками джема киви и крыжовника декорированное шоколадной глазурью панда, 12% 500"|"229,0000"|127|
"(л) максидин 0.15 лечение ринитов, конъюнктивитов различной этиологии, при повреждениях глазного яблока у собак и кошек 5мл*100"|"225,0000"|127
"634369/1139 пчелодар шампунь-кондиционер оттеночный для собак и кошек с белой и светлой шерстью различных оттенков концентрат 1"|"225,0000"|127
"<супер рука> [материал: алюминий, пластик, резина, максимальная длина: 81см, длина в сложенном виде: 42см, подъем предметов вес"|"223,0000"|127
"(t) ГЕКСАДОГ (Merial) 1 доза +раствор (шестивалентная вакцина против чумы плотоядных, аденовирусной и парвовирусной инфекции, л"|"223,0000"|127
"(л) дана ультра спрей для собак для профилактики и борьбы с блохами, вшами, власоедами и другими насекомыми 100мл*20 новинка"|"220,0000"|124
"2605 зоомир акваконс против улиток - кондиционер для воды надежное избавление от улиток, пиявок, гидр, плоских червей 50мл*10"|"220,0000"|125
к сожалению нормальной таблицы сделать не удалось.
но тут видно, что длина в байтах не совпадает с длиной в символах
импортирую так
LOAD DATA LOCAL INFILE 'C:/Temp/zzz/UhttBarcodeReference-20180818/DATA/uhtt_barcode_ref_0001_1.csv'
INTO TABLE xxx
IGNORE 1 LINES
выдаёт
- Invalid utf8 character string: '(z80-76-841/2) бумага albeo engineer paper, инженер'*
удалось импортировать так
LOAD DATA LOCAL INFILE 'C:/Temp/zzz/UhttBarcodeReference-20180818/DATA/uhtt_barcode_ref_0001.csv'
INTO TABLE xxx
CHARACTER SET `binary`
IGNORE 1 LINES
и "проверочный" запрос
SELECT
BIT_LENGTH(uhtt_barcode_ref_0001_1.Name) / 8 AS expr1,
CHAR_LENGTH(uhtt_barcode_ref_0001_1.Name) AS expr2,
uhtt_barcode_ref_0001_1.Name
FROM uhtt_barcode_ref_0001_1
ORDER BY expr1 DESC</source>
показывает
|229,0000|229|28пан мороженое змж ванильно-шоколадное с прослойками джема киви и крыжовника декорированное шоколадной глазурью панда, 12% 500|
хотя если вручную считать - 127 символов
вот бы интересно как?
я сделал "исследование" — загруженное ранее с CHARACTER SET binary
экспортировал в файл csv он у меня получился 384м, в то время как исходный 459м. и по новой импортировал — dbForge показывает 522м против 610м. так что я делаю вывод — у ребят проблема с кодировкой. и к тому же обрезает по 127 символов. это тоже не спроста…
и ещё в их ID дубликаты :)
и еще сделал такой запрос
zzz.Name ,
zzz.ID,
zzz.UPCEAN,
zzz.CategoryID,
zzz.BrandID,
zzz.BrandName
FROM zzz
WHERE zzz.Name LIKE '%аспирин%'</source>
в "первоначальном" импорте поиск 50 сек, в "повторном" импорте 10сек. что так же говорит о проблемах с кодировкой.
может быть дело в изначальных параметрах создаваемой таблицы?
я первым делом это всё перепробовал
Я, правда, волшебником импорта пользовался
возможно он игнорирует ошибочные данные?
А ещё зачинается GS1 Cloud, где всё это будет с API?
И ean'ы не все (4041485044338 например — вполне популярный товар).
Весь список вы скорее всего не получите, соответственно, к примеру, сложный анализ большой выборки наименований провести будет не просто (или невозможно).
Можно продолжить.
Но самое главное, мы просто дарим справочник тем, кому он нужен. Кому — нет, тот ничего не теряет.
Тогда просто вопрос по теме — получается, если по шк 4041485044338 товар не бьётся через GS1 — значит, он там не был зарегистрирован, а просто «придумался» у производителя? или когда то был зарегистрирован, а потом потерял свою подписку?
И получается, что по сути, можно хоть 100 таких незарегистрированных товаров по одним шк вывести на рынок — от посудомойки до филе минтая — но это же официально ничего не значит, никакой реальной коллизии по сути не будет?
Тема регистрации штрихкодов у разных организаций относительно недавно обсуждалась на хабре. Мне к этому нечего добавить. В этой идентификации важен не столько официальный регистратор, сколько фактическое принятие операторами рынка.
а) Префикс — русское наименование товара.
б) Наличие артикулов товаров в базе (они для нас гораздо более критичны, нежели штрих-коды. Особенности проектного бизнеса)
в) Возможность мэпить имеющиеся товарные труппы на свои.
г) Хорошая структурированность по части «ИТ товаров»
Ну и адекватная цена :)
PS. А то надоело читать бухгалтерии/помощницам менеджеров краткий курс «товароведение ИТ товаров». А заодно искать — что же они в этот раз накреативили в процессе переноса спецификации из проектной документации в 1С :)
Вон, например, у Icecat в открытом доступе база 29 млн товаров, из которых у 12 млн есть хоть один EAN.
Подробности тут: iceclog.com/coverage-analysis-of-your-catalog
Может такое есть, но я не нашла. Есть сервисы отзывов, где товары каждый заводит кто во что горазд, есть личные списки покупок, где нет общих отзывов, есть приложения для ведения домашнего баланса… а вот объединить бы все это дело по штрих-коду, такое возможно вообще?
База данных штрихкодов скачать бесплатно без регистрации (и прочей хурмы)