Comments / Profile of avl33 / Habr

User

ProfileArticles3PostsNewsComments82

Цифровая трансформация цементного завода (ч. 3): волшебные интерфейсы и оживление железа

avl33 Jan 31 2021 at 06:22

Кармы поставить плюс нет — извини, НО пишу здесь, потому что не могу не порадоваться за качественный и грамотный подход к самому процессу выявления и анализа проблем.

Поездка за 150 км к пользователю вообще считаю героизмом, поскольку на своих рабочих местах подчиненных за 500м. палкой выгонять надо сходить, особенно теперь — короновирус же :)

0

6 способов значительно ускорить pandas с помощью пары строк кода. Часть 2

avl33 Oct 18 2020 at 06:44

Ситуация вообще интересная скалывается.
Мне кажетя, что в pandas сами ищут способ как им ускориться и как им внутренне оптимизироваться и процесс в самом разгаре. Они либо породят рядом с DataFrame ещё и DataFrameParallel, либо вольют в себя, что-то, что максимально идентично им по идеологии.

Но сперва свои, уже имеющиеся, типы доведут до 100% поддержки своими же методами и методы доведут до работы с этими типами при участии нескольких полей идентичных и разных типов.

В целом, моя личная ситуация позволяет мне подождать, когда Pandas сделают всё внутри себя, но если за годик в пандах ничего не изменится, то идти в Modin.

0

Выбираем самый удобный редактор кода Python

avl33 Oct 6 2020 at 12:19

Spyder без анаконды.

0

СОРМ. Минпромторг. Они своими Законами создают технологический прорыв Микроэлектоники в России?

avl33 Jul 31 2020 at 18:44

1. Не, не занижена.
2. Я знаю пяток мест.

Intel отложил переход на 7 нм из-за высокой цены и большого брака при производстве и будет передавать производство в TSMC.
AMD делает свои там-же, потому что другие, с кем они работают делают только 12 нм.

А Вы знаете 5-ок мест?

Мы всю дорогу говорим о разработке под производство на Тайване

Для России это не выход из ситуации. Читайте мой пост в этой ветке

0

СОРМ. Минпромторг. Они своими Законами создают технологический прорыв Микроэлектоники в России?

avl33 Jul 31 2020 at 13:39

Я вроде процитировал часть поста, которую комментирую.

Разработка чипа по нормам 5-7 нм за 20-300 млн. да хоть фунтов стерлингов — это для отрасли копейки, НО
1. я не верю в эту сумму, она сильно занижена
2. неизвестно, кто в России способен, без импорта лицензий и оборудования разработать такой чип — и тут вопрос даже не во времени, а в принципе!
3. если вдруг в России есть структура способная на это, то на самостоятельную разработку (без производства, а только с подготовкой к нему) уйдет N лет, за которые лидеры уйдут ещё дальше — и вот это критично даже с наличием лицензий и оборудования, которое никто России не поставит ни при каких обстоятельствах в настоящее время.

0

СОРМ. Минпромторг. Они своими Законами создают технологический прорыв Микроэлектоники в России?

avl33 Jul 31 2020 at 10:58

Разработка процессора по нормам 5-7 нм встанет вам в 200-300 миллионов.

По меркам отрасли — это копейки, и даже не важно в какой валюте.
Наиболее проблемный вопрос в данном случае, ИМХО — время разработки.

0

Судьбы героев

avl33 Jul 30 2020 at 13:11

Кризисные периоды и наступают именно тогда и именно потому, что всё встает на отработанные, созданные другими (читай героями) рельсы и катится, пока ситуация вокруг не изменится. А поскольку она меняется всё время, то катятся считайте всё время вниз — до следующего героя.

+3

Судьбы героев

avl33 Jul 30 2020 at 09:15

Герои со всех сторон положительные, превозмогают, совершают подвиг.

Вот абзац в тексте, который многое ставит на свои места

Или по-другому. Неуправляемые. Нарушающие все мыслимые и немыслимые правила. Не укладывающиеся в сроки. Требующие к себе особого отношения. Выскочки. Непонятные, пугающие, выводящие из себя.

Да, и — да. К сожалению — обратная сторона медали всегда есть и в данном случае она не меньше геройства, а иногда даже больше. Иногда она выбешивает даже тех, кто прикрывает героев. Но цена вопроса — либо тебя затащат на гору, либо будут многие и много говорить о том, что это невозможно сделать.

+2

Судьбы героев

avl33 Jul 30 2020 at 08:06

Жизненный материал — российский вывод. К сожалению, всё больше героев стали смотреть не в сторону России, именно из-за последнего абзаца, а не из-за врагов вокруг. Врагов они не замечают, а вот решения руководства, как следствие выводов — сказываются сразу.

-4

СОРМ. Минпромторг. Они своими Законами создают технологический прорыв Микроэлектоники в России?

avl33 Jul 29 2020 at 13:05

Проблема в том, что мы ставим приоритетом «пользователя», а государство ставит приоритетом отрасль. Если микроэлектронику не вывести на гражданский рынок, она тихо умрет, потому что военка прокормит только часть — она собственно и умирает по этой причине.

Выход на международный гражданский рынок без прохождения детских болезней и освоения своего рынка с выходом на доминирование на нём — невозможен.

Я тоже не одобряю поддержку российской электронной промышленности через законы, не важно какие, НО — те, кто следят за этим рынком, наверняка видят, что чистой конкуренции на нем уже давно нет, поэтому играть приходится, к сожалению — по их жестким правилам и на своем поле.

Да — мы все будем не рады, и нам всем будет капец как больно смотреть на то, что будут предлагать, НО — либо у нас появится свой тяжелый, конкурентный софт, а без своего железа, нам его не сделать — ограничат на взлете, либо мы уйдем в безвозвратное ИТ рабство, и ни какие прибыли не покроют покупку лицензий в нужном количестве и техподдержку…

+1

Сравниваем работу open source Python — библиотек для распознавания именованных сущностей

avl33 May 29 2020 at 11:41

>а вот для правильной работы с дефисами, тире и точками нейронку можно сделать (и делают).

А зачем для этой задачи нейронка?
Да — и с точками, нейронка не заработает.
В другой ветке был вопрос про «рис.» — это сокращенно рисунок и слово рис.
«рис.» в конце предложения с точкой практически не решаемая задача, если следующее предложения хорошо ложиться в контекст предыдущего, являясь просто продолжением мысли.

>Возможно, вы не сталкивались с данным режимом, но он намного более типичен, чем ваш режим.

Но ведь такая нейросеть должна заведомо получить низкий рейтинг доверия? Хотя да, я только неделю назад читал статью о том, что критериев оценки качества модели на сегодня не существует и это является огромной проблемой с доверием к данным, получаемым от ИИ, особенно с шибко многокритериальной оценкой.

Мой результат получен вообще без нейросети, он на ML и алгоритмах, и ИИ я пока даже не хочу прикручивать, потому что, на мой взгляд, надо сперва какую то доп. разметку сделать более расширенную и более качественную, потом новую качественную частотность получить, потом ещё прогон переразметки сделать — а вот уже потом, тренировками заниматься.

Я совсем недавно сталкивался с прототипом промышленного (для промышленных предприятий) решения, которое обучалось на малом объеме данных, а остальные были получены синтетическим путем. Видел результат, видел прогноз от машины по результатам — это всё очень печально и по моему просто трата времени, хайп какой-то.

>Так это вы маленькую нейронку по сути и сделали. В нейросети ровно та же статистика и накапливается.

Только ресурсов для обучения требует больше и постоянного пересмотра модели с учетом накопления данных — разница получается более, чем заметной, а вот результат, не очевиден

>отдельные лишние слова ( 00 копеек, власть москвы ), или вот выделили «8-800»

Для nrlpk это как раз и есть СУТЬ того, для чего он создан.

Это все остальные задачи и данные, коих на 90% больше, чем требовавшегося результата — являются сопутствующими данными для данной задачи. И все они как раз классифицированы, причем однозначно и понятно как, более того, каждый из них раскрыт по токенам, которые также классифицированы и связаны с выражением.

Это позволяет восстанавливать текст уже более насыщенный данными, чем исходный — причем данными и взаимосвязями, куда большими чем могли бы дать просто сами токены.

Там не 8-800, а 8-000 — это по тексту было 8 000 — разорванное числовое значение, которое nrlpk соединил в цельное выражение классифицировав его как NUSR (числовое выражение), а каждый его элемент в отдельности классифицировал как — NUMR (число). Смотрите детальные данные на github там все подробности как на ладони.

>Это просто вопрос терминологии. Если у вас N-gram LM, то для вас это статистика, а вот если опираетесь на knowledge base, то это уже можно называть знанием.

назвать можно, но знанием оно от этого не становится. Мы же понимаем, что один N-gramm алгоритм не решает ни одной задачи NLP.

0

Сравниваем работу open source Python — библиотек для распознавания именованных сущностей

avl33 May 29 2020 at 08:26

Я имею представление, как они работают.
У меня вопрос был в другом. Зачем их применять вот прямо везде, где ни попадя?

Если уже есть качественная разметка по NER — зачем мне нейросеть учить, когда можно после токенизаци просто состыковать слова в лоб + биграммы + n-граммы и выбрать с наилучшим результатом. По ресурсам это кратно быстрее и кратно менее затратно. В чем глубина замысла?

С «мерой», это моя орфо ошибка — по тексту если посмотрите выше, там МЭР — отсюда и был вопрос как ИИ различит «мэра города Сергея Собянина» — читай ФИО и «главу поселка Максима Горького» — читай ГЕО.

И Вы можете дать пример токенизации, которая работает на ИИ? Т.е. не алгоритмами и условиями токенизацию делают по предложениям и словам, а именно через обученную нейронку (под капотом)?

И, если у Вас для NER задачи, качественная разметка будет только на трейне, то Ваш трейн должен быть по размерам и охвату сопоставим со всем будущим продакшином, иначе вы рискуете получать результат с вероятностями ниже приемлемых и будете вынуждены его брать в работу, за неимением иного. Смотрите мой пример выше в этом комменте.
Когда речь идет просто о сопоставлении или предсказании последовательности — это одна задача и да, зависимости он определяет гораздо лучше любого алгоритма и уж точно лучше человека, НО — когда речь идет о точных понятиях, тут всё куда сложнее.

Вы результаты выше в статье видите — они Вам нравятся? Лично мне — нет, кроме PullEnti

И — ИИ не знает, что у города нет меры, просто статистика их совпадений ниже других вариантов, что по факту, для определенных контекстов может стать ошибкой.

0

Распознавание дат, написанных естественным языком, средствами Python3

avl33 May 28 2020 at 12:23

Распознаём дату и время в естественной речи

0

Задача: извлечь ключевые выражения из текста на русском языке. NLP на Python

avl33 May 28 2020 at 12:14

В статье «Сравниваем работу open source Python — библиотек для распознавания именованных сущностей» присутствовал тестовый текст на русском языке. Вот он:

Власти Москвы выделили 110 млрд рублей на поддержку населения, системы здравоохранения и городского хозяйства. Об этом сообщается на сайте мэра столицы www.sobyanin.ru в пятницу, 1 мая. По адресу Алтуфьевское шоссе д.51 (основной вид разрешенного использования: производственная деятельность, склады) размещен МПЗ? Подпоручик Киже управляя автомобилем ВАЗ2107 перевозил автомат АК47 с целью ограбления банка ВТБ24, как следует из записей.
Взыскать c индивидуального предпринимателя Иванова Костантипа Петровича дата рождения 10 января 1970 года, проживающего по адресу город Санкт-Петербург, ул. Крузенштерна, дом 5/1А 8 000 (восемь тысяч) рублей 00 копеек гос. пошлины в пользу бюджета РФ Жители требуют незамедлительной остановки МПЗ и его вывода из района. Решение было принято по поручению мэра города Сергея Собянина в связи с ограничениями из-за коронавируса.

Из любопытства прогнал этот текст через свой nrlpk. Ниже результат с фильтрами по ключам, чтобы остались только именованные и числовые ключи:

00 копеек
01.05
10.01.1970
110 млрд
8-000
www.sobyanin.ru
ак47
алтуфьевское шоссе д 51
ваз2107
власть москвы
втб24
город санкт-петербург, ул крузенштерна, дом 5/1а
иванов костантин петрович
мпз
мэра города сергея собянина
подпоручик кижей
рф

Все детали как всегда на github. Текст интересный и с адресами, и с ФИО, и с ошибками в тексте — и результат не менее интересный получился.

0

6 способов значительно ускорить pandas с помощью пары строк кода. Часть 2

avl33 May 27 2020 at 12:12

Большое спасибо! Главное — очень вовремя, ну лично для меня, получилось.

0

Сравниваем работу open source Python — библиотек для распознавания именованных сущностей

avl33 May 27 2020 at 06:07

Чисто из любопытства прогнал тестовый текст на русском из этой статьи через nrlpk. Результат:

00 копеек
01.05
10.01.1970
110 млрд
8-000
www.sobyanin.ru
ак47
алтуфьевское шоссе д 51
ваз2107
власть москвы
втб24
город санкт-петербург, ул крузенштерна, дом 5/1а
иванов костантин петрович
мпз
мэра города сергея собянина
подпоручик кижей
рф

Все детали на github
Меня далеко не очень удовлетворило в результате и есть над чем подумать, НО…

Меня мучают два вопроса, если автор статьи сможет их разъяснить, я был бы очень признателен:
1. Для качественного результата в задаче NER, нужна предварительная качественная NER разметка. Причем, она должна быть не просто качественной, а ещё и обширной, иначе по многим объектам не будет идентификации, а по многим будут неоднозначности, или придется глубоко учитывать контекст, а это уже совсем другой уровень (или класс) задачи. К примеру плохая или отсутствующая разметка, как например в моем случае не сможет дать качественный ответ обоих случаях на «мера города Сергея Собянина» и «главы поселка максима Горького». В моем случае «мера города Сергея Собянина» идентифицировался как адрес. Но если уже будет качественная NER разметка, то зачем нужен ИИ для решения именно NER задачи?
2. Качество токенизации сложных текстов напрямую зависит от того насколько используются предварительно выделенные, размеченные и идентифицированные сущности и формы сокращений в них. При отсутствии такой информации, токенизация по предложениям. А дальше по словам пойдет некорректно, и как следствие в той же задаче NER появятся неверные (а точнее будет отсутствовать верные) значения. И здесь снова тот же вопрос — где здесь место ИИ?

0

6 способов значительно ускорить pandas с помощью пары строк кода. Часть 1

avl33 May 26 2020 at 12:03

Буду ждать сказа о Modin — хочу присмотреться к нему, как альтернативе параллельности для pandas в принципе. Смотрю он активно поддерживается и заявленное покрытие функциональности панд — в среднем 80%, кроме read.

0

6 способов значительно ускорить pandas с помощью пары строк кода. Часть 1

avl33 May 26 2020 at 06:21

В какой то момент я перевел всю задачу в Pandas на параллельность — все тяжелые, как мне казалось, места. Да — получил ускорение, где-то даже больше ожидаемого, НО отлаживаться стало гораздо, горяздо тяжелее.

Этот фактор заставил меня искать другие способы оптимизации и морально я уже готов к откату от параллельности. В одной иностранной статье прочитал как раз по этому поводу очень хорошую фразу — «переходи на параллельность, только когда все другие способы оптимизации исчерпаны, а требуемый результат всё ещё очень далек.»

По поводу же apply, есть такая статья How to simply make an operation on pandas DataFrame faster, которая дает больше альтернативных вариантов по замене apply, чем данная статья, при этом и сам прямой numpy дает очень хорошие показатели.

0

СКУД: проблемы, решения и управление рисками безопасности

avl33 May 14 2020 at 07:18

Близкое расстояние — сколько это?

Я не просто так задаю эти вопросы. Совсем недавно мы обсуждали вопросы СКУДа с двумя компаниями и в том числе вопросы идентификации пол лицу. По их заверениям, камеры, которые способны обеспечить гарантированное распознавание на уровне не ниже 0,95 стоят больше 100 т.р.

Более того, в декабре 2019 я был на конференции по цифровизации, где выступала команда, отрабатывавшая распознавание и сортировку алмазов с помощью ИИ и соответственно камер. Для того. чтобы обеспечить всё тот-же уровень достоверности — 0,95 — 0,97 они были вынуждены поставить под разными углами около 20 камер и все эти камеры были высокого разрешения.
Камеры переставляли местами несколько раз и меняли их марку — связано это было с разным уровнем освещения и непредсказуемым углом расположения идентифицируемого объекта.

Сейчас Вы говорите, что есть практический опыт, когда ОДНА камера в 2 Мп, установленная под нужным углом, способна не только нивелировать эффект разной освещенности и разного угла подхода человека или поворота головы (я не говорю уже о свежих травмах на лице, дополнительных аксессуарах — типа очков), но и провести сверку лица по одному фото в базе с точностью на уровне 0,9.

А можно название предприятия где это работает? и контакт, с кем можно пообщаться более детально в самой компании, где это реализовано именно с такими камерами?

0

СКУД: проблемы, решения и управление рисками безопасности

avl33 May 14 2020 at 06:30

Камеры подходят любые IP 2 Мп.

Распознавание лиц под разным углом с разным уровнем освещения камера 2 Мп??? И как её надо установить относительно наилучшей точки сканирования на траектории прохода сотрудника, чтобы она могла провести идентификацию с точностью хотя бы 0,9?

0

3