Pull to refresh

Comments 32

Буду Вам очень признателен, если расставите отступы к примерах кода :)

У меня они были, но странным образом исчезли :(

Ну когда же "мир науки" повернется к простым трудягам-разработчиком лицом и перестанет клепать научноориентированные инструменты?
Может стоит уже подумать о тех людях, кому нужно внедрять нейросетевые технологии в свои продукты, которые написаны не на Python'е? Тем более если мы собираемся "догнать и перегнать" весь мир...

Для такого есть ONNX рантайм. Обучаете модель, конвертируйте ее и потом запускаете практически на любом другом языке.

да, можно хоть куда уже, Python отлично подходит для разных экспериментов, систем без больших нагрузок, хотя в целом и там можно поколдовать

Вопросов меньше не становится) https://github.com/TatraDev/pipertool/blob/main/main.py

Вы это на хабре продать пытаетесь?) Извиняюсь что без конструктива, но такие громкие заголовки и код проекта подсказывают, что конструктив будет скорее всего лишь тратой времени(

Действительно неконструктивно звучит без конкретного код ревью )
Тяжело читать мысли, я видел этот main файл
Заголовок же свое дело сделал,
Я верю в успех нашей концепции в Piper.
C радостью ждем Ваш ревью или PR

Зачем вам такая куча закомментированного кода?
Добавьте pylint, что ли...

Это то, что можно сказать за пару минут обзора кода.

Этот файл еще не растащили в тесты, пережиток прошлого, когда перенесём его вообще не будет. Я придерживаюсь подхода, при котором сначала важный функционал, потом рефакторинг. Линтер конечно добавим когда-то, документацию понятную и пр. Без этих вещей мало кто будет пользоваться конечно. Но также никто не будет пользоваться, если не будет пользы и смысла, пока на нем концентрируемся

И у кого пригорело от этих файлов - приходите контрибьютить. У нас весело - кодогенерации, кишки питона, рефакторинг видимо еще теперь !

Рандомный файлик из интернетов, нужен был реальный документ.
Мы уже поменяли на тестовый другой, в папке tests/ocr

Все совпадения случайны) Аналогия не с дудочником, а с некой трубой которую можно из частей собрать

Нет никакого хейта, так получилось, что наш проект из России, где по сути мало подобных конкурентов, просто это хороший вызов, быть на уровне таких крутых проектов ??

Ой, Моська...
У меня такой вопрос: а ? знает, что происходит,что его теснят? Просто картинка в начале выглядит ну очень уж претенциозно.

Вообще, к сожалению, повествование местами сумбурное, как будто мешаются сущности разных классов.

Фактически одна мысль повторяется: piper – фреймворк на python, который позволяет из блоков собрать ml-решение и задеплоить его, при этом интегрируя с разными инструментами. Так? Если да, то здорово было бы увидеть реальный пример, как разработчик нас проведёт за ручку по процессу создания какого-нибудь небольшого пайплайна.

Часто по тексту встречается "на данный момент нет, но планируем добавить". Хотелось бы видеть больший акцент на том, что есть.
> На данный момент...у нас добавлены FaceRecognition, TesseractOCR, Milvus. ..
Можно ли ознакомиться с полным списком? И что используется для Face Recognition?

> Цель нашего фреймворка в ускорении ml разработки
Тогда нужна методика оценки этой скорости.
> При решение с Piper сборка производится на 90% за счет уже подготовленных модулей из библиотеки фреймворка
А если модуля нет?
А если тип данных отличается от изначального в модуле?
А если блок даёт низкую эффективность? Предусмотрен подбор гиперпараметров, иной AutoML?
Как вообще этот подход соотносится с no silver bullet theorem?

Генез оценок времени in-house непонятен.
Почему изучение задачи и подготовка среды в piper займёт в два раза меньше времени?
Почему в piper отсутсьвует этап подготовки данных – он сам чистит, преобразует во входной формат, отбирает фичи и кодирует?

Почему перенос кода в прод оценён именно такими значениями?

Вообще, почему числа именно такие, а не другие, для какойькоманды проводилась оценка, точно ли результаты аналогичны?

В общем пока что у меня больше вопросов, чем ответов, хоть и круто, что вы замахнулись на столь масштабный проект.

Да, лаим на Слона, сомневаюсь что ребята в курсе, вы не оттуда?) мы начали в этом году они лет 7 назад ?

Реальные примеры покажем в туториалах, обещаю.

Методика довольно субъективная, я кроме как - дать двум разработчикам н раз делать с Piper таску и без него - не вижу способа. И это тоже не очень точно звучит. Мне кажется не хватит у нас разработчиков и ресурсов набрать достоверную оценку прям.

Если нет модуля - вы добавляете свой. В этом основа фреймворка. Да, действительно, данные в наших проектах еще раз не готовили, так как уже были модули с полностью такой же обработкой данных по аналогии. Так что, тут, вы правы это время никуда не денется и это решительно невозможно как-то автоматически делать полностью. Это уже какой-то сильный ИИ нужен. Но Piper позволит взять сразу взять pandas/spark модуль и тут же заняться подготовкой данных не запариваясь об установке настройке, причем можете даже разными версиями пользоваться в разных участках кода, если нужно или разной конфигурацией Спарк. Тут выигрыш во времени мизерный, но по опыту знаю, что если что-то сработало в ноутбуках вообще не факт, что оно просто соберется в простом микросервисе. Так что выигрыш после это наш больший фокус.

Я хочу добавить AutoML и модули для генерации автоматических фичей, плюс будут модули разряда «забрать весь текст с PDF». С такими закрутками на зиму можно немного и препроцесинг данных ускорить, но сами мы его конечно не напишем.

Спасибо за интересные вопросы ?? пишите еще

Мне как ML прогеру мало интересны ваши компоненты, свои девать некуда и переучиваться на чужое как-то лень. за huggingface уже не угонитесь. Но развертывание ML-систем с динамическим автобалансом - это нужно. Сейчас я не знаю системы, которая взяв бы набор согласованных по портам HTTP-сервисов (т е всю кучу можно запустить на одном компе и будет по портам все прокидываться), начала бы их реплицировать-балансировать в зависимости от нагрузки на всю систему и прожорливость каждого сервиса в частности. Понимаю что такую систему можно написать на кубертенес и это избавило тыщи прогеров от необходимости заниматься руками этим гемором(правда и тыщи девопсов пойдут петь песни) может стоит копать сюда? )

По описанию звучит интересно, не слышал о них. Но похоже на baseten и думаю еще можно поискать пару проектов. Пока фундаментальная разница, что у нас опенсорс , а платно мы только доп модули будем продавать и облако для развертывания пайпера.

Пока не увидел ни у кого что-то подобного. И в таких проектах часто пытаются полностью подсадить на их парадигму, чтоб извлечь побольше денег, у нас нет задачи затягивать в Пайпер через ограничения, наоборот через количество модулей, которых у подобных конкурентов часто 3 штуки крестом.

очень странно разрабатывая ML-платформу не знать про топовые продукты) они стоят больше миллиарда уже, инвестировал сам гугл. продукт просто суперкрутой - я не будучи DSником легко разобрался в основах и смог сделать пайплайн за пару вечеров.

Очень круто то, что вы делаете свой фреймфорк, значить есть вижен и планы на ML. Вопрос, я так понимаю, наиболее близкий фреймфорк к Piper это Hugginface? Ok, допустим, у Hugginface на их страничке сразу есть NLP примеры - вопрос, есть ли примеры на Piper, который можно развернуть в пару кликов?

Что-то я почитал и пришёл к выводу, что вы собрали что-то своё на python дабы помочь людям и назвали это опенсурсом, и этой статьёй просите сходить, разобраться в вашем коде и поконтрибьютить...??? Вместо того, чтобы сказать, вот у нас классная дока, совсем простая, чтобы использовать ML.

Вот если бы вы сказали, что мы собрали все известные опенсурс решения, докрутили чуть чуть воркфлоу и им можно теперь вот так пользоваться, просто кладёте это сюда, это сюда, запускаете docker compose up и у вас все работает. Хотите в облака, вот вам терраформ, хотите в к8s нате это... Мне кажется это было бы действительно вкладом, а так взять без разбирательств и написать свой инструмент и потом ходить по граблям тех кто начал 7 лет назад, и догонять их в этом, много ума не надо...

Sign up to leave a comment.

Articles