Articles / Bookmarks / Profile of EddyLan / Habr

Eduard Lanchev @EddyLan

Data Scientist

Profile Publications 15Comments 90Bookmarks 334

averkij Jun 8 2022 at 15:32

DIY. Книги для всех, даром

7 min

35K

Open Data Science corporate blogDIYNatural Language Processing*Open source*Learning languages

Tutorial

Technotext 2022

Lingtrain cover

⚡ Градиент обреченный

Upd. 11.06.2022 Многие заинтересовались генерацией изображений нейросетями. Вот Colab (интерактивная среда для запуска кода) для рисования картинок в стиле pixel art по текстовому описанию. Просто запускайте, ближе к концу увидете ячейку для ввода текста. Примеры картинок из Colab'а в комментариях.

Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов.

Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста.

Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему.

Сделать книжку

+76

NewTechAudit Jun 9 2022 at 14:03

Три подхода к анализу текстов

5 min

7.2K

Python*Machine learning*Natural Language Processing*

Для выявления ключевых слов, для начала будет решена задача кластеризации на тематики текстов с помощью метода LDA (Latent Dirichlet Allocation). После этого будет решаться задача, непосредственно, выявления ключевых словосочетаний с помощью предобученной модели Bert. И завершающим будет метод WordToVec, служащий для решения задачи поиска наиболее семантически похожих слов в тексте.

-2

MediascopeTeam Jun 9 2022 at 15:07

Как эффективно оптимизировать нагрузку на кластер ClickHouse без сложных решений. Опыт исследовательской компании

6 min

4.6K

Mediascope corporate blogDatabase Administration*Big Data*Machine learning*Data storages*

Данными Mediascope ежедневно пользуется большинство участников медиарекламного рынка и каждый день наши клиенты совершают множество запросов как к самим данным, так и к нашим сервисам расчета и анализа медиапоказателей. Поэтому нам нередко приходится решать самые разные задачи, связанные с оптимизацией нагрузки на инфраструктуру. В этой статье вы найдете интересный кейс управления нагрузкой на кластер ClickHouse (CH), который решили внутри Mediascope. Команда нашего отдела разработки систем расчета и доставки прошла большой путь: от неуместного применения МL до простого, но рабочего решения.

sokolov_alexr Dec 17 2019 at 20:25

SQL запросы быстро. Часть 1

5 min

1.5M

MySQL*SQL*SQLite*

From sandbox

Подписаться в telegram: t.me/korocheproduct

Введение

Язык SQL очень прочно влился в жизнь бизнес-аналитиков и требования к кандидатам благодаря простоте, удобству и распространенности. Из собственного опыта могу сказать, что наиболее часто SQL используется для формирования выгрузок, витрин (с последующим построением отчетов на основе этих витрин) и администрирования баз данных. И поскольку повседневная работа аналитика неизбежно связана с выгрузками данных и витринами, навык написания SQL запросов может стать фактором, из-за которого кандидат или получит преимущество, или будет отсеян. Печальная новость в том, что не каждый может рассчитывать получить его на студенческой скамье. Хорошая новость в том, что в изучении SQL нет ничего сложного, это быстро, а синтаксис запросов прост и понятен. Особенно это касается тех, кому уже доводилось сталкиваться с более сложными языками.

Обучение SQL запросам я разделил на три части. Эта часть посвящена базовому синтаксису, который используется в 80-90% случаев. Следующие две части будут посвящены подзапросам, Join'ам и специальным операторам. Цель гайдов: быстро и на практике отработать синтаксис SQL, чтобы добавить его к арсеналу навыков.

Практика

Введение в синтаксис будет рассмотрено на примере открытой базы данных, предназначенной специально для практики SQL. Чтобы твое обучение прошло максимально эффективно, открой ссылку ниже в новой вкладке и сразу запускай приведенные примеры, это позволит тебе лучше закрепить материал и самостоятельно поработать с синтаксисом.

Читать дальше →

+12

vladis005 Feb 1 2022 at 11:29

5 советов по использованию декораторов в Python

5 min

13K

Python*Data Engineering*

From sandbox

Translation

Advanced советы по использованию декораторов в python. Будет полезно, как для новчиков, так и для самых продвинутых пользователей.

jsirex May 15 2013 at 20:15

Ежедневная работа с Git

40 min

883K

Git*Version control systems*

Tutorial

Я совсем не долго изучаю и использую git практически везде, где только можно. Однако, за это время я успел многому научиться и хочу поделиться своим опытом с сообществом.

Я постараюсь донести основные идеи, показать как эта VCS помогает разрабатывать проект. Надеюсь, что после прочтения вы сможете ответить на вопросы:

можно ли git «подстроить» под тот процесс разработки, который мне нужен?
будет ли менеджер и заказчик удовлетворён этим процессом?
будет ли легко работать разработчикам?
смогут ли новички быстро включиться в процесс?
можно ли процесс относительно легко и быстро изменить?

Конечно, я попытаюсь рассказать обо всём по-порядку, начиная с основ. Поэтому, эта статья будет крайне полезна тем, кто только начинает или хочет разобраться с git. Более опытные читатели, возможно, найдут для себя что-то новое, укажут на ошибки или поделятся советом.

Далее очень много букв случайным образом превратились в пост.

+188

Shnurre May 14 2019 at 15:07

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

19 min

54K

Content AI corporate blogNatural Language Processing*Artificial IntelligenceMachine learning*

Первую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи.

Читать дальше →

+18

AlekseyKorshuk Apr 4 2022 at 11:22

Optimum Transformers: как экономить от 20к$ в год на NLP

5 min

3.9K

Natural Language Processing*Artificial IntelligenceMachine learning*Python*

Недавно компания ? Hugging Face (стартап, стоящий за библиотекой transformers) выпустила новый продукт под названием "Infinity". Он описывается как сервер для выхода в “production”. Публичная демонстрация доступна на YouTube (ниже приведены скриншоты с таймингами и настройками, использованными во время демонстрации). Все основано на обещании, что продукт может выполнять работу с NLP с задержкой в 1 миллисекунду на графическом процессоре. По словам ведущего демонстрации, сервер Hugging Face Infinity стоит не менее 20.000$ в год за одну модель, развернутую на одной машине (общедоступная информация о ценовой масштабируемости отсутствует).

Мне стало любопытно немного покопаться и проверить, возможно ли достичь таких показателей? Спойлер: да, возможно, и с помощью этой статьи его легко воспроизвести и адаптировать к вашим РЕАЛЬНЫМ проектам.

А для тех, кому лень все это читать и хочется все получить из коробки... Ссылка на GitHub. Поставьте зведу сразу, а потом читайте ?

+12

rimecode Apr 1 2022 at 00:25

ИТ-расходы в бизнесе замедляются? Разбираемся в прогнозах

4 min

3.2K

HOSTKEY corporate blogResearch and forecasts in IT*Finance in IT

Мировую экономику лихорадит, бизнес активно “режет косты” – и с учетом пандемии, новых штаммов вируса, геополитики, с ростом цен на энергоносители ИТ-расходы тоже должны были "потесниться". Так ли это? Посмотрим, что говорят сотни западных и российских компаний.

Сравнить цифры по Западу и России

honyaki Mar 31 2022 at 20:24

Как проверить данные во фрейме Pandas с помощью Pandera

7 min

7.2K

Skillfactory corporate blogPython*Programming*

Tutorial

Translation

В науке о данных важно тестировать не только функции, но и данные, чтобы убедиться, что они работают так, как вы ожидали. Материалом о простой библиотеке Pandera для валидации фреймов данных Pandas делимся к старту флагманского курса по Data Science.

Dreamlone Mar 31 2022 at 14:01

Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении

14 min

8.3K

Open Data Science corporate blogMachine learning*Open data*Python*Open source*

Обработка табличных данных средствами Python для использования в моделях машинного обучения - что может быть банальнее. Казалось бы. Иногда табличные данные бывают настолько "грязными", что их вычистка занимает гораздо больше времени, чем подготовка самой модели. Так зачем это делать самому, если с этим не хуже справится AutoML...

Ну и насколько они грязные

+13

Sergey-Fox Mar 31 2022 at 14:39

Основные тренды ЦОД в 2022 году: смелые проекты и успешные практики реализации

7 min

3.8K

Acer corporate blogNetwork hardwareData storage*Big Data*IT Infrastructure*

Привет, Хабр! Компания Acer снова с вами! Мы планируем рассказывать об интересных продуктах: как своих, так и других участников рынка. В первую очередь речь пойдет о серверах и соответствующих корпоративных решениях.

Сегодня же публикуем первый свой пост – это аналитика наиболее заметных трендов на рынке ЦОД в 2022 году. Главный принцип, по которому мы отбирали тренды, – наличие примеров практического внедрения. Кроме того, мы расскажем о необычных разновидностях дата-центров, которых становится все больше.

PatientZero Mar 31 2022 at 09:12

Новый ИИ DeepMind позволил историкам расшифровать древнегреческие тексты

5 min

3.6K

Artificial IntelligenceMachine learning*Popular science

Translation

На этом фрагменте надписи зафиксирован указ, касающийся афинского Акрополя, датируемый 485-484 годами до н. э.

Google DeepMind совместно с учёными создали новый ИИ-инструмент, использующий глубокие нейросети для расшифровки текста повреждённых древнегреческих надписей. Новая система под названием Ithaca построена на основе системы восстановления текста Pythia.

Согласно новой статье, опубликованной командой исследователей в журнале «Nature», Ithaca не просто помогает историкам восстанавливать текст, но и способна определять его происхождение, а также дату создания. Ithaca уже использовали для разрешения спора о корректной датировке нескольких древнеафинских указов. Интерактивная версия Ithaca доступна бесплатно, а сейчас команда переводит её код в open source.

Читать дальше →

+22

honyaki Mar 30 2022 at 22:25

Как работать с числами с плавающей точкой в Python

9 min

62K

Skillfactory corporate blogPython*Programming*

Translation

К старту курса по Fullstack-разработке на Python делимся решениями классической проблемы неточности чисел с плавающей точкой для новичков. В материале вы найдёте примеры работы с функциями и классами, предназначенными специально для решения проблем чисел с плавающей точкой.

+22

hel1n Mar 29 2022 at 20:54

#1 Дайджест материалов для QA инженера(12 Марта — 28 марта)

2 min

3.9K

IT systems testing*Web services testing*Mobile applications testing*Game testing*

Всем привет, до этого не было дайджестов для QA инженеров, я решил закрыть эту нишу, присылайте интересные статьи и будем делать дайджест вместе!

Alex_BBB Mar 30 2022 at 09:33

JavaScript редактор диаграмм, который открывает диаграммы из PNG картинок (open source)

3 min

7.9K

Website development*JavaScript*Interfaces*Data visualization*

dgrm.net | GitHub

dgrm.net - это редактор диаграмм, с прицелом на трансформацию в карту знаний.

Отличительные особенности:
- аскетичность,
- работает на телефонах (одно из немногих web-решений),
- открытый исходный код.

В процессе разработки появляются интересные моменты. Статья про один из таких моментов: чтение данных из PNG.
Исходный код для использования в своих проектах прилагается.

+36

mr-pickles Mar 28 2022 at 13:05

Путь к пониманию декораторов в Python

11 min

89K

Wunder Fund corporate blogPython*

Translation

Прим. Wunder Fund: В этой статье разбираемся, что такое декораторы в Python, зачем они нужны, и в чем их прикол. Статья будет полезна начинающим разработчикам.

Материал рассчитан на начинающих программистов, которые хотят разобраться с тем, что такое декораторы, и с тем, как применять их в своих проектах.

+21

ph_piter Mar 25 2022 at 10:18

Сеть данных: как уравновесить централизацию и децентрализацию

7 min

1.8K

Издательский дом «Питер» corporate blogDistributed systems*Big Data*Network technologies*System Analysis and Design*

Translation

Архитектура сети данных (data mesh) распределяет владение данными среди команд из разных предметных областей, с федеративным управлением и децентрализованными продуктами по обработке данных. Сеть данных отличается от других аналогичных архитектур именно своей высокой децентрализацией: она распределена, а не централизована.

SLY_G Mar 17 2022 at 00:27

Как устроена экосистема полупроводниковой индустрии

8 min

58K

Manufacture and development of electronics*

Translation

В прошлом году выходило много статей на темы, связанные с полупроводниковой индустрией: нехватка чипов, американский закон CHIPS, зависимость от Тайваня и TSMC, роль Китая, и т.д.

Несмотря на весь этот поток информации, мало кто понимает структуру этой индустрии. Для меня лучшим способом разобраться в чём-то сложном стало пошаговое построение диаграмм, описывающих нужную область знаний. Представляю вам небольшой обучающий материал в картинках о том, как работает индустрия.

Экосистема полупроводниковой индустрии

На наших глазах абсолютно всё переходит в цифровой вид. Полупроводниковые устройства – чипы, обрабатывающие цифровую информацию – проникли почти всюду. Они в компьютерах, автомобилях, бытовой технике, медицинском оборудовании, и т.п. В этом году компании из полупроводниковой индустрии планируют продать чипов на $600 млрд.

Читать дальше →

+73

ph_piter Feb 25 2022 at 10:09

Почему я начал использовать аннотации типов в Python – и вам тоже советую

7 min

19K

Издательский дом «Питер» corporate blogPython*Programming*Perfect code*ООP*

Translation

С появлением подсказок типов (type hints) в Python 3.5+ добавилась опциональная статическая типизация – поэтому эти подсказки так мне нравятся. Теперь я аннотирую ими все мои проекты.

+32

1 2 3 4

6 7 ...

16 17