Articles / Bookmarks / Profile of EddyLan / Habr

Eduard Lanchev @EddyLan

Data Scientist

Profile Publications 11Comments 55Bookmarks 314

cointegrated Jun 5 2022 at 22:18

Рейтинг русскоязычных энкодеров предложений

9 min

27K

Python*Semantics*Machine learning*Natural Language Processing*

Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.

Но некоторые из таких полезных моделей занимают очень много памяти или работают медленно, особенно на обычных CPU. Можно ли выбрать наилучший энкодер предложений с учётом качества, быстродействия, и памяти? Я сравнил 25 энкодеров на 10 задачах и составил их рейтинг. Самой качественной моделью оказался mUSE, самой быстрой из предобученных – FastText, а по балансу скорости и качества победил rubert-tiny2. Код бенчмарка выложен в репозитории encodechka, а подробности – под катом.

+26

Metimol Jun 6 2022 at 12:28

Скачивание любого сайта с помощью Python себе на компьютер

3 min

18K

Python*

Tutorial

Здравствуйте!

Сегодня я Вам расскажу про интересную библиотеку для Python под названием Pywebcopy.

PyWebCopy – бесплатный инструмент для копирования отдельных веб-страниц или же полного копирования сайта на жесткий диск.

averkij Jun 8 2022 at 15:32

DIY. Книги для всех, даром

7 min

35K

Open Data Science corporate blogDIYNatural Language Processing*Open source*Learning languages

Tutorial

Technotext 2022

Lingtrain cover

⚡ Градиент обреченный

Upd. 11.06.2022 Многие заинтересовались генерацией изображений нейросетями. Вот Colab (интерактивная среда для запуска кода) для рисования картинок в стиле pixel art по текстовому описанию. Просто запускайте, ближе к концу увидете ячейку для ввода текста. Примеры картинок из Colab'а в комментариях.

Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов.

Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста.

Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему.

Сделать книжку

+76

NewTechAudit Jun 9 2022 at 14:03

Три подхода к анализу текстов

5 min

7.1K

Python*Machine learning*Natural Language Processing*

Для выявления ключевых слов, для начала будет решена задача кластеризации на тематики текстов с помощью метода LDA (Latent Dirichlet Allocation). После этого будет решаться задача, непосредственно, выявления ключевых словосочетаний с помощью предобученной модели Bert. И завершающим будет метод WordToVec, служащий для решения задачи поиска наиболее семантически похожих слов в тексте.

-2

MediascopeTeam Jun 9 2022 at 15:07

Как эффективно оптимизировать нагрузку на кластер ClickHouse без сложных решений. Опыт исследовательской компании

6 min

4.5K

Mediascope corporate blogData storages*Machine learning*Big Data*Database Administration*

Данными Mediascope ежедневно пользуется большинство участников медиарекламного рынка и каждый день наши клиенты совершают множество запросов как к самим данным, так и к нашим сервисам расчета и анализа медиапоказателей. Поэтому нам нередко приходится решать самые разные задачи, связанные с оптимизацией нагрузки на инфраструктуру. В этой статье вы найдете интересный кейс управления нагрузкой на кластер ClickHouse (CH), который решили внутри Mediascope. Команда нашего отдела разработки систем расчета и доставки прошла большой путь: от неуместного применения МL до простого, но рабочего решения.

sokolov_alexr Dec 17 2019 at 20:25

SQL запросы быстро. Часть 1

5 min

1.5M

MySQL*SQL*SQLite*

From sandbox

Подписаться в telegram: t.me/korocheproduct

Введение

Язык SQL очень прочно влился в жизнь бизнес-аналитиков и требования к кандидатам благодаря простоте, удобству и распространенности. Из собственного опыта могу сказать, что наиболее часто SQL используется для формирования выгрузок, витрин (с последующим построением отчетов на основе этих витрин) и администрирования баз данных. И поскольку повседневная работа аналитика неизбежно связана с выгрузками данных и витринами, навык написания SQL запросов может стать фактором, из-за которого кандидат или получит преимущество, или будет отсеян. Печальная новость в том, что не каждый может рассчитывать получить его на студенческой скамье. Хорошая новость в том, что в изучении SQL нет ничего сложного, это быстро, а синтаксис запросов прост и понятен. Особенно это касается тех, кому уже доводилось сталкиваться с более сложными языками.

Обучение SQL запросам я разделил на три части. Эта часть посвящена базовому синтаксису, который используется в 80-90% случаев. Следующие две части будут посвящены подзапросам, Join'ам и специальным операторам. Цель гайдов: быстро и на практике отработать синтаксис SQL, чтобы добавить его к арсеналу навыков.

Практика

Введение в синтаксис будет рассмотрено на примере открытой базы данных, предназначенной специально для практики SQL. Чтобы твое обучение прошло максимально эффективно, открой ссылку ниже в новой вкладке и сразу запускай приведенные примеры, это позволит тебе лучше закрепить материал и самостоятельно поработать с синтаксисом.

Читать дальше →

+12

vladis005 Feb 1 2022 at 11:29

5 советов по использованию декораторов в Python

5 min

13K

Python*Data Engineering*

From sandbox

Translation

Advanced советы по использованию декораторов в python. Будет полезно, как для новчиков, так и для самых продвинутых пользователей.

jsirex May 15 2013 at 20:15

Ежедневная работа с Git

40 min

882K

Git*Version control systems*

Tutorial

Я совсем не долго изучаю и использую git практически везде, где только можно. Однако, за это время я успел многому научиться и хочу поделиться своим опытом с сообществом.

Я постараюсь донести основные идеи, показать как эта VCS помогает разрабатывать проект. Надеюсь, что после прочтения вы сможете ответить на вопросы:

можно ли git «подстроить» под тот процесс разработки, который мне нужен?
будет ли менеджер и заказчик удовлетворён этим процессом?
будет ли легко работать разработчикам?
смогут ли новички быстро включиться в процесс?
можно ли процесс относительно легко и быстро изменить?

Конечно, я попытаюсь рассказать обо всём по-порядку, начиная с основ. Поэтому, эта статья будет крайне полезна тем, кто только начинает или хочет разобраться с git. Более опытные читатели, возможно, найдут для себя что-то новое, укажут на ошибки или поделятся советом.

Далее очень много букв случайным образом превратились в пост.

+188

Shnurre May 14 2019 at 15:07

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

19 min

53K

Content AI corporate blogNatural Language Processing*Artificial IntelligenceMachine learning*

Первую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи.

Читать дальше →

+18

AlekseyKorshuk Apr 4 2022 at 11:22

Optimum Transformers: как экономить от 20к$ в год на NLP

5 min

3.8K

Python*Machine learning*Artificial IntelligenceNatural Language Processing*

Недавно компания ? Hugging Face (стартап, стоящий за библиотекой transformers) выпустила новый продукт под названием "Infinity". Он описывается как сервер для выхода в “production”. Публичная демонстрация доступна на YouTube (ниже приведены скриншоты с таймингами и настройками, использованными во время демонстрации). Все основано на обещании, что продукт может выполнять работу с NLP с задержкой в 1 миллисекунду на графическом процессоре. По словам ведущего демонстрации, сервер Hugging Face Infinity стоит не менее 20.000$ в год за одну модель, развернутую на одной машине (общедоступная информация о ценовой масштабируемости отсутствует).

Мне стало любопытно немного покопаться и проверить, возможно ли достичь таких показателей? Спойлер: да, возможно, и с помощью этой статьи его легко воспроизвести и адаптировать к вашим РЕАЛЬНЫМ проектам.

А для тех, кому лень все это читать и хочется все получить из коробки... Ссылка на GitHub. Поставьте зведу сразу, а потом читайте ?

+12

rimecode Apr 1 2022 at 00:25

ИТ-расходы в бизнесе замедляются? Разбираемся в прогнозах

4 min

3.2K

HOSTKEY corporate blogResearch and forecasts in IT*Finance in IT

Мировую экономику лихорадит, бизнес активно “режет косты” – и с учетом пандемии, новых штаммов вируса, геополитики, с ростом цен на энергоносители ИТ-расходы тоже должны были "потесниться". Так ли это? Посмотрим, что говорят сотни западных и российских компаний.

Сравнить цифры по Западу и России

honyaki Mar 31 2022 at 20:24

Как проверить данные во фрейме Pandas с помощью Pandera

7 min

7.1K

Skillfactory corporate blogPython*Programming*

Tutorial

Translation

В науке о данных важно тестировать не только функции, но и данные, чтобы убедиться, что они работают так, как вы ожидали. Материалом о простой библиотеке Pandera для валидации фреймов данных Pandas делимся к старту флагманского курса по Data Science.

Dreamlone Mar 31 2022 at 14:01

Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении

14 min

8.3K

Open Data Science corporate blogOpen source*Python*Open data*Machine learning*

Обработка табличных данных средствами Python для использования в моделях машинного обучения - что может быть банальнее. Казалось бы. Иногда табличные данные бывают настолько "грязными", что их вычистка занимает гораздо больше времени, чем подготовка самой модели. Так зачем это делать самому, если с этим не хуже справится AutoML...

Ну и насколько они грязные

+13

Sergey-Fox Mar 31 2022 at 14:39

Основные тренды ЦОД в 2022 году: смелые проекты и успешные практики реализации

7 min

3.8K

Acer corporate blogIT Infrastructure*Big Data*Data storage*Network hardware

Привет, Хабр! Компания Acer снова с вами! Мы планируем рассказывать об интересных продуктах: как своих, так и других участников рынка. В первую очередь речь пойдет о серверах и соответствующих корпоративных решениях.

Сегодня же публикуем первый свой пост – это аналитика наиболее заметных трендов на рынке ЦОД в 2022 году. Главный принцип, по которому мы отбирали тренды, – наличие примеров практического внедрения. Кроме того, мы расскажем о необычных разновидностях дата-центров, которых становится все больше.

PatientZero Mar 31 2022 at 09:12

Новый ИИ DeepMind позволил историкам расшифровать древнегреческие тексты

5 min

3.6K

Artificial IntelligenceMachine learning*Popular science

Translation

На этом фрагменте надписи зафиксирован указ, касающийся афинского Акрополя, датируемый 485-484 годами до н. э.

Google DeepMind совместно с учёными создали новый ИИ-инструмент, использующий глубокие нейросети для расшифровки текста повреждённых древнегреческих надписей. Новая система под названием Ithaca построена на основе системы восстановления текста Pythia.

Согласно новой статье, опубликованной командой исследователей в журнале «Nature», Ithaca не просто помогает историкам восстанавливать текст, но и способна определять его происхождение, а также дату создания. Ithaca уже использовали для разрешения спора о корректной датировке нескольких древнеафинских указов. Интерактивная версия Ithaca доступна бесплатно, а сейчас команда переводит её код в open source.

Читать дальше →

+22

honyaki Mar 30 2022 at 22:25

Как работать с числами с плавающей точкой в Python

9 min

60K

Skillfactory corporate blogPython*Programming*

Translation

К старту курса по Fullstack-разработке на Python делимся решениями классической проблемы неточности чисел с плавающей точкой для новичков. В материале вы найдёте примеры работы с функциями и классами, предназначенными специально для решения проблем чисел с плавающей точкой.

+22

hel1n Mar 29 2022 at 20:54

#1 Дайджест материалов для QA инженера(12 Марта — 28 марта)

2 min

3.9K

Game testing*Mobile applications testing*Web services testing*IT systems testing*

Всем привет, до этого не было дайджестов для QA инженеров, я решил закрыть эту нишу, присылайте интересные статьи и будем делать дайджест вместе!

Alex_BBB Mar 30 2022 at 09:33

JavaScript редактор диаграмм, который открывает диаграммы из PNG картинок (open source)

3 min

7.9K

Data visualization*Interfaces*JavaScript*Website development*

dgrm.net | GitHub

dgrm.net - это редактор диаграмм, с прицелом на трансформацию в карту знаний.

Отличительные особенности:
- аскетичность,
- работает на телефонах (одно из немногих web-решений),
- открытый исходный код.

В процессе разработки появляются интересные моменты. Статья про один из таких моментов: чтение данных из PNG.
Исходный код для использования в своих проектах прилагается.

+36

mr-pickles Mar 28 2022 at 13:05

Путь к пониманию декораторов в Python

11 min

89K

Wunder Fund corporate blogPython*

Translation

Прим. Wunder Fund: В этой статье разбираемся, что такое декораторы в Python, зачем они нужны, и в чем их прикол. Статья будет полезна начинающим разработчикам.

Материал рассчитан на начинающих программистов, которые хотят разобраться с тем, что такое декораторы, и с тем, как применять их в своих проектах.

+21

ph_piter Mar 25 2022 at 10:18

Сеть данных: как уравновесить централизацию и децентрализацию

7 min

1.8K

Издательский дом «Питер» corporate blogDistributed systems*Big Data*Network technologies*System Analysis and Design*

Translation

Архитектура сети данных (data mesh) распределяет владение данными среди команд из разных предметных областей, с федеративным управлением и децентрализованными продуктами по обработке данных. Сеть данных отличается от других аналогичных архитектур именно своей высокой децентрализацией: она распределена, а не централизована.

1 2 3

5 6 ...

15 16