Pull to refresh
17
0.6
Eduard Lanchev @EddyLan

Data Scientist

Send message

Рейтинг русскоязычных энкодеров предложений

Reading time9 min
Views27K

Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.

Но некоторые из таких полезных моделей занимают очень много памяти или работают медленно, особенно на обычных CPU. Можно ли выбрать наилучший энкодер предложений с учётом качества, быстродействия, и памяти? Я сравнил 25 энкодеров на 10 задачах и составил их рейтинг. Самой качественной моделью оказался mUSE, самой быстрой из предобученных – FastText, а по балансу скорости и качества победил rubert-tiny2. Код бенчмарка выложен в репозитории encodechka, а подробности – под катом.

Читать далее
Total votes 26: ↑26 and ↓0+26
Comments19

Скачивание любого сайта с помощью Python себе на компьютер

Reading time3 min
Views18K

Здравствуйте!

Сегодня я Вам расскажу про интересную библиотеку для Python под названием Pywebcopy.

​PyWebCopy – бесплатный инструмент для копирования отдельных веб-страниц или же полного копирования сайта на жесткий диск.

Читать далее
Total votes 6: ↑4 and ↓2+4
Comments11

DIY. Книги для всех, даром

Reading time7 min
Views35K

Lingtrain cover


⚡ Градиент обреченный


Upd. 11.06.2022 Многие заинтересовались генерацией изображений нейросетями. Вот Colab (интерактивная среда для запуска кода) для рисования картинок в стиле pixel art по текстовому описанию. Просто запускайте, ближе к концу увидете ячейку для ввода текста. Примеры картинок из Colab'а в комментариях.


Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов.


Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста.


Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему.

Сделать книжку
Total votes 76: ↑76 and ↓0+76
Comments50

Три подхода к анализу текстов

Reading time5 min
Views7.1K

Для выявления ключевых слов, для начала будет решена задача кластеризации на тематики текстов с помощью метода LDA (Latent Dirichlet Allocation). После этого будет решаться задача, непосредственно, выявления ключевых словосочетаний с помощью предобученной модели Bert. И завершающим будет метод WordToVec, служащий для решения задачи поиска наиболее семантически похожих слов в тексте.

Читать далее
Total votes 6: ↑2 and ↓4-2
Comments0

Как эффективно оптимизировать нагрузку на кластер ClickHouse без сложных решений. Опыт исследовательской компании

Reading time6 min
Views4.5K

Данными Mediascope ежедневно пользуется большинство участников медиарекламного рынка и каждый день наши клиенты совершают множество запросов как к самим данным, так и к нашим сервисам расчета и анализа медиапоказателей. Поэтому нам нередко приходится решать самые разные задачи, связанные с оптимизацией нагрузки на инфраструктуру. В этой статье вы найдете интересный кейс управления нагрузкой на кластер ClickHouse (CH), который решили внутри Mediascope. Команда нашего отдела разработки систем расчета и доставки прошла большой путь: от неуместного применения МL до простого, но рабочего решения.

Читать далее
Total votes 8: ↑8 and ↓0+8
Comments1

SQL запросы быстро. Часть 1

Reading time5 min
Views1.5M
Подписаться в telegram: t.me/korocheproduct

Введение


Язык SQL очень прочно влился в жизнь бизнес-аналитиков и требования к кандидатам благодаря простоте, удобству и распространенности. Из собственного опыта могу сказать, что наиболее часто SQL используется для формирования выгрузок, витрин (с последующим построением отчетов на основе этих витрин) и администрирования баз данных. И поскольку повседневная работа аналитика неизбежно связана с выгрузками данных и витринами, навык написания SQL запросов может стать фактором, из-за которого кандидат или получит преимущество, или будет отсеян. Печальная новость в том, что не каждый может рассчитывать получить его на студенческой скамье. Хорошая новость в том, что в изучении SQL нет ничего сложного, это быстро, а синтаксис запросов прост и понятен. Особенно это касается тех, кому уже доводилось сталкиваться с более сложными языками.

Обучение SQL запросам я разделил на три части. Эта часть посвящена базовому синтаксису, который используется в 80-90% случаев. Следующие две части будут посвящены подзапросам, Join'ам и специальным операторам. Цель гайдов: быстро и на практике отработать синтаксис SQL, чтобы добавить его к арсеналу навыков.

Практика


Введение в синтаксис будет рассмотрено на примере открытой базы данных, предназначенной специально для практики SQL. Чтобы твое обучение прошло максимально эффективно, открой ссылку ниже в новой вкладке и сразу запускай приведенные примеры, это позволит тебе лучше закрепить материал и самостоятельно поработать с синтаксисом.
Читать дальше →
Total votes 26: ↑16 and ↓10+12
Comments36

Ежедневная работа с Git

Reading time40 min
Views882K
Я совсем не долго изучаю и использую git практически везде, где только можно. Однако, за это время я успел многому научиться и хочу поделиться своим опытом с сообществом.

Я постараюсь донести основные идеи, показать как эта VCS помогает разрабатывать проект. Надеюсь, что после прочтения вы сможете ответить на вопросы:
  • можно ли git «подстроить» под тот процесс разработки, который мне нужен?
  • будет ли менеджер и заказчик удовлетворён этим процессом?
  • будет ли легко работать разработчикам?
  • смогут ли новички быстро включиться в процесс?
  • можно ли процесс относительно легко и быстро изменить?


Конечно, я попытаюсь рассказать обо всём по-порядку, начиная с основ. Поэтому, эта статья будет крайне полезна тем, кто только начинает или хочет разобраться с git. Более опытные читатели, возможно, найдут для себя что-то новое, укажут на ошибки или поделятся советом.

Далее очень много букв случайным образом превратились в пост.
Total votes 200: ↑194 and ↓6+188
Comments44

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

Reading time19 min
Views53K
Первую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи.

image
Читать дальше →
Total votes 22: ↑20 and ↓2+18
Comments3

Optimum Transformers: как экономить от 20к$ в год на NLP

Reading time5 min
Views3.8K

Недавно компания ? Hugging Face (стартап, стоящий за библиотекой transformers) выпустила новый продукт под названием "Infinity". Он описывается как сервер для выхода в “production”. Публичная демонстрация доступна на YouTube (ниже приведены скриншоты с таймингами и настройками, использованными во время демонстрации). Все основано на обещании, что продукт может выполнять работу с NLP с задержкой в 1 миллисекунду на графическом процессоре. По словам ведущего демонстрации, сервер Hugging Face Infinity стоит не менее 20.000$ в год за одну модель, развернутую на одной машине (общедоступная информация о ценовой масштабируемости отсутствует).

Мне стало любопытно немного покопаться и проверить, возможно ли достичь таких показателей? Спойлер: да, возможно, и с помощью этой статьи его легко воспроизвести и адаптировать к вашим РЕАЛЬНЫМ проектам.

А для тех, кому лень все это читать и хочется все получить из коробки... Ссылка на GitHub. Поставьте зведу сразу, а потом читайте ?

Читать далее
Total votes 12: ↑11 and ↓1+12
Comments6

ИТ-расходы в бизнесе замедляются? Разбираемся в прогнозах

Reading time4 min
Views3.2K

Мировую экономику лихорадит, бизнес активно “режет косты” – и с учетом пандемии, новых штаммов вируса, геополитики, с ростом цен на энергоносители ИТ-расходы тоже должны были "потесниться". Так ли это? Посмотрим, что говорят сотни западных и российских компаний.

Сравнить цифры по Западу и России
Total votes 1: ↑1 and ↓0+1
Comments1

Как проверить данные во фрейме Pandas с помощью Pandera

Reading time7 min
Views7.1K

В науке о данных важно тестировать не только функции, но и данные, чтобы убедиться, что они работают так, как вы ожидали. Материалом о простой библиотеке Pandera для валидации фреймов данных Pandas делимся к старту флагманского курса по Data Science.

Читать далее
Total votes 5: ↑4 and ↓1+3
Comments0

Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении

Reading time14 min
Views8.3K

Обработка табличных данных средствами Python для использования в моделях машинного обучения - что может быть банальнее. Казалось бы. Иногда табличные данные бывают настолько "грязными", что их вычистка занимает гораздо больше времени, чем подготовка самой модели. Так зачем это делать самому, если с этим не хуже справится AutoML...

Ну и насколько они грязные
Total votes 12: ↑11 and ↓1+13
Comments2

Основные тренды ЦОД в 2022 году: смелые проекты и успешные практики реализации

Reading time7 min
Views3.8K

Привет, Хабр! Компания Acer снова с вами! Мы планируем рассказывать об интересных продуктах: как своих, так и других участников рынка. В первую очередь речь пойдет о серверах и соответствующих корпоративных решениях.

Сегодня же публикуем первый свой пост – это аналитика наиболее заметных трендов на рынке ЦОД в 2022 году. Главный принцип, по которому мы отбирали тренды, – наличие примеров практического внедрения. Кроме того, мы расскажем о необычных разновидностях дата-центров, которых становится все больше.

Читать далее
Total votes 6: ↑6 and ↓0+6
Comments4

Новый ИИ DeepMind позволил историкам расшифровать древнегреческие тексты

Reading time5 min
Views3.6K
image

На этом фрагменте надписи зафиксирован указ, касающийся афинского Акрополя, датируемый 485-484 годами до н. э.

Google DeepMind совместно с учёными создали новый ИИ-инструмент, использующий глубокие нейросети для расшифровки текста повреждённых древнегреческих надписей. Новая система под названием Ithaca построена на основе системы восстановления текста Pythia.

Согласно новой статье, опубликованной командой исследователей в журнале «Nature», Ithaca не просто помогает историкам восстанавливать текст, но и способна определять его происхождение, а также дату создания. Ithaca уже использовали для разрешения спора о корректной датировке нескольких древнеафинских указов. Интерактивная версия Ithaca доступна бесплатно, а сейчас команда переводит её код в open source.
Читать дальше →
Total votes 22: ↑22 and ↓0+22
Comments1

Как работать с числами с плавающей точкой в Python

Reading time9 min
Views60K

К старту курса по Fullstack-разработке на Python делимся решениями классической проблемы неточности чисел с плавающей точкой для новичков. В материале вы найдёте примеры работы с функциями и классами, предназначенными специально для решения проблем чисел с плавающей точкой.

Читать далее
Total votes 22: ↑20 and ↓2+22
Comments4

#1 Дайджест материалов для QA инженера(12 Марта — 28 марта)

Reading time2 min
Views3.9K

Всем привет, до этого не было дайджестов для QA инженеров, я решил закрыть эту нишу, присылайте интересные статьи и будем делать дайджест вместе!

Читать далее
Total votes 4: ↑4 and ↓0+4
Comments6

JavaScript редактор диаграмм, который открывает диаграммы из PNG картинок (open source)

Reading time3 min
Views7.9K

dgrm.net | GitHub

dgrm.net - это редактор диаграмм, с прицелом на трансформацию в карту знаний.

Отличительные особенности:
- аскетичность,
- работает на телефонах (одно из немногих web-решений),
- открытый исходный код.

В процессе разработки появляются интересные моменты. Статья про один из таких моментов: чтение данных из PNG.
Исходный код для использования в своих проектах прилагается.

Читать далее
Total votes 36: ↑36 and ↓0+36
Comments20

Путь к пониманию декораторов в Python

Reading time11 min
Views89K

Прим. Wunder Fund: В этой статье разбираемся, что такое декораторы в Python, зачем они нужны, и в чем их прикол. Статья будет полезна начинающим разработчикам.

Материал рассчитан на начинающих программистов, которые хотят разобраться с тем, что такое декораторы, и с тем, как применять их в своих проектах.

Читать далее
Total votes 21: ↑21 and ↓0+21
Comments4

Сеть данных: как уравновесить централизацию и децентрализацию

Reading time7 min
Views1.8K

Архитектура сети данных (data mesh) распределяет владение данными среди команд из разных предметных областей, с федеративным управлением и децентрализованными продуктами по обработке данных. Сеть данных отличается от других аналогичных архитектур именно своей высокой децентрализацией: она распределена, а не централизована.

Читать далее
Total votes 4: ↑3 and ↓1+3
Comments0

Information

Rating
1,764-th
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity