Articles / Bookmarks / Profile of Jajaka / Habr

@Jajaka

User

ProfileArticles2PostsNewsComments18

stkrizh Jul 9 2021 at 14:21

Алгебраические типы данных и Python

14 min

21K

Python*

Возможно, кто-то из читателей, увидев заголовок этой статьи, подумает что-нибудь вроде:

"Что?! Алгебраические типы данных?! Это же что-то из мира функциональных языков программирования. Python?! Ну нет... Где Python со своей динамической утиной типизацией, а где типы данных, и уж тем более алгебраические..."

Что-то в таком духе. Но, на самом деле, в Python есть своя система типов, кроме того Python считается языком со строгой типизацией, а благодаря mypy и аннотациям, корректность используемых типов может быть проверена статически без непосредственного запуска программы. Помимо всех этих достаточно интересных особенностей, в Python есть возможность работать и с алгебраическими типами данных. Так что же это за типы данных, как они выглядят в Python, и какую практическую пользу приносят — попробуем разобраться в этой статье.

+26

Arnak Jun 27 2021 at 09:47

[Личный опыт] Куала-Лумпур, Малайзия: как русскому программисту живётся в азиатском киберпанке

11 min

75K

getmatch corporate blogIT-emigrationThe future is hereUrbanism

Александр Кушнарев прожил на Кипре два года. Оценил разнообразный климат, попробовал самую вкусную в мире картошку фри, побывал в непризнанной республике на севере, удивился кипрским холодам и отсутствию интернет-магазинов. Об этом уже есть история.

В итоге из Кипра он с женой переехал в Малайзию, где, спойлер, ему понравилось намно-оого больше. Про эту, во многом неизвестную в России, страну на этот раз и пойдет речь.

О еде, которой здесь очень много. О собаках, и почему их нельзя гладить. Об алкоголе, за которым выгодно летать на самолете. О том, почему в офисах всегда две кухни, а на крышах — две идентичные площадки для мангала. Про удивительно терпимую мусульманскую страну, жизнь в которой похожа на киберпанк.

Читать дальше →

+63

volinski Jun 28 2021 at 06:48

Как работать с Big Data быстрее и эффективнее: Kubernetes для Data Science

10 min

10K

VK corporate blogBig Data*Data Engineering*Kubernetes*Cloud computing*

Big Data by Batjorge

Традиционный подход к построению работы с большими данными — развернуть Hadoop-кластер, установить дополнительные инструменты и построить на нем платформу для работы с данными. Но в таком подходе есть несколько ограничений, вроде невозможности разделения Storage- и Compute-слоев, сложностей масштабирования и изоляции сред для разных приложений. Даже несмотря на то, что Hadoop можно арендовать у облачного провайдера как сервис (aaS), такой подход все равно мало чем отличается от развертывания на собственном оборудовании.

Однако есть другой, Cloud-Native подход работы с большими данными. Он позволяет решить эти проблемы, а также получить дополнительные возможности от облачных технологий. Для этого используют Kubernetes, интегрируя его с различными инструментами.

Я Александр Волынский, архитектор облачной платформы Mail.ru Cloud Solutions. Расскажу, как Kubernetes помогает в работе с Big Data, какие используются инструменты и какие преимущества можно получить по сравнению с классическим развертыванием.

Также вы можете посмотреть видеовыступление на митапе «Большие данные: не хайп, а индустрия».

Читать дальше →

+17

king_menin Jun 24 2021 at 09:50

ruCLIP — мультимодальная модель для русского языка

5 min

15K

SberDevices corporate blogNatural Language Processing*Artificial IntelligenceMachine learning*Image processing*

Известно, что глубокие нейронные сети (DNN) и модели компьютерного зрения, в частности, хорошо справляются с конкретными задачами, но зачастую не могут сделать обобщение при работе с новыми. Так, модель, которая хорошо работает с данными о продуктах питания, может показать себя не очень хорошо на спутниковых изображениях и т. д..

В начале этого года OpenAI опубликовала модель под названием CLIP (Contrastive Language–Image Pre-training). В статье авторы модели привели потрясающие результаты по точности zero-shot-классификации изображений, а также сопоставили тексты и картинки в рамках одной системы. Однако модель OpenAI работает только с английским языком. Можно ли быстро адаптировать её для работы с русским?

Команды R&D SberDevices и Sber AI увлеклись этим вопросом. В этой статье мы расскажем про первые результаты наших исследований CLIP для русского языка, опишем ключевые идеи предложенной модели и поделимся с вами кодом для её использования — решения задач zero-shot image classification.

Что же можно сделать с помощью ruCLIP?

+29

Sprait Jun 24 2021 at 09:22

Обзор Lens — IDE для Kubernetes

6 min

66K

Флант corporate blogKubernetes*System administration*Open source*

В прошлый раз я писал о том, как можно улучшить утилиту kubectl, дополнив и расширив ее функционал, а сегодня зайду с другой стороны: познакомимся с решением, которое позволит забыть о консольных командах и управлять Kubernetes-кластером в графическом интерфейсе. Речь пойдёт про Lens — бесплатное приложение с открытым кодом, которое позиционируется как полноценная Kubernetes IDE. Мы уже кратко рассматривали Lens в сравнительном обзоре GUI для K8s, а теперь попробуем это решение в деталях. Что ж, поехали!

+55

snakers4 Jun 21 2021 at 07:25

Сжимаем трансформеры: простые, универсальные и прикладные способы cделать их компактными и быстрыми

6 min

Big Data*Natural Language Processing*Machine learning*Image processing*

Tutorial

transformer_press

Сейчас в сфере ML постоянно слышно про невероятные "успехи" трансформеров в разных областях. Но появляется все больше статей о том, что многие из этих успехов мягко говоря надуманы (из недавнего помню статью про пре-тренировку больших CNN в компьютерном зрении, огромную MLP сетку, статью про деконструкцию достижений в сфере трансформеров).

Если очень коротко просуммировать эти статьи — примерно все более менее эффективные нерекуррентные архитектуры на схожих вычислительных бюджетах, сценариях и данных будут показывать примерно похожие результаты.

Тем не менее у self-attention модуля есть ряд плюсов: (i) относительная простота при правильной реализации (ii) простота квантизации (iii) относительная эффективность на коротких (до нескольких сотен элементов) последовательностях и (iv) относительная популярность (но большая часть имплементаций имеет код раздутый раз в 5).

Также есть определенный пласт статей про улучшение именно асимптотических свойств self-attention модуля (например Linformer и его аналоги). Но несмотря на это, если например открыть список пре-тренированных языковых моделей на основе self-attention модулей, то окажется, что "эффективных" моделей там буквально пара штук и они были сделаны довольно давно. Да и последовательности длиннее 500 символов нужны не очень часто (если вы не Google).

Попробуем ответить на вопрос — а как существенно снизить размер и ускорить self-attention модуль и при этом еще удовлетворить ряду production-ready требований:

Читать дальше →

+19

otter18 Jun 17 2021 at 07:00

17 интересных (и забавных) API для вашего проекта

7 min

140K

Маклауд corporate blogAPI*

В этой статье я собрал несколько интересных сервисов с API, многие из которых вы можете использовать как основу для вашего приложения. Другие же отлично подходят как уникальные фичи, которые помогут разнообразить опыт использования вашей программы.

Читать дальше →

+40

BarakAdama Jun 10 2021 at 08:00

Как Яндекс применил генеративные нейросети для поиска ответов

11 min

71K

Яндекс corporate blogNatural Language Processing*Algorithms*Machine learning*Search engines*

Только что мы представили новую версию поиска Y1. Она включает в себя комплекс технологических изменений. В том числе улучшения в ранжировании за счёт более глубокого применения трансформеров. Подробнее об этом направлении мой коллега Саша Готманов уже рассказывал в нашем блоге. В новой версии модель стала мощнее: количество параметров возросло в 4 раза. Но сегодня мы поговорим о других изменениях.

Когда человек вводит запрос в поисковик, он ищет информацию или способ решения своей задачи. Наша глобальная цель — помогать находить такие ответы, причём сразу в наиболее ёмком виде, чтобы сэкономить людям время. Этот тренд на ускорение решения пользовательских задач особенно заметен в последние годы. К примеру, теперь многие пользователи задают свои вопросы не текстом в поиске, а голосовому помощнику. И тут нам на помощь пришли огромные генеративные нейросети, которые способны перерабатывать, суммаризировать и представлять в ёмком виде тексты на естественном языке. Пожалуй, самой неожиданной особенностью таких сетей стала возможность быстро обучаться на всё новые задачи без необходимости собирать большие датасеты.

Сегодня мы поделимся опытом создания и внедрения технологии YaLM (Yet another Language Model), которая теперь готовит ответы для Поиска и Алисы. В этом мне помогут её создатели — Алексей Петров petrovlesha и Николай Зинов nzinov. Эта история основана на их докладе с Data Fest 2021 и описывает опыт внедрения модели в реальные продукты, поэтому будет полезна и другим специалистам в области NLP. Передаю слово Алексею и Николаю.

+66

owlofmacloud Jun 5 2021 at 07:00

Альтернатива ML-Agents: интегрируем нейросети в Unity-проект с помощью PyTorch C++ API

9 min

6.6K

Маклауд corporate blogC++*API*

Translation

Кратко объясню, что будет происходить в этой статье:

покажу, как использовать PyTorch C++ API для интеграции нейросети в проект на движке Unity;
сам проект я подробно описывать не буду, это не имеет значения для данной статьи;
использую готовую модель нейросети, преобразовав её трассировку в бинарник, который будет подгружаться в рантайме;
покажу, что такой подход существенно облегчает деплой сложных проектов (например, нет проблем с синхронизацией сред Unity и Python).

Добро пожаловать в реальный мир

Методы машинного обучения, в том числе нейронные сети, по-прежнему очень комфортно себя чувствуют в экспериментальных окружениях, а запуск таких проектов в реальном мире часто вызывает трудности. Я немного расскажу про эти трудности, опишу ограничения по способам выхода из них, а также дам поэтапное решение проблемы интеграции нейросети в Unity-проект.

Другими словами, мне нужно превратить исследовательский проект на PyTorch в готовое решение, способное вместе с движком Unity работать в боевых условиях.

Читать дальше →

man_of_letters Jun 4 2021 at 09:08

Балет и роботы

11 min

8.7K

RUVDS.com corporate blogMachine learning*Image processing*Working with video*Reading room

Оцветнение видео под капотом

Продолжаю рассказывать о своём необычном увлечении. Моё хобби заключается в алгоритмическом преобразовании древнего черно-белого видео в материал, который выглядит современно. Про мою первую работу написано в этой статье. Прошло время, мои навыки улучшились, и теперь я не смеюсь над мемом «Zoom and enhance».

Времяпрепровождение может показаться странным, но оно, правда, приносит удовольствие. Может дело в возможности быть волшебником, превращающим с помощью техномагии пепел прошлого в огонь, а может причина в множестве интеллектуальных ребусов, не имеющих готового решения, может быть это компенсация недостатка творческого самовыражения, может быть всё вместе. С каждым новым видео процесс обрастает деталями, растёт количество задействованных сторонних инструментов и скриптов.

Подробности оцветнения

+61

Zangasta May 28 2021 at 13:34

Топот маленьких ножек

6 min

30K

Health

О чем думают молодые люди, когда заходит речь о «топоте маленьких ножек»? О бессонных ночах, грязных пеленках, детских истериках и потерянной карьере. Эти страхи значительно преувеличены. Не могу ничего сказать о беременности и родах — я мужчина. Это не помешало мне выйти в отпуск по уходу за ребенком.

Как это началось? Многие иностранные компании восприняли «Маленькую победоносную войну» 08.08.08 как четкий и недвусмысленный сигнал, отменив планы по развитию бизнеса России. В их числе оказалась компания, в которой я работал начальником СДО — меня сократили, выплатив полугодовой оклад.

Деньги мы тут-же потратили, отправившись в Таиланд — я был востребованным специалистом и без труда находил работу. Вот только вернувшись в Россию, мы словно оказались в другой стране — рынок вакансий в Перми сократился в десятки раз. И если моя беременная подруга смогла найти работу (она химик), то у меня все было глухо.

Подумав, я решил совершить рокировку — предложил подруге сразу после родов выйти на работу, оставив младенца мне. В России государство предоставляет возможность любому из родителей уйти в трехгодичный декретный отпуск, сохранив часть зарплаты. Именно этом опытом я и хочу поделиться.

Работа, которую нашла моя подруга, помимо сравнительно высокой по меркам кризисной Перми зарплаты имела и минусы — она была вахтовая. Так что заниматься новорождённым Андреем пришлось мне. И это оказалось неожиданно просто.

Оставшись тет-а-тет с младенцем, я несколько оробел. Младенец хныкал, бессмысленно таращился по сторонам, гугукал и пускал слюни. Я аккуратно взял его на руки, прижав к груди. Он слегка повозился, устраиваясь поудобнее. И уснул, предоставив мне возможность заниматься своими делами.

+56

343

Hasselhoff May 14 2021 at 15:18

Многоразовый шаблон логирования на Python для всех ваших приложений в Data Science

4 min

7.7K

Skillfactory corporate blogDebugging*Programming*Python*

Translation

Идеальный способ отлаживать и отслеживать приложения — хорошо определённые, информативные и удобно структурированные логи. Они являются необходимым компонентом любого — малого, среднего или крупного — проекта на любом языке программирования, не только на Python. Не используйте print() или корневой логгер по умолчанию, вместо этого настройте логирование на уровне проекта. К старту нового потока курса по Data Science, мы перевели статью, автор которой решил поделиться своим шаблоном для логирования. Не лишним будет сказать, что этот шаблон пришёлся по душе многим специалистам — от дата-сайентистов профессионалов и до разработчиков ПО разного уровня.

iveahugeship May 28 2021 at 10:26

Оцифровка мыслей, или рецепт быстрого приготовления блокнота в микроволновке

6 min

25K

Selectel corporate blogGadgetsLifehacks for geeks

Я люблю думать на бумаге. При работе это помогает мне усваивать большое количество новой информации, ведь, как говорят, «qui scribit, bis legit» («кто пишет, тот дважды читает»). Участвуя в обсуждениях, мозгоштурмах, рабочих встречах, я конспектирую основные моменты: рисую схемки, делаю пометки, записываю идеи. Так я разгружаю свою голову от лишней на текущий момент информации, чтобы сгенерировать новую. Кроме того, записи помогают не потерять что-то важное в потоке мысли. Я всегда могу к ним вернуться и взглянуть на них с общего плана, чтобы увидеть что-то новое. Это здорово помогает.

В статье я расскажу о своем поиске идеального решения для ведения записей и гаджете, в котором я в итоге его нашел.

Читать дальше →

+52

Hiro_Protagonist May 14 2021 at 14:48

Лучшие фантастические циклы по версии «Хьюго». Кто претендует на премию в 2021 году?

5 min

27K

Science fiction

«Хьюго» — одна из самых известных и авторитетных премий в области фантастики. Она присуждается с 1953-го и победителями в различные годы становились Роджер Желязны, Филип К. Дик, Роберт Сильверберг, Урсула Ле Гуин и многие другие признанные мастера жанра.

Несколько лет назад список номинаций «Хьюго» пополнился новой — за лучшую серию. В этой категории победа уже доставалась «Саге о Форкосиганах» и «Шалиону» Лоис Макмастер Буджолд, «Странники» Бекки Чамберс и «Пространство» Джеймса Кори. Хочется рассказать о тех циклах, которые претендуют на награду в этом году — среди них немало примечательных, правда, к сожалению, пока не все изданы на русском языке.

+16

mirhifi May 8 2021 at 09:48

Что посмотреть, пока выходные — старые передачи из 90-х и неспешные видео [можно в качестве фона]

3 min

4.8K

Аудиомания corporate blogWorking with video*History of ITPeripherySound

Ранее мы разобрались с тем, какую музыку слушали бразильцы в 40-х годах прошлого века и рассказали, какие радиостанции популярны на Тибете. Сегодня продолжаем тему находок и обсуждаем видеосервисы, позволяющие путешествовать, не вставая с кресла [привыкать к ним, конечно же, не нужно, а вот поискать что-то занимательное — вполне можно].

zeehond May 9 2021 at 11:46

Использование LoRa для интеграции кота в IoT

6 min

32K

RUVDS.com corporate blogGeoinformation services*IOTDIYThe future is here

Technotext 2021

Увлекательные приключения кота Барсика в нидерландской деревне и его интеграция в интернет вещей с помощью LoRa радио и The Things Network.

+130

106

DragonTreeLabs May 6 2021 at 12:03

Роботы-игрушки. Топ-10 проектов c Kickstarter для развития ребенка и обучения программированию

7 min

15K

GadgetsRoboticsArtificial IntelligenceGames and game consolesVisual programming*

From sandbox

Одним из направлений робототехники стали интеллектуальные игрушки для обучения детей творчеству, основам наук и программированию. Порой такие детские роботы уже обладают элементами искусственного интеллекта (ИИ) и способны самообучаться в процессе общения. Воплотить в жизнь самые оригинальные идеи из детской игровой робототехники помогают небольшим стартапам платформы Кикстартер и Индигого. Из представленных на этих краудфандинговых платформах проектов мы сформировали подборку наиболее востребованных идей, получивших финансирование для дальнейшего развития проекта.

monitoringe Apr 30 2021 at 09:47

Как проходит собеседование Python-разработчика: вопросы для джуниоров и мидлов

7 min

95K

Яндекс Практикум corporate blogPython*IT careerProgramming*Personnel Management*

Technotext 2021

Собеседование — одна из наиболее стрессовых тем для разработчиков, но только первые двадцать раз.

Привет! Меня зовут Руслан, я один из наставников курса «Мидл Python-разработчик» в Яндекс.Практикуме. Около 12 лет я занимаюсь разработкой, из них девять — на Python. За это время я собеседовался на разные позиции десятки раз и сам провёл примерно пару сотен собеседований. Не всегда успешно :/ В этой статье поговорим о том, как снизить вероятность провалов и к чему быть готовым.

Предположим, что вы уже определились с потенциальным работодателем и вам предстоит собеседование.

В посте я расскажу про три основных этапа:

Подготовка к собеседованию: какую домашнюю работу провести, чтобы собеседование прошло легче.
Собеседование: как оно проходит и какие вопросы ждать джунам и мидл-разработчикам.
Что делать после собеседования и как быть, если вам отказали.

Читать дальше →

+17

chemtech Apr 18 2021 at 06:00

Полезные консольные Linux утилиты

13 min

128K

*nix*

В этой подборке представлены полезные малоизвестные консольные Linux утилиты. В списке не представлены Pentest утилиты, так как у них есть своя подборка.

Осторожно много скриншотов. Добавил до ката утилиту binenv.

binenv — cамая интересная утилита для установки новых популярных программ в linux, но которых нет в пакетном менеджере.

Читать дальше →

+109

110

Subrisk Apr 18 2021 at 09:27

Ответ HR-девицам

2 min

78K

Reading room

Re: IT-холостяк и три HR-девицы to HRMuse

HR, позволь тебе ответить
С высот айтишника седин:
Ты знаешь, прогеры — не дети,
Мы не последний хрен едим.

Читать дальше →

+209

1 2

4 5 ...

10 11