Articles / Bookmarks / Profile of kuil / Habr

Илья Кузнецов @kuil

User

Profile Publications 1 Comments 108 Bookmarks 125

yorko Jun 30 2022 at 16:01

Эй-Яй, крипта, MLOps и командный пет-проджект

16 min

9.5K

Open source *Data Mining *Machine learning *Project management *Open Data Science corporate blog

В этой статье я расскажу, как мы командой пилили пет-проджект в рамках курса ODS по MLOps. Покажу не только финальный результат, но и немного расскажу про процесс работы, какие были сложности, как организовывали эффективную работу в команде. Может оказаться полезным для тех, кто хочет окунуться в Machine Learning и сделать свой пет-проджект, но пока чего-то не хватало. Также будет полезно тем, кто уже работает в области Data Science, но пока не окунулся в атмосферу DS, нет крутых коллег и разгвооров про фреймворки у кофемашины, а опыт командной работы именно в области DS получить хочется.

Сразу про то, что получилось на выходе: https://cryptobarometer.org/

+22

averkij Jun 8 2022 at 15:32

DIY. Книги для всех, даром

7 min

34K

Open source *Open Data Science corporate blog DIY Learning languages Natural Language Processing *

Tutorial

Technotext 2022

Lingtrain cover

⚡ Градиент обреченный

Upd. 11.06.2022 Многие заинтересовались генерацией изображений нейросетями. Вот Colab (интерактивная среда для запуска кода) для рисования картинок в стиле pixel art по текстовому описанию. Просто запускайте, ближе к концу увидете ячейку для ввода текста. Примеры картинок из Colab'а в комментариях.

Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов.

Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста.

Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему.

Сделать книжку

+76

dolovar Nov 6 2021 at 08:00

Выбраться из пирамиды Маслоу

29 min

31K

Personnel Management *Reading room Brain

В предыдущей статье на тему нежелания было многократно отмечено, что лучше сначала найти причину проблемы, а не бросаться выбирать самый популярный рецепт устранения симптомов. Когда есть проблемы с желаниями, полезные занятия привычно откладываются на потом, запланированные дела переполняют календарь, а развлечения убивают слишком много времени, лучше вычислить свои личные причины и работать именно с ними.

Некоторые причины отсутствия мотивации можно найти в конкурирующих потребностях. Когда заходит разговор о потребностях и мотивации по-прежнему слишком часто вспоминают пирамиду Маслоу. Когда я слышу о "пирамиде", у меня в мыслях почему-то возникает слово "моветон", образ Вавилонской башни и желание дать ссылку на перечисление возможных альтернатив. Где-то должен быть список из списков потребностей.

Где искать потребности

+21

marmarmar Oct 18 2021 at 12:40

Крутые GitHub репозитории в области машинного обучения

1 min

7.4K

Python *GitHub *Machine learning *

From sandbox

GitHub - это прекрасное место для того чтобы узнать что-то новое, найти что-то полезное для нынешних и вдохновиться для будущих проектов. Этот список крутых проектов является всего лишь маленькой частью того разнообразия интересных репозиториев в области ML, которые можно найти на гитхабе.

-3

averkij May 16 2021 at 21:33

Сам себе Гутенберг. Делаем параллельные книги

12 min

22K

Open source *Python *Machine learning *Learning languages Natural Language Processing *

Tutorial

Lingtrain parallel books

Upd. 04.12.2021 — Наш телеграм канал

Если вам нравится изучать языки (или вы их преподаете), то вы наверняка сталкивались с таким способом освоения языка как параллельное чтение. Он помогает погрузиться в контекст, увеличивает лексикон и позволяет получить удовольствие от обучения. Читать тексты в оригинале параллельно с русскоязычными, на мой взгляд, стоит, когда уже освоены азы грамматики и фонетики, так что учебники и преподавателей никто не отменял. Но когда дело все же доходит до чтения, то хочется подобрать что-то по своему вкусу, либо что-то уже знакомое или любимое, а это часто невозможно, потому что такого варианта параллельной книги никто не выпускал. А если вы учите не английский язык, а условный японский или венгерский, то трудно найти вообще хоть какой-то интересный материал с параллельным переводом.

Сегодня мы сделаем решительный шаг в сторону исправления этой ситуации.

Из чего делаем

На входе у нас будут два текстовых файла с оригинальным текстом и его переводом. Для примера возьмем книгу "Убить пересмешника" Харпер Ли на русском и английском языках.

Начало документов выглядит так (отрывки приведены в таком виде, в котором они были найдены в сети):

Выровнять пересмешника

+106

advertka May 14 2021 at 18:17

Kotlin 1.5: онлайн-мероприятие

2 min

3.1K

JetBrains corporate blog Kotlin *Conferences

Недавно мы выпустили первое крупное обновление 2021 года. В честь этого события мы проведем онлайн-встречу, в ходе которой члены команды Kotlin ответят на ваши вопросы о недавних обновлениях и обо всем, что связано с Kotlin (на английском языке). Присоединяйтесь к нам 25 мая в 17:00 МСК.

Подробнее о самом мероприятии, о сессии Ask Me Anything (AMA) на Reddit, а также о том, как задать вопросы и выиграть футболку, читайте ниже.

Зарегистрироваться

Читать дальше →

Yorick May 9 2021 at 14:12

Аналог фейсбучной ленты для Телеграма. Тупенький ИИ OLEG

10 min

5.8K

Python *Machine learning *

Этот пост — о том, как я решил сделать систему коллаборативной фильтрации постов из пабликов Телеграма на основе машинного обучения.

И сделал: OLEG AI

Идея

В мире наступает революция ИИ, и в какой то момент мне стало казаться, что без меня она наступить не сможет. Поэтому я нашел курс по программированию нейросетей на Питоне Fast.AI, и решил придумать себе небольшой проект, чтобы поучиться на практике.

Я люблю Телеграм. И люблю иногда потупить в какую-нибудь ленту "информационного корма". В разное время я любил поразлагаться на Лепре, Дёти, Пикабу, но в итоге всеми этими источниками сладкого яда я остался недоволен.

И тогда я подумал: в Телеграме ведь куча источников, но Телеграм их не агрегирует по типу Фейсбука. Телеграм не собирает с нас лайки. Да, лайки это чистое зло и гореть им в аду, но иногда так хочется лайкнуть жопу фотомодели, нет?

А рекомендательные сервисы — это одно из направлений ML. А Телеграм — открытая система. Должно быть не сложно, подумал я. Оказалось чуть сложнее чем я думал, но получилось.

Читать дальше →

MagisterLudi Mar 30 2021 at 18:28

Что делать, если украли смартфон

10 min

172K

Information Security *Smartphones Popular science Lifehacks for geeks

Евгений (MalDeckard) Черешнев поделился личным опытом и написал исчерпывающий гайд, который может помочь многим людям и предостеречь от последствий:

У меня на днях украли смартфон — профессиональный вор-велосипедист на скорости выхватил из рук прямо в центре города и был таков. Это может случиться с кем угодно и в любой стране мира. Я, в силу профессиональной деформации вокруг IT, данных, приватности и безопасности, к ситуации был морально готов и знал, что делать. Друзья, с которым поделился историей посоветовали написать памятку, которую может использовать каждый человек, даже далекий от айти. Этот текст — эта самая памятка. Смартфон она вам не вернет. Но, если кому-то поможет снизить ущерб и сэкономит седых волос — значит, не зря потратил время на написание, а вы — на прочтение.

Справедливости ради, большинство воров уже в курсе того, что каждый смартфон — это, по сути, радиомаяк, по которому всегда можно укравшего отследить. Поэтому они редко оставляют его включенным — практически сразу достают и выбрасывают SIM-карту, сам телефон вырубают и сдают на запчасти за копейки. Что крайне обидно — ибо шансы того, что, например, мой iPhone 12 Pro Max 512 банально разберут на экран, аккумулятор и несколько особо востребованных микросхем — стремятся к 100%. То есть, вор украл крайне дорогой девайс, а получит за него или хрен или (если он идиот) — срок. Но это не всегда так. Иногда можно получить реально грузовичок и тележку проблем. Во-первых, в ряде типов краж (как в моем случае) телефон попадает в руки плохого парня в разлоченном состоянии и есть риск, что злоумышленник девайс специально не залочит — будет держать его активированным и извлекать из него максимальную пользу, на что у него будет в теории до 24ч (после чего сработает система защиты в заводских настройках и снова попросит ввести пин-код, даже, если телефон до сих пор разлочен).

Читать дальше →

+147

486

lisovrv Dec 18 2020 at 21:35

Биткоин: Что, Как и Зачем

12 min

83K

Cryptocurrencies

Если поинтересоваться у людей вокруг, слышали ли они что-нибудь о Биткоине, то наверняка каждый ответит: "о да, конечно". Уже несколько лет криптовалюты подгоняются под религиозные нормы, кто-то зарабатывает на них огромные деньги, а целые государства не понимают, как реагировать на новые технологии.

Тем не менее что это, как это работает, и зачем оно всё нужно? Чем это лучше существующих платежных систем и причем тут видеокарты? Об этом и не только будет идти речь в данной статье.

+24

171

Cloud4Y Aug 25 2020 at 16:10

Своё железо или облако: считаем TCO

4 min

5.6K

Cloud computing *Cloud4Y corporate blog Cloud services *Finance in IT

Сравнительно недавно Cloud4Y проводил вебинар, посвящённый вопросам TCO, то есть совокупного владения оборудованием. Мы получили массу вопросов по этой теме, и это показывает желание аудитории разобраться в ней. Если вы в первый раз слышите про TCO или хотите понять, как правильно оценивать выгоды от использования своей или облачной инфраструктуры, то стоит заглянуть под кат.

Читать дальше →

Subrisk Jul 4 2020 at 13:31

Эх, айти, куда ж ты котишься?

20 min

71K

Project management *Studying in IT Product Management *IT career IT-companies

Ну что, Хабр, прошло полгода какого-то очень неприятного 2020, до конца десятилетия ещё чуть-чуть — и уже сегодня я могу сказать: это десятилетие прежде всего стало золотым веком IT-сферы. Накопленный опыт, новые эксперименты и крутое железо сделали своё дело. Казалось, что айти стало новым рок-н-роллом, но как-то быстро оно приблизилось к тому, чтобы стать новой попсой. Все хотят в айти, неважно кем: менеджерами всего и по всему, переводчиками, деврелами, пиарщиками, копирайтерами, ну и собственно программистами, тестировщиками, инженерами. А отрасль тем временем сильно видоизменяется. Предлагаю вам поговорить о нас, о нашем айти и о том, куда всё катится.

Читать дальше →

+89

216

mrtux Jan 18 2020 at 19:26

Ubuntu — не лучший настольный Linux

3 min

191K

Configuring Linux *Desktop environments *Desktop PC's

From sandbox

Захотев перейти на Linux дома или на работе, люди обычно ставят Ubuntu, Mint, Fedora, порой даже Debian. И очень зря не пробуют Manjaro Linux — на мой взгляд, этот дистрибутив удобнее Убунты (которая уже де-факто — Default Linux), и даже удобнее Минта.

Manjaro — производная от Arch Linux (так же как Ubuntu — производная от Debian), пилится европейской командой Manjaro Team. У Манжары почти такая же структура системы, как у Арча, но с некоторыми особенностями, которые делают его на 146% юзерфрендли.

Читать дальше →

+58

665

mzaharov Dec 25 2019 at 00:07

Алиса помнит всё

5 min

13K

Node.JS *Yandex API *Google Cloud Platform *Voice user interfaces *

Tutorial

Сегодня мы будем делать навык (приложение) для Алисы — своеобразную записную книжку (или стикер на холодильник): если во фразе пользователя (он же на профессиональном сленге юзер) есть слово "Запомни" — вся фраза сохраняется, и при следующем запуске навыка — будет любезно зачитана пользователю. Код приложения мы пишем на Node.js, для выполнения кода будем использовать Yandex Cloud Functions, а хранить данные — в Firebase Cloud Firestore. В результате у нас должен получиться точно такой же навык как "Запомни и Забудь", опубликованный в каталоге навыков Алисы.

Читать дальше →

+14

WhiteBlackGoose Sep 21 2019 at 13:38

50 оттенков matplotlib — The Master Plots (с полным кодом на Python)

39 min

362K

Python *Data visualization *Machine learning *Matlab *

Translation

Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала проанализировать корреляции, выбрать нужные данные, выкинуть ненужные и так далее. Для подобных целей часто используется визуализация с помощью библиотеки matplotlib.

Встретимся «внутри»!

Читать дальше →

+67

Syurmakov Sep 18 2019 at 11:45

Must-have алгоритмы машинного обучения

5 min

30K

Python *Data Mining *Algorithms *Big Data *Artificial Intelligence

Translation

Хабр, привет.

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи. Этот пост — краткий обзор общих алгоритмов машинного обучения. К каждому прилагается краткое описание, гайды и полезные ссылки.

Метод главных компонент (PCA)/SVD

Это один из основных алгоритмов машинного обучения. Позволяет уменьшить размерность данных, потеряв наименьшее количество информации. Применяется во многих областях, таких как распознавание объектов, компьютерное зрение, сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных или к сингулярному разложению матрицы данных.

SVD — это способ вычисления упорядоченных компонентов.

Полезные ссылки:

Вводный гайд:

Учебное пособие по основному анализу компонентов

Читать дальше →

+24

Vasyutka May 15 2019 at 13:05

Инновации по-русски

9 min

171K

Start-up development Legislation in IT IT career

Я — профессиональный участник инновационной индустрии. Вместе с коллегами последние 10 лет мы участвуем в создании новых технологий.

И я должен сказать о причине, по которой не стоит заниматься инновациями в России. Здесь можно порассуждать о плохом инвестиционном климате, неэффективности государственных программ, размере внутреннего рынка, смещенных мотивациях участников. Но кроме этого есть и плохо контролируемый риск, который заключается в возможности оказаться за решеткой. И об этом не принято говорить вслух, а нужно. Под катом топ-5 инновационных компаний по версии следственного комитета, известных мне, а их злоключения не были ранее упомянуты на хабре.

Читать дальше →

+447

249

Milfgard Mar 25 2019 at 15:19

А в вашей жизни были приключения интереснее, чем в компьютерных играх?

6 min

57K

Game development *Мосигра corporate blog Brain

Наш ветвер на низком уровне не отличает собственный живой опыт от выдумки. То есть того, что мы видим в играх, фильмах и книгах. Мозгу всё равно. Что случилось в последней игре — так же легло в копилку опыта, как и то, что случилось вчера в офисе. Благодаря развитию IT и своему воображению, мы можем от первого лица переживать опыт, который никогда нельзя испытать в реальности.

Проиллюстрирую рядом воспоминаний. Вспомните траву под ветром в Сталкере и пробежку до 4-го энергоблока под переговоры военных; финальные диалоги с Элизбет из Биошока; многоэтажный остров Хэнша из Deus Ex; практически все первые впечатления от колоний Mass Effect; перестройку сознания в «Трассе-60»; концовку первой книги «Ведьмака». И так далее.

Возможно, почти каждый из нас был в сотнях миров Гипериона, наблюдал за дисфункцией реальности и шел к Нижнему Краю на «Внеполосном». Мы вместе ходили с Морриган в самоубийственную атаку на дракона; вместе спасали друзей в Far Cry; вылетали на террор сектоидов в Лиме и ехали вместе с Каином в такси в V:tM.

Это и многое другое рождает парадокс suspension of disbelief — приостановку неверия.

Читать дальше →

+142

435

amartology Sep 24 2018 at 11:47

Проектные нормы в микроэлектронике: где на самом деле 7 нанометров в технологии 7 нм?

12 min

125K

Circuit design *Manufacture and development of electronics *CPU Electronics for beginners

Современные микроэлектронные технологии — как «Десять негритят». Стоимость разработки и оборудования так велика, что с каждым новым шагом вперёд кто-то отваливается. После новости об отказе GlobalFoundries от разработки 7 нм их осталось трое: TSMC, Intel и Samsung. А что такое, собственно “проектные нормы” и где там тот самый заветный размер 7 нм? И есть ли он там вообще?

Рисунок 1. Транзистор Fairchild FI-100, 1964 год.

Самые первые серийные МОП-транзисторы вышли на рынок в 1964 году и, как могут увидеть из рисунка искушенные читатели, они почти ничем не отличались от более-менее современных — кроме размера (посмотрите на проволоку для масштаба).

Читать дальше →

+157

148

TheR Oct 25 2017 at 16:33

13 сюрпризов неайтишной компании

9 min

93K

Project management *Personnel Management *IT career

Отработав много лет в компаниях, занимающихся разработкой программного обеспечения на заказ, невольно начинаешь задумываться — а как всё-таки выглядит вся эта суета с другой стороны, со стороны заказчика? Грешным делом начинает казаться, что там всё просто и понятно, все люди сведущи и профессиональны, решения принимаются осмысленно и обоснованно, да и вообще, жизнь кипит, а не как в этом нашем айтишном болоте…

Пару-тройку лет назад подобные соображения подтолкнули меня попробовать поработать в компании, где источником дохода является что угодно, только не разработка софта. Удачно подвернулось предложение от бывших коллег занять должность IT-директора в одной из ведущих организаций финансовой сферы, и я приступил к кипучей деятельности, браво закатав рукава. Теперь, спустя некоторое время, с высоты, так сказать, полученного опыта, хочу поделиться сюрпризами, что ожидали меня на этом пути – конечно, те, кому уже довелось поработать в разных сферах и разных организациях, скорее всего не обнаружат тут для себя ничего ни нового, ни удивительного, однако для наивных айтишников вроде меня, видавших доселе только однотипные «бодишопы»-аутсорсеры, что-то может показаться и вправду неожиданным.

Итак, поехали

+169

251

Dirac Oct 23 2017 at 20:22

Краткий курс машинного обучения или как создать нейронную сеть для решения скоринг задачи

28 min

209K

Python *Programming *Algorithms *Machine learning *Artificial Intelligence

Tutorial

Мы часто слышим такие словесные конструкции, как «машинное обучение», «нейронные сети». Эти выражения уже плотно вошли в общественное сознание и чаще всего ассоциируются с распознаванием образов и речи, с генерацией человекоподобного текста. На самом деле алгоритмы машинного обучения могут решать множество различных типов задач, в том числе помогать малому бизнесу, интернет-изданию, да чему угодно. В этой статье я расскажу как создать нейросеть, которая способна решить реальную бизнес-задачу по созданию скоринговой модели. Мы рассмотрим все этапы: от подготовки данных до создания модели и оценки ее качества.

Если тебе интересно машинное обучение, то приглашаю в «Мишин Лернинг» — мой субъективный телеграм-канал об искусстве глубокого обучения, нейронных сетях и новостях из мира искусственного интеллекта.

Вопросы, которые разобраны в статье:

• Как собрать и подготовить данные для построения модели?
• Что такое нейронная сеть и как она устроена?
• Как написать свою нейронную сеть с нуля?
• Как правильно обучить нейронную сеть на имеющихся данных?
• Как интерпретировать модель и ее результаты?
• Как корректно оценить качество модели?

Поехали!

+33

2 3 4 5 6