Pull to refresh
0
Karma
0
Rating
Илья Кузнецов @kuil

User

Эй-Яй, крипта, MLOps и командный пет-проджект

Open Data Science corporate blog Open source *Data Mining *Machine learning *Project management *

В этой статье я расскажу, как мы командой пилили пет-проджект в рамках курса ODS по MLOps. Покажу не только финальный результат, но и немного расскажу про процесс работы, какие были сложности, как организовывали эффективную работу в команде. Может оказаться полезным для тех, кто хочет окунуться в Machine Learning и сделать свой пет-проджект, но пока чего-то не хватало. Также будет полезно тем, кто уже работает в области Data Science, но пока не окунулся в атмосферу DS, нет крутых коллег и разгвооров про фреймворки у кофемашины, а опыт командной работы именно в области DS получить хочется.

Сразу про то, что получилось на выходе: https://cryptobarometer.org/

Читать далее
Total votes 24: ↑23 and ↓1 +22
Views 5.7K
Comments 9

DIY. Книги для всех, даром

Open Data Science corporate blog Open source *DIY Learning languages Natural Language Processing *
Tutorial
✏️ Technotext 2022

Lingtrain cover


⚡ Градиент обреченный


Upd. 11.06.2022 Многие заинтересовались генерацией изображений нейросетями. Вот Colab (интерактивная среда для запуска кода) для рисования картинок в стиле pixel art по текстовому описанию. Просто запускайте, ближе к концу увидете ячейку для ввода текста. Примеры картинок из Colab'а в комментариях.


Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов.


Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста.


Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему.

Сделать книжку
Total votes 76: ↑76 and ↓0 +76
Views 31K
Comments 49

Выбраться из пирамиды Маслоу

Personnel Management *Reading room Brain

В предыдущей статье на тему нежелания было многократно отмечено, что лучше сначала найти причину проблемы, а не бросаться выбирать самый популярный рецепт устранения симптомов. Когда есть проблемы с желаниями, полезные занятия привычно откладываются на потом, запланированные дела переполняют календарь, а развлечения убивают слишком много времени, лучше вычислить свои личные причины и работать именно с ними.

Некоторые причины отсутствия мотивации можно найти в конкурирующих потребностях. Когда заходит разговор о потребностях и мотивации по-прежнему слишком часто вспоминают пирамиду Маслоу. Когда я слышу о "пирамиде", у меня в мыслях почему-то возникает слово "моветон", образ Вавилонской башни и желание дать ссылку на перечисление возможных альтернатив. Где-то должен быть список из списков потребностей.

Где искать потребности
Total votes 29: ↑25 and ↓4 +21
Views 24K
Comments 20

Крутые GitHub репозитории в области машинного обучения

Python *GitHub *Machine learning *
Sandbox

GitHub - это прекрасное место для того чтобы узнать что-то новое, найти что-то полезное для нынешних и вдохновиться для будущих проектов. Этот список крутых проектов является всего лишь маленькой частью того разнообразия интересных репозиториев в области ML, которые можно найти на гитхабе.

Читать далее
Total votes 7: ↑2 and ↓5 -3
Views 6.6K
Comments 5

Сам себе Гутенберг. Делаем параллельные книги

Open source *Python *Machine learning *Learning languages Natural Language Processing *
Tutorial

Lingtrain parallel books


Upd. 04.12.2021 — Наш телеграм канал


Если вам нравится изучать языки (или вы их преподаете), то вы наверняка сталкивались с таким способом освоения языка как параллельное чтение. Он помогает погрузиться в контекст, увеличивает лексикон и позволяет получить удовольствие от обучения. Читать тексты в оригинале параллельно с русскоязычными, на мой взгляд, стоит, когда уже освоены азы грамматики и фонетики, так что учебники и преподавателей никто не отменял. Но когда дело все же доходит до чтения, то хочется подобрать что-то по своему вкусу, либо что-то уже знакомое или любимое, а это часто невозможно, потому что такого варианта параллельной книги никто не выпускал. А если вы учите не английский язык, а условный японский или венгерский, то трудно найти вообще хоть какой-то интересный материал с параллельным переводом.


Сегодня мы сделаем решительный шаг в сторону исправления этой ситуации.


Из чего делаем


На входе у нас будут два текстовых файла с оригинальным текстом и его переводом. Для примера возьмем книгу "Убить пересмешника" Харпер Ли на русском и английском языках.


Начало документов выглядит так (отрывки приведены в таком виде, в котором они были найдены в сети):

Выровнять пересмешника
Total votes 106: ↑106 and ↓0 +106
Views 20K
Comments 67

Kotlin 1.5: онлайн-мероприятие

JetBrains corporate blog Kotlin *Conferences

Недавно мы выпустили первое крупное обновление 2021 года. В честь этого события мы проведем онлайн-встречу, в ходе которой члены команды Kotlin ответят на ваши вопросы о недавних обновлениях и обо всем, что связано с Kotlin (на английском языке). Присоединяйтесь к нам 25 мая в 17:00 МСК.


Подробнее о самом мероприятии, о сессии Ask Me Anything (AMA) на Reddit, а также о том, как задать вопросы и выиграть футболку, читайте ниже.


image

Зарегистрироваться
Читать дальше →
Total votes 11: ↑10 and ↓1 +9
Views 3.1K
Comments 0

Аналог фейсбучной ленты для Телеграма. Тупенький ИИ OLEG

Python *Machine learning *

Этот пост — о том, как я решил сделать систему коллаборативной фильтрации постов из пабликов Телеграма на основе машинного обучения.


И сделал: OLEG AI


Идея


В мире наступает революция ИИ, и в какой то момент мне стало казаться, что без меня она наступить не сможет. Поэтому я нашел курс по программированию нейросетей на Питоне Fast.AI, и решил придумать себе небольшой проект, чтобы поучиться на практике.


Я люблю Телеграм. И люблю иногда потупить в какую-нибудь ленту "информационного корма". В разное время я любил поразлагаться на Лепре, Дёти, Пикабу, но в итоге всеми этими источниками сладкого яда я остался недоволен.


И тогда я подумал: в Телеграме ведь куча источников, но Телеграм их не агрегирует по типу Фейсбука. Телеграм не собирает с нас лайки. Да, лайки это чистое зло и гореть им в аду, но иногда так хочется лайкнуть жопу фотомодели, нет?


А рекомендательные сервисы — это одно из направлений ML. А Телеграм — открытая система. Должно быть не сложно, подумал я. Оказалось чуть сложнее чем я думал, но получилось.

Читать дальше →
Total votes 8: ↑8 and ↓0 +8
Views 5.3K
Comments 23

Что делать, если украли смартфон

Information Security *Smartphones Popular science Lifehacks for geeks
image


Евгений (MalDeckard) Черешнев поделился личным опытом и написал исчерпывающий гайд, который может помочь многим людям и предостеречь от последствий:

У меня на днях украли смартфон — профессиональный вор-велосипедист на скорости выхватил из рук прямо в центре города и был таков. Это может случиться с кем угодно и в любой стране мира. Я, в силу профессиональной деформации вокруг IT, данных, приватности и безопасности, к ситуации был морально готов и знал, что делать. Друзья, с которым поделился историей посоветовали написать памятку, которую может использовать каждый человек, даже далекий от айти. Этот текст — эта самая памятка. Смартфон она вам не вернет. Но, если кому-то поможет снизить ущерб и сэкономит седых волос — значит, не зря потратил время на написание, а вы — на прочтение.

Справедливости ради, большинство воров уже в курсе того, что каждый смартфон — это, по сути, радиомаяк, по которому всегда можно укравшего отследить. Поэтому они редко оставляют его включенным — практически сразу достают и выбрасывают SIM-карту, сам телефон вырубают и сдают на запчасти за копейки. Что крайне обидно — ибо шансы того, что, например, мой iPhone 12 Pro Max 512 банально разберут на экран, аккумулятор и несколько особо востребованных микросхем — стремятся к 100%. То есть, вор украл крайне дорогой девайс, а получит за него или хрен или (если он идиот) — срок. Но это не всегда так. Иногда можно получить реально грузовичок и тележку проблем. Во-первых, в ряде типов краж (как в моем случае) телефон попадает в руки плохого парня в разлоченном состоянии и есть риск, что злоумышленник девайс специально не залочит — будет держать его активированным и извлекать из него максимальную пользу, на что у него будет в теории до 24ч (после чего сработает система защиты в заводских настройках и снова попросит ввести пин-код, даже, если телефон до сих пор разлочен).
Читать дальше →
Total votes 167: ↑157 and ↓10 +147
Views 167K
Comments 484

Биткоин: Что, Как и Зачем

Cryptocurrencies

Если поинтересоваться у людей вокруг, слышали ли они что-нибудь о Биткоине, то наверняка каждый ответит: "о да, конечно". Уже несколько лет криптовалюты подгоняются под религиозные нормы, кто-то зарабатывает на них огромные деньги, а целые государства не понимают, как реагировать на новые технологии.

Тем не менее что это, как это работает, и зачем оно всё нужно? Чем это лучше существующих платежных систем и причем тут видеокарты? Об этом и не только будет идти речь в данной статье.

Читать далее
Total votes 52: ↑38 and ↓14 +24
Views 73K
Comments 170

Своё железо или облако: считаем TCO

Cloud4Y corporate blog Cloud computing *Cloud services *Finance in IT
Сравнительно недавно Cloud4Y проводил вебинар, посвящённый вопросам TCO, то есть совокупного владения оборудованием. Мы получили массу вопросов по этой теме, и это показывает желание аудитории разобраться в ней. Если вы в первый раз слышите про TCO или хотите понять, как правильно оценивать выгоды от использования своей или облачной инфраструктуры, то стоит заглянуть под кат.
Читать дальше →
Total votes 8: ↑5 and ↓3 +2
Views 4.7K
Comments 8

Медуза: власти выложили в открытый доступ персональные данные всех интернет-избирателей (на самом деле нет)

Information Security *
Привет, Хабр

Как вы могли заметить (1, 2, 3...), к темам персональных данных и электронного голосования мы неравнодушны и по отдельности, а уж когда они встречаются вместе…

Более миллиона жителей Москвы и Нижегородской области проголосовали за поправки к Конституции или против них через интернет. «Медуза» выяснила, что паспортные данные этих избирателей лежали практически в открытом доступе. Более того, оказалось, что некоторые интернет-избиратели были записаны в системе дважды, а другие смогли проголосовать, хотя их паспорта МВД считает недействительными.


TL;DR: что произошло:

  • УИКи (участковые избирательные комиссии, это те, в которые вы ногами ходите, чтобы проголосовать) получили от МГИК (московской городской избирательной комиссии, это главная избирательная комиссия Москвы) программку, которая позволяла быстро проверить, не голосовал ли пришедший за бумажным бюллетенем товарищ дистанционно по электронке
  • вместо доступа к удалённому серверу при каждой проверке предлагалось качнуть базу SQLite и проверять всё локально — то ли ради простоты написания софтины, то ли на случай сбоев связи
  • в базе были хэши номеров паспортов избирателей
  • разумеется, базу слили на сторону, по хэшам за пару дней подобрали реальные номера паспортов
  • четыре с лишним тысячи паспортов из базы при проверке в публичном интерфейсе МВД оказались недействительными (ну и совсем по мелочи там ещё было дубликатов и т.п.)

Под катом — что произошло на самом деле и, главное, как это расценивать с точки зрения меня, как официального наблюдателя в ТИК ДЭГ от Общественной палаты РФ и Партии прямой демократии.

Читать дальше →
Total votes 129: ↑76 and ↓53 +23
Views 22K
Comments 371

Эх, айти, куда ж ты котишься? 

Project management *Studying in IT Product Management *IT career IT-companies
Ну что, Хабр, прошло полгода какого-то очень неприятного 2020, до конца десятилетия ещё чуть-чуть — и уже сегодня я могу сказать: это десятилетие прежде всего стало золотым веком IT-сферы. Накопленный опыт, новые эксперименты и крутое железо сделали своё дело. Казалось, что айти стало новым рок-н-роллом, но как-то быстро оно приблизилось к тому, чтобы стать новой попсой. Все хотят в айти, неважно кем: менеджерами всего и по всему, переводчиками, деврелами, пиарщиками, копирайтерами, ну и собственно программистами, тестировщиками, инженерами. А отрасль тем временем сильно видоизменяется. Предлагаю вам поговорить о нас, о нашем айти и о том, куда всё катится. 

Читать дальше →
Total votes 133: ↑111 and ↓22 +89
Views 70K
Comments 216

Ubuntu — не лучший настольный Linux

Configuring Linux *Desktop environments *Desktop PC's
Sandbox
Захотев перейти на Linux дома или на работе, люди обычно ставят Ubuntu, Mint, Fedora, порой даже Debian. И очень зря не пробуют Manjaro Linux — на мой взгляд, этот дистрибутив удобнее Убунты (которая уже де-факто — Default Linux), и даже удобнее Минта.

Manjaro — производная от Arch Linux (так же как Ubuntu — производная от Debian), пилится европейской командой Manjaro Team. У Манжары почти такая же структура системы, как у Арча, но с некоторыми особенностями, которые делают его на 146% юзерфрендли.
Читать дальше →
Total votes 118: ↑88 and ↓30 +58
Views 188K
Comments 665

Алиса помнит всё

Node.JS *Yandex API *Google Cloud Platform *Voice user interfaces *
Tutorial


Сегодня мы будем делать навык (приложение) для Алисы — своеобразную записную книжку (или стикер на холодильник): если во фразе пользователя (он же на профессиональном сленге юзер) есть слово "Запомни" — вся фраза сохраняется, и при следующем запуске навыка — будет любезно зачитана пользователю. Код приложения мы пишем на Node.js, для выполнения кода будем использовать Yandex Cloud Functions, а хранить данные — в Firebase Cloud Firestore. В результате у нас должен получиться точно такой же навык как "Запомни и Забудь", опубликованный в каталоге навыков Алисы.
Читать дальше →
Total votes 16: ↑15 and ↓1 +14
Views 12K
Comments 2

50 оттенков matplotlib — The Master Plots (с полным кодом на Python)

Python *Data visualization *Machine learning *Matlab *
Translation
Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала проанализировать корреляции, выбрать нужные данные, выкинуть ненужные и так далее. Для подобных целей часто используется визуализация с помощью библиотеки matplotlib.



Встретимся «внутри»!
Читать дальше →
Total votes 67: ↑67 and ↓0 +67
Views 260K
Comments 15

Must-have алгоритмы машинного обучения

Python *Data Mining *Algorithms *Big Data *Artificial Intelligence
Translation
Хабр, привет.

Этот пост — краткий обзор общих алгоритмов машинного обучения. К каждому прилагается краткое описание, гайды и полезные ссылки.

Метод главных компонент (PCA)/SVD


Это один из основных алгоритмов машинного обучения. Позволяет уменьшить размерность данных, потеряв наименьшее количество информации. Применяется во многих областях, таких как распознавание объектов, компьютерное зрение, сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных или к сингулярному разложению матрицы данных.

image

SVD — это способ вычисления упорядоченных компонентов.

Полезные ссылки:


Вводный гайд:

Читать дальше →
Total votes 38: ↑31 and ↓7 +24
Views 28K
Comments 6

Инновации по-русски

Start-up development Legislation in IT IT career
Я — профессиональный участник инновационной индустрии. Вместе с коллегами последние 10 лет мы участвуем в создании новых технологий.

И я должен сказать о причине, по которой не стоит заниматься инновациями в России. Здесь можно порассуждать о плохом инвестиционном климате, неэффективности государственных программ, размере внутреннего рынка, смещенных мотивациях участников. Но кроме этого есть и плохо контролируемый риск, который заключается в возможности оказаться за решеткой. И об этом не принято говорить вслух, а нужно. Под катом топ-5 инновационных компаний по версии следственного комитета, известных мне, а их злоключения не были ранее упомянуты на хабре.
Читать дальше →
Total votes 513: ↑480 and ↓33 +447
Views 167K
Comments 615

А в вашей жизни были приключения интереснее, чем в компьютерных играх?

Мосигра corporate blog Game development *Brain
Наш ветвер на низком уровне не отличает собственный живой опыт от выдумки. То есть того, что мы видим в играх, фильмах и книгах. Мозгу всё равно. Что случилось в последней игре — так же легло в копилку опыта, как и то, что случилось вчера в офисе. Благодаря развитию IT и своему воображению, мы можем от первого лица переживать опыт, который никогда нельзя испытать в реальности.

Проиллюстрирую рядом воспоминаний. Вспомните траву под ветром в Сталкере и пробежку до 4-го энергоблока под переговоры военных; финальные диалоги с Элизбет из Биошока; многоэтажный остров Хэнша из Deus Ex; практически все первые впечатления от колоний Mass Effect; перестройку сознания в «Трассе-60»; концовку первой книги «Ведьмака». И так далее.



Возможно, почти каждый из нас был в сотнях миров Гипериона, наблюдал за дисфункцией реальности и шел к Нижнему Краю на «Внеполосном». Мы вместе ходили с Морриган в самоубийственную атаку на дракона; вместе спасали друзей в Far Cry; вылетали на террор сектоидов в Лиме и ехали вместе с Каином в такси в V:tM.

Это и многое другое рождает парадокс suspension of disbelief — приостановку неверия.
Читать дальше →
Total votes 154: ↑148 and ↓6 +142
Views 56K
Comments 435

Проектные нормы в микроэлектронике: где на самом деле 7 нанометров в технологии 7 нм?

Circuit design *Manufacture and development of electronics *CPU Electronics for beginners
Современные микроэлектронные технологии — как «Десять негритят». Стоимость разработки и оборудования так велика, что с каждым новым шагом вперёд кто-то отваливается. После новости об отказе GlobalFoundries от разработки 7 нм их осталось трое: TSMC, Intel и Samsung. А что такое, собственно “проектные нормы” и где там тот самый заветный размер 7 нм? И есть ли он там вообще?


Рисунок 1. Транзистор Fairchild FI-100, 1964 год.

Самые первые серийные МОП-транзисторы вышли на рынок в 1964 году и, как могут увидеть из рисунка искушенные читатели, они почти ничем не отличались от более-менее современных — кроме размера (посмотрите на проволоку для масштаба).
Читать дальше →
Total votes 157: ↑157 and ↓0 +157
Views 118K
Comments 148

13 сюрпризов неайтишной компании

Project management *Personnel Management *IT career
Отработав много лет в компаниях, занимающихся разработкой программного обеспечения на заказ, невольно начинаешь задумываться — а как всё-таки выглядит вся эта суета с другой стороны, со стороны заказчика? Грешным делом начинает казаться, что там всё просто и понятно, все люди сведущи и профессиональны, решения принимаются осмысленно и обоснованно, да и вообще, жизнь кипит, а не как в этом нашем айтишном болоте…

Пару-тройку лет назад подобные соображения подтолкнули меня попробовать поработать в компании, где источником дохода является что угодно, только не разработка софта. Удачно подвернулось предложение от бывших коллег занять должность IT-директора в одной из ведущих организаций финансовой сферы, и я приступил к кипучей деятельности, браво закатав рукава. Теперь, спустя некоторое время, с высоты, так сказать, полученного опыта, хочу поделиться сюрпризами, что ожидали меня на этом пути – конечно, те, кому уже довелось поработать в разных сферах и разных организациях, скорее всего не обнаружат тут для себя ничего ни нового, ни удивительного, однако для наивных айтишников вроде меня, видавших доселе только однотипные «бодишопы»-аутсорсеры, что-то может показаться и вправду неожиданным.
Итак, поехали
Total votes 185: ↑177 and ↓8 +169
Views 90K
Comments 251

Information

Rating
Does not participate
Location
Россия
Registered
Activity