Pull to refresh
10
Karma
21.8
Rating
Skillfactory School @skillfactory_school

Школа Computer Science

Представление, кластеризация и подобие в примерах, иллюстрациях и таблицах

SkillFactory corporate blog Python *Programming *Machine learning *
Tutorial
Translation

Ключевые элементы машинного обучения и скрытых пространств



Эта статья послужит введением в представление (embedding), подобие (similarity) и кластеризацию (clustering).


Знать эти ключевые понятия машинного обучения нужно, чтобы понять, что такое скрытое пространство.


  • Под представлением понимается представление реального мира в виде данных. Только после представления мы сможем анализировать и использовать в приложениях объекты и явления реального мира.
  • Подобие определяет степень сходства между представлениями реального мира и позволяет, например, рекомендовать тот или иной товар.
  • Кластеризация позволяет объединить представления реального мира в группы, например, чтобы найти книги по заданной тематике.

За подробностями приглашаем под кат.

Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Views 1.2K
Comments 0

Логистическая регрессия: подробный обзор

SkillFactory corporate blog Python *Programming *Mathematics *
Tutorial
Translation


Рисунок 1. Модель логистической регрессии. Источник.


Логистическая регрессия использовалась в области биологических исследований ещё в начале двадцатого века. Затем её стали применять во многих общественных науках. Логистическая регрессия применима, когда зависимая переменная (целевое значение) является категориальной. Подробности в иллюстрациях — в материале, а практика — на нашем курсе, посвящённом Data Science.

Читать дальше →
Total votes 6: ↑4 and ↓2 +2
Views 1.7K
Comments 4

Bittorrent с нуля на Go

SkillFactory corporate blog Programming *Network technologies *Go *
Tutorial
Translation


BitTorrent — протокол загрузки и распространения файлов через Интернет. В отличие от традиционных отношений клиент/сервер, когда загрузчики подключаются к центральному серверу (например, для просмотра фильма на Netflix или загрузки веб-страницы), участники сети BitTorrent, называемые одноранговыми узлами, загружают фрагменты файлов друг с друга. Это то, что делает BitTorrent одноранговым протоколом. Исследуем, как он работает, и создадим собственный клиент, который сможет находить одноранговые узлы и обмениваться с ними данными.

Читать дальше →
Total votes 43: ↑40 and ↓3 +37
Views 9.5K
Comments 8

PyTorch разоблачил вредоносную цепочку зависимостей

SkillFactory corporate blog Information Security *Python *Machine learning *
Case
Translation

pypi


PyTorch обнаружил вредоносную зависимость с тем же именем, что и у библиотеки torchtriton во фреймворке. Это привело к успешной компрометации через вектор атаки путаницы зависимостей. Подробности — к старту нашего курса «Белый хакер».

Читать дальше →
Total votes 5: ↑4 and ↓1 +3
Views 7.5K
Comments 5

Как включить в модель знания предметной области

SkillFactory corporate blog Python *Programming *Machine learning *Artificial Intelligence
Tutorial
Translation

Зачем это нужно?


Представьте, что вам дали размеченный набор данных, и ваша задача — предсказать новый. Что вы будете делать? Вероятно, сперва вы попробуете обучить модель машинного обучения поиску правил для разметки новых данных. А что дальше? Подробности — к старту нашего флагманского курса по науке о данных.

Читать дальше →
Total votes 9: ↑9 and ↓0 +9
Views 5.1K
Comments 9

Как писать код на Go? Подход Google. Часть первая

SkillFactory corporate blog Programming *Go *
Opinion
Translation

Рекомендации по стилю для проектов из Google с открытым исходным кодом


Руководство по стилю Go


Принципы стиля


Есть несколько охватывающих всё принципов, которые резюмируют представления о том, как писать читаемый код на языке Go. Ниже перечислены признаки читаемого кода в порядке их важности:


  1. Ясность: Назначение и обоснованность кода должны быть понятны читателю.
  2. Простота: Код должен выполнять свою задачу самым простым способом.
  3. Лаконичность: Код должен содержать как можно меньше воды.
  4. Сопровождаемость: Код должен быть написан так, чтобы его легко было поддерживать.
  5. Согласованность: Код должен согласоваться с более масштабной кодовой базой Google.

Подробности — к старту курса по Backend-разработке на Go.

Читать дальше →
Total votes 8: ↑5 and ↓3 +2
Views 1.9K
Comments 1

Таинственный мир информационной геометрии. Введение

SkillFactory corporate blog Mathematics *Machine learning *Reading room
Translation


Изображение создано автором с помощью искусственного интеллекта


У многих из нас в старших классах отношения с геометрией напоминали несчастную любовь, переходящую в ненависть. Особенно нелегко было, когда речь зашла о координатах и объёме. Даже расчёты с использованием геометрии вызывали отторжение. А впереди ждал бум информационных технологий и шумиха вокруг машинного обучения, ИИ и науки о данных. Всё это побудило многих нырнуть в тёмные глубины математики, где среди прочих дисциплин нас снова ждала геометрия. Информационная геометрия применима в статистическом многомерном обучении (statistical manifold learning), которое недавно зарекомендовало себя в обучении на высокоразмерных наборов данных без учителя. Также информационная геометрия позволяет вычислять расстояние между двумя вероятностными мерами, что находит применение при подборе шаблонов, построении альтернативных функций потерь для обучения нейронной сети, сети распространения убеждений и решении задач оптимизации. Подробности — к старту нашего флагманского курса по Data Science.

Читать дальше →
Total votes 13: ↑9 and ↓4 +5
Views 4.9K
Comments 4

ExperienceTech: студенты SkillFactory создали ИИ для бионического протеза

SkillFactory corporate blog Studying in IT IT career Biotechnologies Artificial Intelligence


Хакатоны в начале IT-карьеры — это шанс решить проблемы, которые нужно решать прямо сейчас, а ещё — реальный опыт командной работы. Будушие заказчики проектов на хакатонах могут проверить свои идеи. И самое главное: хакатоны помогают сделать жизнь людей лучше. Cтуденты SkillFactory на хакатоне прокачивали прототип бионического протеза на оптических датчиках «Моторики» — российского разработчика современных протезов рук. Подробности — к старту флагманского курса по Data Science.

Читать дальше →
Total votes 5: ↑3 and ↓2 +1
Views 968
Comments 0

Иголка в стоге сена: как в SkillFactory работают с экспертами

SkillFactory corporate blog Studying in IT IT career Interview IT-companies

Обучать других способен не каждый: для этого нужны по-настоящему сильная мотивация, желание помогать другим и вдохновляться чужими успехами. Поэтому подбор экспертов на курсы похож на поиск иголки в стоге сена: мы находим не только лучших специалистов в своей сфере, но еще и энтузиастов, готовых делиться знаниями. Таня Асафьева (@Asafyeva_Tanya), тимлид рекрутеров по экспертам, и Настя Постовская (@chanast), старший продюсер направления «Кодинг», рассказывают, как проходит этот процесс и что сотрудничество дает экспертам.

Читать далее
Total votes 8: ↑6 and ↓2 +4
Views 1.6K
Comments 0

Пандемия данных. Почему в будущем медицина будет всё больше основываться на данных?

SkillFactory corporate blog Algorithms *Machine learning *Research and forecasts in IT *Biotechnologies

Методы работы с большими данными всё активнее применяются в медицинской сфере: биоинженерии, биостатистике и биоинформатике, медицинской физике и аналитике. Вместе с экспертами онлайн-магистратуры МФТИ «Прикладной анализ данных в медицинской сфере» разбираемся, как Data Science интегрирует медицину будущего в практики настоящего.

Читать далее
Total votes 6: ↑4 and ↓2 +2
Views 2.1K
Comments 13

Как мы на хакатоне транспорт кластеризировали

SkillFactory corporate blog Image processing *Hackathon Machine learning *Studying in IT

Привет, Хабр! Компьютерное зрение и искусственный интеллект — одни из самых востребованных направлений в современном IT. Поэтому мы выбрали именно их для учебного «Межгалактического Хакатона 2021» который организовали НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами).

В хакатоне были представлены 5 кейсов от разных компаний, и одним из них был кейс от компании IntelliVision — кластеризация изображений транспортных средств. Его и выбрала команда финалистов, описав реализацию подобного проекта от А до Я.

Читать далее
Total votes 5: ↑5 and ↓0 +5
Views 2.9K
Comments 0

Нужно больше датасетов. Музыка, IT-скилы и котики

SkillFactory corporate blog Data Mining *Big Data *Hackathon Data Engineering *

Привет, Хабр! Совсем недавно мы писали про открытый датасет, собранный командой студентов магистратуры «Наука о данных» НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами) в рамках первого учебного Дататона. А сегодня представим вам целых 3 датасета от команд, которые также вышли в финал.

Все они разные: кто-то исследовал музыкальный рынок, кто-то – рынок труда IT-специалистов, а кто-то и вовсе домашних кошек. Каждый из этих проектов актуален в своей сфере и может быть использован для того, чтобы что-то усовершенствовать в привычном ходе работы. Датасет с котиками, например, поможет судьям на выставках. Датасеты, которые необходимо было собрать студентам, должны были представлять собой MVP (таблица, json или структура каталогов), данные должны быть очищены и проанализированы. Посмотрим же, что у них получилось.

Приятного чтения!
Total votes 13: ↑12 and ↓1 +11
Views 3K
Comments 1

Я уже стар, и мой опыт мешает мне в работе, или Почему немолодым людям трудно работать программистами

SkillFactory corporate blog Personnel Management *IT career Reading room Brain
Translation
Я старый. При этом я в ладу с собой. Я не лежу ночью, беспокоясь о своей старости. Но прекрасно понимаю, что я определённо стар — по крайней мере в смысле программирования. Большинство непрограммистов посмеялись бы над мыслью о старости. Во многих сферах в середине пятого десятка лет означает, быть на вершине профессиональных навыков. Но в разработке программного обеспечения любой человек старше 40 часто рассматривается с некоторым подозрением. Люди старше 50 часто выпадают из пула резюме. Человеку за 60 хорошо иметь очень прочную стратегию выхода на пенсию. Но это статья не об определении «старости» или о предвзятости к старикам. Эта статья о том, что «более опытным» разработчикам часто труднее приспособиться к конкретной работе, задаче или среде.


Приятного чтения!
Total votes 84: ↑69 and ↓15 +54
Views 35K
Comments 144

10 научных статей о реставрации с помощью глубокого обучения, которые должен прочитать каждый

SkillFactory corporate blog Algorithms *Image processing *Artificial Intelligence
Translation
В скором времени у нас стартует новый поток продвинутого курса «Machine Learning Pro + Deep Learning», а сегодня мы делимся постом, в котором рассказывается о подходах к реставрации с помощью глубокого обучения. Реставрация изображений в разрезе глубокого обучения — это задача заполнения потерянных пикселей так, чтобы итоговое изображение выглядело реалистично и соответствовало оригинальному контексту. Некоторые приложения метода, такие как удаление нежелательных объектов и интерактивное редактирование изображений, показаны на кдпв. Приложений на самом деле так много, как вы только можете себе представить.
Приятного чтения!
Total votes 27: ↑26 and ↓1 +25
Views 5.7K
Comments 2

Как создать свою собственную библиотеку AutoML в Python с нуля

SkillFactory corporate blog Python *Machine learning *Lifehacks for geeks Data Engineering *
Tutorial
Translation
Библиотеки и сервисы AutoML вошли в мир машинного обучения. Для дата-сайентиста это очень полезные инструменты, но иногда они должны быть адаптированы к потребностям бизнес-контекста, в котором работает дата-сайентист. Вот почему вам нужно создать свою собственную библиотеку AutoML. В преддверии старта нового потока курса «Машинное обучение» мы делимся материалом, в котором описано, как это сделать на Python.


Давайте начнём
Total votes 20: ↑20 and ↓0 +20
Views 4.6K
Comments 0

Как разработать ансамбль Light Gradient Boosted Machine (LightGBM)

SkillFactory corporate blog Python *Algorithms *Machine learning *Data Engineering *
Tutorial
Translation
В преддверии старта нового потока курса «Машинное обучение» представляем вашему вниманию материал о Light Gradient Boosted Machine (далее — LightGBM), библиотеке с открытым исходным кодом, которая предоставляет эффективную и действенную реализацию алгоритма градиентного бустинга.

LightGBM расширяет алгоритм градиентного бустинга, добавляя тип автоматического выбора объектов, а также фокусируясь на примерах бустинга с большими градиентами. Это может привести к резкому ускорению обучения и улучшению прогнозных показателей. Таким образом, LightGBM стала де-факто алгоритмом для соревнований по машинному обучению при работе с табличными данными для задач регрессионного и классификационного прогностического моделирования. В этом туториале вы узнаете, как разрабатывать ансамбли машин Light Gradient Boosted для классификации и регрессии. После завершения этого урока вы будете знать:

  • Light Gradient Boosted Machine (LightGBM) — эффективную реализацию ансамбля стохастического градиентного бустинга с открытым исходным кодом.
  • Как разрабатывать ансамбли LightGBM для классификации и регрессии с помощью API scikit-learn.
  • Как исследовать влияние гиперпараметров модели LightGBM на её производительность.


Давайте начнём
Total votes 20: ↑18 and ↓2 +16
Views 25K
Comments 0

Я спросил GPT-3 о «вопросе 42». Ответ мне не понравился. И вам тоже не понравится

SkillFactory corporate blog Machine learning *Reading room Popular science Artificial Intelligence
Translation
Известно, что ответ на вопрос жизни, Вселенной и всего такого — 42. Однако, несмотря на согласованные усилия лучших умов человечества, соответствующий вопрос всё ещё ускользает от нас. Специально к старту нового потока курса «Машинное обучение» делимся материалом, автор которого задаёт тот самый вопрос  новейшей языковой модели GPT-3. Что из этого вышло — читайте под катом.


Приятного чтения!
Total votes 55: ↑38 and ↓17 +21
Views 31K
Comments 48

Реконструкция нейронных карт по данным электронной микроскопии с помощью глубокого обучения

SkillFactory corporate blog Open source *Matlab *Artificial Intelligence Brain
Translation
Ручная многоракурсная стереореконструкция биологической нейронной сети занимает десятки тысяч часов. Специально к старту нового потока продвинутого курса «Machine Learning Pro + Deep Learning» делимся материалом, в котором рассказывается о том, как исследователи института Макса Планка значительно (от 10 до 25 раз) повысили эффективность работы с помощью искусственного интеллекта, об опровергающих некоторые предположения результатах исследования и о дальнейших планах исследователей. Ссылку на исходный код автоматизированного рабочего процесса вы найдёте внутри статьи.


Приятного чтения!
Total votes 12: ↑12 and ↓0 +12
Views 2.1K
Comments 1

HyperBand и BOHB. Понимание современных алгоритмов оптимизации гиперпараметров

SkillFactory corporate blog Algorithms *Machine learning *Artificial Intelligence
Translation
Специально к старту курса «Машинное обучение» в этом материале представляем сравнение BOHB и HyperBand — двух передовых алгоритмов оптимизации гиперпараметров нейронной сети и простого случайного поиска оптимальных гиперпараметров. Сравнение выполняется с помощью платформы neptune.ai — инструмента для управления экспериментами в области ИИ. Рисунки, графики, таблицы результатов сравнения — всё это вы найдете под катом.


Приятного чтения!
Total votes 15: ↑15 and ↓0 +15
Views 4.7K
Comments 0

Участие в тестировани Incentivized Testnet — глобальной децентрализованной мультиагентной системы

SkillFactory corporate blog Decentralized networks *Big Data *Artificial Intelligence The future is here
Recovery mode
Translation
Специально к старту курса «Машинное обучение» в этом материале знакомим читателей Хабра с Fetch.ai — децентрализованной платформой для оптимизации существующих технологий с помощью искусственного интеллекта, машинного обучения и интеллектуального обмена данными. Платформу можно использовать, чтобы создать агента, например, программу, которая с учётом реальных обстоятельств рекомендует, когда сесть на поезд. Ещё один пример — агент, контролирующий потребление электроэнергии. Подробности о самой Fetch.ai, датах тестирования сети агентов, список партнёров стартапа (который включает Кембриджский Университет) и ссылки на ресурсы, включая репозиторий GitHub, — под катом.


Приятного чтения!
Total votes 15: ↑14 and ↓1 +13
Views 2.5K
Comments 0

Information

Rating
257-th
Location
Россия
Works in
Registered
Activity