Articles / Bookmarks / Profile of unffuunnyy / Habr

@unffuunnyy

Senior Cringe Developer

Profile Publications 1Comments 7Bookmarks 10

DiTy Aug 7 at 08:15

Семантический поиск (homemade)

Medium

127 min

2.3K

Search engines*Python*Machine learning*Natural Language Processing*

Tutorial

From sandbox

Основой семантического поиска может являться ML задача Sentence Similarity, а если быть еще конкретнее, то это Semantic Textual Similarity. Модели, обученные под эту задачу, способны оценивать насколько близки предложения по своему смыслу. Всё, что нам дальше остается, так это засунуть модель в некоторую поисковую систему...

Но тут давайте по порядку

+14

DataSecrets May 3 at 18:14

На практике пробуем KAN – принципиально новую архитектуру нейросетей

Medium

5 min

35K

Artificial IntelligenceMachine learning*Python*Big Data*

Review

На днях ученые из MIT показали альтернативу многослойному перцептрону (MLP). MLP с самого момента изобретения глубокого обучения лежит в основе всех нейросетей, какими мы их знаем сегодня. На его идее в том числе построены большие языковые модели и системы компьютерного зрения.

Однако теперь все может измениться. В KAN (Kolmogorov-Arnold Networks) исследователи реализовали перемещение функций активации с нейронов на ребра нейросети, и такой подход показал блестящие результаты.

+76

nmzgnv Apr 23 at 11:34

Векторные базы данных: простым языком про устройство и принцип работы

Easy

11 min

22K

Точка corporate blogOpen source*Big Data*Data storage*Artificial Intelligence

Только изучили один инструмент, как сразу же появились новые? Придется разбираться! В статье мы рассмотрим новый тип баз данных, который отлично подходит для ML задач. Пройдем путь от простого вектора до целой рекомендательной системы, пробежимся по основным фишкам и внутреннему устройству. Поймем, а где вообще использовать этот инструмент и посмотрим на векторные базы данных в деле.

+35

Bright_Translate Apr 19 at 16:00

Стресс и выгорание в мире разработки ПО

Easy

9 min

13K

RUVDS.com corporate blogHealthIT careerProgramming*Start-up development

Opinion

Translation

Автор: Sow Ay

Я хочу поднять тему, о которой в нашей сфере говорят недостаточно: «Психическое здоровье инженеров ПО, в особенности тех из нас, кто принял на себя роль лидера». Являясь соучредителем технологического стартапа, я часто испытываю тревожность. Это один из тех аспектов, которые сопутствуют нашей деятельности, но в описании вакансии не приводятся.

Если вспомнить конкретно 2017 год, то он стал для меня весьма неприятным. Я регулярно испытывал панические атаки, сидел на релаксантах и пытался писать код, находясь под серьёзным давлением дедлайнов и новых ответственностей. Тогда я как раз унаследовал от своего предшественника должность главы отдела информационных технологий. Теперь я отвечал за небольшую команду разработчиков. При этом наш стартап дал многим партнёрам множество обещаний. Моей же задачей была их реализация, и я мог их либо нарушить, либо выполнить. У меня получилось и то и другое.

Читать дальше →

+73

interesting-cs-math Mar 9 at 14:06

Nearest-Neighbors (python 3)

Medium

13 min

2.3K

Machine learning*

Tutorial

Исходный код + Описание команд программы + Описание идеи алгоритма

sklearn.neighbors — это библиотека, которая предоставляет возможности работы с алгоритмами, основанными на соседях (как для случая обучения с учителем, так и для случая обучения без учителя).

Метод ближайших соседей без учителя является основой для многих других алгоритмов машинного обучения, в частности, manifold learning и спектральной кластеризации.

Обучение с учителем, основанное на соседях представляется в двух вариантах: классификация (для данных с дискретными метками) и регрессия (для данных с непрерывными метками).

Принцип метода ближайших соседей заключается в поиске предопределенного количества тренировочных (учебных) образцов, ближайших по расстоянию до новой точки, и предсказать метку по ним. Число образцов может быть определено пользователем константой (k‑ближайших соседей), либо варьироваться в зависимости от локальной плотности точек (радиус‑ориентированное обучение). Расстояние, вообще говоря, может быть любой метрической мерой: стандартное евклидово расстояние является наиболее распространенным выбором. Методы, основанные на соседях, известны как не обобщающие методы машинного обучения, так как они просто «запоминают» все свои учебные данные (возможно, превращаются в быструю структуру индексирования, такую как дерево шаров или KD дерево).

Несмотря на свою простоту, ближайшие соседи успешно справились с большим количеством проблем классификации и регрессии, включая рукописные цифры или сцены спутникового изображения. Будучи непараметрическим методом, он часто бывает успешным в ситуациях классификации, где граница решения очень нерегулярна.

egaoharu_kensei Mar 8 at 22:01

Кластеризация в ML: от теоретических основ популярных алгоритмов к их реализации с нуля на Python

Hard

34 min

27K

Python*Data Mining*Algorithms*Machine learning*Artificial Intelligence

Tutorial

✏️ Technotext 2023

Кластеризация — это набор методов без учителя для группировки данных по определённым критериям в так называемые кластеры, что позволяет выявлять сходства и различия между объектами, а также упрощать их анализ и визуализацию. Из-за частичного сходства в постановке задач с классификацией кластеризацию ещё называют unsupervised classification.

В данной статье описан не только принцип работы популярных алгоритмов кластеризации от простых к более продвинутым, но а также представлены их упрощённые реализации с нуля на Python, отражающие основную идею. Помимо этого, в конце каждого раздела указаны дополнительные источники для более глубокого ознакомления.

+36

Jaylla Aug 20 2021 at 14:55

Рекомендательные системы: проблемы и методы решения. Часть 2

15 min

17K

Prequel corporate blogAlgorithms*Machine learning*Artificial Intelligence

Привет! Меня зовут Екатерина Ванская, и я занимаюсь data science в компании Prequel. В этой статье я продолжу обзор рекомендательных алгоритмов, которым мы начали в предыдущем моем материале

(вот ссылка на первую часть).

Область рекомендаций усложняется по мере расширения сферы ее применения, с каждым новым вызовом и нюансом использования. По мере увеличения объемов данных и усложнения задач появлялись новые подходы, отличные от рассмотренных ранее простых коллаборативных моделей.

Jaylla Jul 14 2021 at 13:16

Рекомендательные системы: проблемы и методы решения. Часть 1

14 min

28K

Prequel corporate blogMachine learning*Algorithms*

Technotext 2021

Привет! Я хочу рассказать вам о рекомендательных алгоритмах. Мы в Prequel создаем фильтры и эффекты для редактирования фото и видео. Создаем давно, и постепенно этих эффектов стало очень много. А с ними и пользовательского контента. Мы захотели помочь с выбором из этого многообразия, для чего нам и понадобилась система рекомендаций. Если масштабы вашей системы такие, что пользователям сложно в ней ориентироваться, возможно, что рекомендации могут помочь и вам.

Задуманный систем оказался слишком объемным для одной статьи, поэтому мы разбили его на две части. Перед вами первая, она посвящена постановке задачи и базовым методам решения. В этой части мы разберем коллаборативные модели от матричного разложения (на примере ALS) до neural collaborative filtering. Кроме того, будет небольшой обзор метрик и техник борьбы с проблемой холодного старта.

MaxRokatansky May 19 2023 at 08:59

Использование нейросетей для вашей рекомендательной системы

7 min

5.7K

OTUS corporate blogMachine learning*

Translation

Глубокое обучение (Deep learning. DL) - это современное решение многих проблем машинного обучения, таких как компьютерное зрение или недостатки естественного языка, и превосходит альтернативные методы. Последние тенденции включают применение методов DL в рекомендательных системах. Многие крупные компании, такие как AirBnB, Facebook, Google, Home Depot, LinkedIn и Pinterest, делятся своим опытом использования DL для рекомендательных систем.

Недавно NVIDIA и команда RAPIDS.AI выиграли три соревнования с использованием DL: ACM RecSys2021 Challenge, SIGIR eCom Data Challenge и ACM WSDM2021 Booking.com Challenge.

Область рекомендательных систем сложна. В этом посте я сосредоточусь на архитектуре нейронной сети и ее компонентах, таких как эмбеддинг и полностью связанные слои, рекуррентные ячейки нейронной сети (LSTM или GRU) и блоки трансформеров. Я расскажу о популярных сетевых архитектурах, таких как Wide и Deep от Google и Deep Learning Recommender Model (DLRM) от Facebook.

Семантический поиск (homemade)

На практике пробуем KAN – принципиально новую архитектуру нейросетей

Векторные базы данных: простым языком про устройство и принцип работы

Стресс и выгорание в мире разработки ПО

Nearest-Neighbors (python 3)

Кластеризация в ML: от теоретических основ популярных алгоритмов к их реализации с нуля на Python

Рекомендательные системы: проблемы и методы решения. Часть 2

Рекомендательные системы: проблемы и методы решения. Часть 1

Использование нейросетей для вашей рекомендательной системы

Information

Specialization