@01fanuc^{read⁠-⁠only}

User

valemak Sep 3 2018 at 00:28

Сортировки выбором

7 min

165K

Python * Algorithms * Data visualization * Programming * Perfect code *

В чём идея сортировок выбором?

В неотсортированном подмассиве ищется локальный максимум (минимум).
Найденный максимум (минимум) меняется местами с последним (первым) элементом в подмассиве.
Если в массиве остались неотсортированные подмассивы — смотри пункт 1.

Траффик

+16

Plarium Mar 6 2019 at 09:44

Математика для Data Scientist: необходимые разделы

3 min

98K

Plarium corporate blogReading roomMathematics * Data Mining * Big Data *

Математика — это краеугольный камень Data Science. Хотя некоторые теоремы, аксиомы и формулы кажутся слишком абстрактными и далекими от практики, на самом деле без них невозможно по-настоящему глубоко анализировать и систематизировать огромные массивы данных.

Для специалиста Data Science важны следующие направления математики:

статистика;
теория вероятностей;
математический анализ;
линейная алгебра.

В предыдущей статье «Data Science: книги для начального уровня» специалисты Plarium Krasnodar рекомендовали литературу по программированию на Python, а также по визуализации результатов и machine learning. В этой статье они предлагают подборку материалов и книг по математике, полезных в Data Science.

Читать дальше →

+12

leszla Dec 1 2018 at 20:23

Краткое руководство по Dash — Python веб-фреймворк для создания дэшбордов. Installation + Dash Layout

7 min

102K

Python * Website development * Web services testing *

Tutorial

Всем привет!

Сегодня предлагаю погрузиться в один из удобнейших веб-фреймворков в связке c Python под названием Dash. Появился он не так давно, пару лет назад благодаря разработчикам фреймворка plotly. Сам Dash является связкой Flask, React.Js, HTML и CSS.

Выступление Криса Пармера на PLOTCON 2016

Давайте сразу установим фреймворк. Обновленные версии уточняйте тут.

pip install dash==0.31.1  # The core dash backend
pip install dash-html-components==0.13.2  # HTML components
pip install dash-core-components==0.38.1  # Supercharged components
pip install dash-table==3.1.7  # Interactive DataTable component (new!)

Друзья, если вы действительно хотите разобраться в данном фреймворке, читайте публикации до конца, так как зачастую сначала следуют примеры, а уже после детальный обзор кода. Если вам все равно непонятно — советую читать документацию по Dash на английском языке в оригинале. Также в рунете есть несколько статей, которые объясняют концепции, которые я решил пропустить в данном туториале.

+26

ru_vds Jan 28 2020 at 10:00

Питонистический подход к циклам for: range() и enumerate()

3 min

58K

RUVDS.com corporate blogPython * Website development *

Translation

Автор заметки, перевод которой мы сегодня публикуем, хочет рассказать о некоторых особенностях использования циклов for в Python.

Цикл for — это один из краеугольных камней программирования. С этими циклами будущие программисты знакомятся в самом начале учёбы и, после первого знакомства, пользуются ими постоянно.

Читать дальше →

+25

alexanderkuk Aug 24 2020 at 18:07

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

34 min

110K

Data Mining * Natural Language Processing * Python * Artificial IntelligenceMachine learning *

Technotext 2020

Два года назад я писал на Хабр статью про Yargy-парсер и библиотеку Natasha, рассказывал про решение задачи NER для русского языка, построенное на правилах. Проект хорошо приняли. Yargy-парсер заменил яндексовый Томита-парсер в крупных проектах внутри Сбера, Интерфакса и РИА Новостей. Библиотека Natasha сейчас встроена в образовательные программы ВШЭ, МФТИ и МГУ.

Проект подрос, библиотека теперь решает все базовые задачи обработки естественного русского языка: сегментация на токены и предложения, морфологический и синтаксический анализ, лемматизация, извлечение именованных сущностей.

Для новостных статей качество на всех задачах сравнимо или превосходит существующие решения. Например с задачей NER Natasha справляется на 1 процентный пункт хуже, чем Deeppavlov BERT NER (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек), чем BERT NER на GPU.

В проекте 9 репозиториев, библиотека Natasha объединяет их под одним интерфейсом. В статье поговорим про новые инструменты, сравним их с существующими решениями: Deeppavlov, SpaCy, UDPipe.

+53

ShashkovS Feb 26 2018 at 06:23

Регулярные выражения в Python от простого к сложному. Подробности, примеры, картинки, упражнения

25 min

1.7M

Python * Regular expressions * Perfect code * Sport programming * Reading room

Регулярные выражения в Python от простого к сложному

Решил я давеча моим школьникам дать задачек на регулярные выражения для изучения. А к задачкам нужна какая-нибудь теория. И стал я искать хорошие тексты на русском. Пяток сносных нашёл, но всё не то. Что-то смято, что-то упущено. У этих текстов был не только фатальный недостаток. Мало картинок, мало примеров. И почти нет разумных задач. Ну неужели поиск IP-адреса — это самая частая задача для регулярных выражений? Вот и я думаю, что нет.
Про разницу (?:...) / (...) фиг найдёшь, а без этого знания в некоторых случаях можно только страдать.

Плюс в питоне есть немало регулярных плюшек. Например, re.split может добавлять тот кусок текста, по которому был разрез, в список частей. А в re.sub можно вместо шаблона для замены передать функцию. Это — реальные вещи, которые прямо очень нужны, но никто про это не пишет.
Так и родился этот достаточно многобуквенный материал с подробностями, тонкостями, картинками и задачами.

Надеюсь, вам удастся из него извлечь что-нибудь новое и полезное, даже если вы уже в ладах с регулярками.

Читать дальше →

+97

ipostny May 14 2021 at 12:27

Искусственный интеллект в юриспруденции. Вебинар № 3: Архитектура Legal AI

2 min

2.2K

Natural Language Processing * Artificial IntelligenceMachine learning *

Продолжая цикл вебинаров об искусственном интеллекте для юристов, мы предлагаем поговорить об архитектуре Legal AI, а именно: о технологической основе, о задачах, которые необходимо решить при разработке подобных решений, а также о том, как данные задачи могут быть решены сегодня.

DaneSoul May 7 2020 at 21:45

Python: Работа с базой данных, часть 2/2: Используем ORM

14 min

118K

Python * SQL * SQLite * Programming *

Tutorial

часть 1/2: Используем DB-API	часть 2/2: Используем ORM

Это вторая часть моей статьи по работе с базой данных в Python. В первой части мы рассмотрели основные принципы коммуникации с SQL базой данных, а в этой познакомимся с инструментарием, позволяющим облегчить нам это взаимодействие и сократить количество нашего кода в типовых задачах.

Статья ориентирована в первую очередь на начинающих, она не претендует на исчерпывающе глубокое изложение, а скорее дает краткую вводную в тему, объясняет самые востребованные подходы для старта и иллюстрирует это простыми примерами базовых операций.

Требуемый уровень подготовки: базовое понимание SQL и Python (код статьи проверялся под Python 3.6). Желательно ознакомится с первой частью, так как к ней будут неоднократные отсылки и сравнения. В конце статьи есть весь код примеров под спойлером в едином файле и список ссылок для более углубленного изучения материала.

Читать дальше →

aphex34 Nov 12 2020 at 07:37

Обучение модели естественного языка с BERT и Tensorflow

9 min

37K

SberDevices corporate blogMachine learning * Natural Language Processing *

Рис. 1. Фразы и предложения в векторном представлении модели естественного языка

Обработка естественного языка (Natural Language Processing, NLP) – это область вычислительной лингвистики, ориентированная на разработку машин, способных понимать человеческие языки. Разработка таких машин – одна из задач, которые решают исследователи и инженеры в команде SberDevices.

В современной компьютерной лингвистике понимание смысла написанного или сказанного достигается с помощью векторных моделей естественного языка. Например, в семействе виртуальных ассистентов Салют такая модель применяется для распознавания намерений пользователя, ведения диалога, выделения именованных сущностей и многих других задач.

В этой статье мы рассмотрим метод обучения модели естественного языка (NLU) на размеченных данных и реализацию этого метода на python3 и tensorflow 1.15. Ниже вы найдете пошаговое руководство и примеры кода. Код всего эксперимента доступен для воспроизведения на Colab.

Помимо этого, мы выкладываем в публичный доступ русскую модель NLU класса BERT-large [427 млн. параметров]: tensorflow, pytorch.

Прочитав этот пост, вы узнаете:

что такое модели NLU и как они применяются в компьютерной лингвистике;
что такое векторы предложений и как их получить;
как обучить векторизатор предложений [NLU] на базе архитектуры BERT;
как можно использовать обученные модели NLU

+18

itmo Jul 19 2018 at 14:30

10 курсов по машинному обучению на лето

5 min

64K

ITMO corporate blogMachine learning * Artificial IntelligencePython *

За последние десятилетия с помощью машинного обучения создали самоуправляемые автомобили, системы распознавание речи и эффективный поиск. Сейчас это одна из самых быстроразвивающихся и перспективных сфер на стыке компьютерных наук и статистики, которая активно используется в искусственном интеллекте и data science. Методы машинного обучения используются в науке, технике, медицине, ритейле, рекламе, генерации мультимедиа и других областях.

Команда Университета ИТМО собрала десять курсов по машинному обучению, которые можно успеть пройти до конца лета. Одним они помогут войти в профессию, а другим — углубиться в нее.

Читать дальше →

+12

arttom May 29 2019 at 13:01

Говорят, выучить Python и стать программистом легко. Правда?

11 min

235K

Хабр Карьера corporate blogPython * IT career

Работать в ИТ — круто, но путь в индустрию может быть совсем не таким, как описывают родители или преподаватели в школе. На биржах труда ищут мобильных разработчиков, девопсов, бэкендеров и фронтендеров, но где эти профессии в списках специальностей классических вузов?

Мы запускаем цикл статей в которых подробно расскажем о каждой профессии через опыт людей. В первом выпуске обсуждаем Python-разработчиков. Свои истории рассказали Артем Сухаренко и Данила Лобанов. Они пришли в профессию совсем недавно, но успели набраться опыта в других сферах. А экспертом выступил Алексей Петренко — декан факультета Python в Geekbrains.

Мы поговорили о том, что нужно знать перед обучением, чем хорош и плох язык, что трудного ждет в обучении и на чем стоит сосредоточиться; какие профессии и деньги сулит знание языка, как готовиться к первым собеседованиям и многое другое.

Читать дальше →

+24

120

shokannn Feb 20 2019 at 10:04

Обзор методов сегментации изображений в библиотеке scikit-image

8 min

42K

Machine learning *

Tutorial

Thresholding

Это самый простой способ отделить объекты от фона, выбрав пиксели выше или ниже определенного порога. Это обычно полезно, когда мы собираемся сегментировать объекты по их фону. Вы можете прочитать больше о пороге здесь.

Люди, знакомы с фильмом «Терминатор», наверняка согласятся, что это был величайший научно-фантастический фильм той эпохи. В фильме Джеймс Кэмерон представил интересную концепцию визуальных эффектов, которая позволила зрителям скрыться за глазами киборга под названием Терминатор. Этот эффект стал известен как «Терминаторное видение» (англ. Terminator Vision). В некотором смысле, он отделял силуэты людей от фона. Тогда это могло звучать совершенно неуместно, но сегментация изображений сегодня является важной частью многих методов обработки изображений.

Сегментация изображения

Имеются ряд библиотек, написанных для анализа изображений. В этой статье мы подробно обсудим scikit-image, библиотеку обработки изображений на среде Python.

Scikit-image

Scikit-image — это библиотека Python, предназначенная для обработки изображений.

Установка

scikit-image устанавливается следующим образом:

pip install -U scikit-image(Linux and OSX)
pip install scikit-image(Windows)
# For Conda-based distributions
conda install scikit-image

Читать дальше →

+12

f45d07 Aug 26 2018 at 08:28

Сегментация спутниковых снимков на примере распознавания деревьев

6 min

20K

Image processing * Machine learning * Geoinformation services *

From sandbox

Автоматическое распознавание спутниковых или аэро-снимков — это наиболее перспективный способ получения информации о расположении различных объектов на местности. Отказ от ручной сегментации снимков особенно актуален, когда речь заходит о обработке больших участков земной поверхности в сжатые сроки.

Недавно у меня появилась возможность применить теоретические навыки и попробовать себя в области машинного обучения на реальном проекте сегментации изображений. Цель проекта — распознавание лесных насаждений, а именно крон деревьев на спутниковых снимках высокого разрешения. Под катом я поделюсь полученным опытом и результатами.

Читать дальше →

+23

ContentAI_Team Jul 17 2019 at 12:09

Издевательски точный, быстрый и легковесный поиск баркодов через семантическую сегментацию

10 min

11K

Content AI corporate blogArtificial IntelligenceMachine learning * Image processing *

Поиск объектов на изображениях? Имея обучающую выборку и минимальный набор знаний о нейросетях, любой студент сегодня может получить решение определенной точности. Однако большинство нейросетей, использующихся для решения этой задачи, достаточно глубокие, а соответственно, требуют много данных для обучения, сравнительно медленно работают на этапе inference (особенно если на устройстве отсутствует GPU), много весят и достаточно энергозатратны. Все вышеперечисленное может быть весьма критично в определенных случаях, в первую очередь, для мобильных приложений.

Баркоды — объекты с достаточно простой структурой. В ходе исследований у нас получилось с помощью сравнительно оригинального подхода искать такие простые объекты весьма точно (мы побили state-of-the-art) и достаточно быстро (real-time на среднем CPU). Плюс наш детектор очень легкий, имеющий всего 30к весов. О результатах нашего исследования мы и расскажем в этой статье.

Читать дальше →

+46

Stantin Jun 27 2019 at 04:12

Распознавание дороги посредством семантической сегментации

4 min

10K

Artificial IntelligenceMachine learning * Image processing * Development for Raspberry Pi * Robotics

В предыдущей серии я проводил эксперимент с автономным движением своего домашнего танка. Дорога распознавалась с помощью цветового фильтра, а полученная маска шла на вход специально обученной нейросети-классификатору, которая выбирала ехать вправо, влево или прямо.

Слабым местом было распознавание самого дорожного полотна из-за переменчивости цветовых оттенков, из-за чего нейросеть, принимающая решения, выдавала странные результаты. В комментариях к той статье рекомендовали обратить внимание на семантическую сегментацию. Тема оказалась перспективной и применение сегментирующей нейросети принесло свои плюсы, но и минусы, куда же без них.

Но обо всем по порядку и для начала немного матчасти.

Читать дальше →

+13

samsung_russia Jun 26 2020 at 08:13

Интерактивная сегментация: выделяем кошек, собак и людей

7 min

7.4K

Samsung corporate blogImage processing * Machine learning *

Мы уже рассказывали про некоторые работы исследователей из московского Центра искусственного интеллекта Samsung. Недавно вышла статья «f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation» Константина Софиюка, Ильи Петрова, Ольги Бариновой и Антона Конушина, которая была принята на всемирную конференцию по компьютерному зрению CVPR 2020. И в этом посте мы расскажем, о чем пишут наши коллеги в этой работе и об интерактивной сегментации как прикладной задаче компьютерного зрения в целом.

Читать дальше →

mongohtotech Mar 16 2020 at 10:10

Ваша первая нейронная сеть на графическом процессоре (GPU). Руководство для начинающих

9 min

55K

HostingImage processing * Cloud services * Machine learning * Python *

Tutorial

В этой статье я расскажу как за 30 минут настроить среду для машинного обучения, создать нейронную сеть для распознавания изображений a потом запустить ту же сеть на графическом процессоре (GPU).

Для начала определим что такое нейронная сеть.

В нашем случае это математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма. Это понятие возникло при изучении процессов, протекающих в мозге, и при попытке смоделировать эти процессы.

Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение.

С точки зрения машинного обучения, нейронная сеть представляет собой частный случай методов распознавания образов, дискриминантного анализа, методов кластеризации и прочих методов.

Оборудование

Сначала разберемся с оборудованием. Нам необходим сервер с установленной на нем операционной системой Linux. Оборудование для работы систем машинного обучения требуется достаточно мощное и как следствие дорогое. Тем, у кого нет под рукой хорошей машины, рекомендую обратить внимание на предложение облачных провайдеров. Необходимый сервер можно получить в аренду быстро и платить только за время использования.

Читать дальше →

+13

m1rko Sep 15 2019 at 08:34

Разбор задачи с собеседования Google: поиск соотношения

21 min

40K

Algorithms * Entertaining tasksProgramming *

Translation

Добро пожаловать в очередную из серии статей с разбором задачек, которые я задавал на собеседованиях в Google, прежде чем их запретили после утечки. С тех пор я оставил работу инженера-программиста в Google и перешёл на должность менеджера по разработке в Reddit, но у меня всё ещё осталось несколько замечательных тем. К настоящему моменту мы разобрали динамическое программирование, возведение матриц в степень и синонимичность запросов. На этот раз совершенно новый вопрос.

Читать дальше →

+35

ph_piter Jun 6 2020 at 06:56

Как GPU-вычисления буквально спасли меня на работе. Пример на Python

12 min

69K

Издательский дом «Питер» corporate blogProgramming * High performance * Python * GPGPU *

Translation

Привет, Хабр!

Сегодня мы затрагиваем актуальнейшую тему — Python для работы с GPU. Автор рассматривает пример, тривиальный в своей монструозности, и демонстрирует решение, сопровождая его обширными листингами. Приятного чтения!

Читать дальше →

+38

VolKarev Oct 15 2018 at 16:00

Ликбез по работе с перфокартами (или история о том, как с 1890-го по 1970-й «большие данные» обрабатывались)

5 min

49K

Big Data * History of ITMathematics * Data storagingOld hardware

В период 1890-1970 вся обработка больших данных осуществлялась через перфокарты. Перфокарты в свою очередь обрабатывались при помощи т.н. «регистрирующей аппаратурой», центральным звеном которой был электромеханический «сортировщик перфокарт». Перфокарты и сопутствующую аппаратуру применяли для решения самых разнообразных задач: перепись населения, бухгалтерский учёт, инвентаризация, расчёт заработной платы и т.д.

Как люди работали с перфокартами? Какому алгоритму следовал электромеханический сортировщик перфокарт? Как осуществлялась сортировка по числовым полям данных? А по строковым? Обо всём этом – ниже.

+36