Алгоритмы *

Вступление

В посте я постарался избежать сложных дефиниций и строгих матетематических доказательств, а некоторые вещи вообще понятны интуитивно. Алгоритм удобно разбивается на взаимосвязные части, поэтому и уловить принцип его работы не должно составлять труда.

Начальное описание

Алгоритм Ахо-Корасик реализует эффективный поиск всех вхождений всех строк-образцов в заданную строку. Был разработан в 1975 году Альфредом Ахо и Маргарет Корасик.
Опишем формально условие задачи. На вход поступают несколько строк pattern[i] и строка s. Наша задача — найти все возможные вхождения строк pattern[i] в s.

Суть алгоритма заключена в использование структуры данных — бора и построения по нему конечного детерминированного автомата. Важно помнить, что задача поиска подстроки в строки тривиально реализуется за квадратичное время, поэтому для эффективной работы важно, чтоб все части Ахо-Корасика ассимптотически не превосходили линию относительно длинны строк. Мы вернемся к оценке сложности в конце, а пока поближе посмотрим на составляющие алгоритма.

iliia 22 окт 2013 в 11:57

+61

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

10 мин

149K

Блог компании ЯндексData Mining * Алгоритмы *

На Yet another Conference 2013 мы представили разработчикам нашу новую библиотеку Yandex SpeechKit. Это публичный API для распознавания речи, который могут использовать разработчики под Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно здесь.

Yandex SpeechKit позволяет напрямую обращаться к тому бэкэнду, который успешно применяется в мобильных приложениях Яндекса. Мы достаточно долго развивали эту систему и сейчас правильно распознаем 94% слов в Навигаторе и Мобильных Картах, а также 84% слов в Мобильном Браузере. При этом на распознавание уходит чуть больше секунды. Это уже весьма достойное качество, и мы активно работаем над его улучшением.

Можно утверждать, что уже в скором времени голосовые интерфейсы практически не будут отличаться по надежности от классических способов ввода. Подробный рассказ о том, как нам удалось добиться таких результатов, и как устроена наша система, под катом.

Как устроено распознавание речи в Яндексе

+140

IvanPopovich 21 окт 2013 в 16:34

Алгоритм поиска наименьшего общего предка в дереве

5 мин

38K

Спортивное программирование * Алгоритмы *

На досуге мне пришла интересная идея, которую я развил в алгоритм нахождения наименьшего общего предка(LCA) двух вершин в дереве. До появления этой идеи других алгоритмов для поиска LCA я не знал. Проверив корректность работы я поспешил изучить другие алгоритмы для решения этой задачи, но аналогичных моему я не нашел. Теперь поспешу поделиться им с сообществом.

Введение

Деревом называется неориентированный связный граф из N вершин и N-1 ребер. Из любой вершины до любой другой существует ровно один простой путь.
Корнем дерева будет называться такая вершина, от которой задано направление движения по дереву при его обходе.
Наименьшим общим предком двух вершин u и v будет называться такая вершина p, которая лежит на пути из корня и до вершины v, и до вершины u, а также максимально удаленная от него.

MaxiMonster 21 окт 2013 в 07:50

+18

Алгоритм поиска путей в лабиринте

5 мин

131K

Программирование * Алгоритмы *

Кого заинтересовал, прошу под кат

Доброго времени суток, уважаемое сообщество.

Предыстория

В один прекрасный день, гуляя просторами интернета, был найден лабиринт. Интересно стало узнать его прохождение и погуляв еще по сети, я так и не нашел, рабочей программной реализации, решения лабиринта.

Вот собственно и он:

Рабочий день был скучный, настроение было отличное. Цель, средства и желание имеются. Вывод очевиден, будем проходить.

+16

100

Sovietmade 20 окт 2013 в 15:29

Алгоритм обучения многослойной нейронной сети методом обратного распространения ошибки (Backpropagation)

19 мин

303K

Алгоритмы * Программирование *

Recovery Mode

Тема нейронных сетей была уже ни раз освещена на хабре, однако сегодня я бы хотел познакомить читателей с алгоритмом обучения многослойной нейронной сети методом обратного распространения ошибки и привести реализацию данного метода.

MichaelBorisov 19 окт 2013 в 12:46

Организация памяти в текстовом редакторе

6 мин

36K

Программирование * Алгоритмы *

Каждый, кто пытался запрограммировать хотя бы простейший редактор текста на низком уровне, сталкивался с задачей организации памяти для хранения редактируемого текста. Структура данных для хранения текста должна удовлетворять следующим требованиям:

иметь малые накладные расходы по памяти. Большая часть доступной памяти должна использоваться для хранения текста, а не служебной информации;
допускать эффективную вставку и удаление в произвольном месте текста.

Удовлетворить эти требования одновременно непросто. Если рассмотреть широкоизвестные структуры данных, такие как массивы, списки, деревья, стеки, очереди, кольцевые буфера — то такой структуры, которая бы позволила эффективно выполнить оба требования, не встречается. В случае массива имеем незначительные накладные расходы по памяти, но операция вставки имеет сложность O(n), где n — размер редактируемого текста. В случае списка сложность вставки и удаления составляет O(1), однако накладные расходы по памяти в несколько раз превышают размер собственно текста. Деревья, кучи, кольцевые буфера, ассоциативные массивы и прочие структуры и вовсе неприменимы для хранения текста в редакторе.

Встречаются гибридные решения, когда текст хранится в наборе массивов, которые, в свою очередь, объединены в список. Казалось бы, такой подход позволяет объединить преимущества массивов и списков (быстрая вставка/удаление при низких накладных расходах по памяти). Однако такое решение сложно в реализации. Также оно приводит к фрагментации памяти.

Предлагаю вашему вниманию эффективную структуру данных для хранения редактируемого текста, которая проста в реализации, имеет константные накладные расходы по памяти и быструю вставку/удаление в произвольном месте. Также она позволяет эффективно редактировать файлы, которые целиком не умещаются в оперативную память.

Несмотря на то, что эта структура данных была открыта давно и использовалась в текстовых редакторах на старых ЭВМ в 8-битную эпоху, это тайное знание предков было в значительной мере утеряно и в современных редакторах встречается редко. Попробуйте открыть файл, состоящий из одной строки мегабайт на 10, в Notepad или Far. Вставка и удаление символов будет длиться секундами.

tibult 18 окт 2013 в 11:02

+111

Исследование метода главных компонент и линейного дискриминантного анализа на изменение ракурса и условий освещенности лица как объект распознавания

6 мин

17K

Всем добрый день. Я являюсь аспирантом. Тема моей диссертации «Разработка методов идентификации по изображению для предоставления индивидуального доступа в реальном масштабе времени».
В моем первом посту я написал, не с самого начала. Вот начинаю с самого начала.

Распознавание человека по изображению лица выделяется среди биометрических систем тем что во-первых, не требуется специальное или дорогостоящее оборудование, во-вторых, не нужен физический контакт с устройствами. Однако распознавание человека по изображению лица не обеспечивает 100%-ой надёжности идентификации.

Особенность состоит в том, чтобы распознать человека по изображению лица независимо от изменения ракурса и условий освещённости при съёмке.

Такие задачи не имеют точного аналитического решения. При этом требуется выделение ключевых признаков, характеризующих зрительный образ, определение относительной важности признаков путём выбора их весовых коэффициентов и учёт взаимосвязей между признаками. Изначально эти задачи выполнялись человеком-экспертом, что занимало много времени и не гарантировало качества. В новых методах выделение ключевых признаков осуществляется путём автоматического анализа обучающей выборки, но тем не менее большинство информации о признаках задаётся вручную. Для автоматического применения таких анализаторов выборка должна быть достаточно большой и охватывать все возможные ситуации.

valemak 18 окт 2013 в 10:44

Непрактичные сортировки – бессмысленные и беспощадные

7 мин

116K

Java * Алгоритмы * Ненормальное программирование *

А что это мы всё об умных да об эффективных алгоритмах? А давайте эту тоскливую осеннюю пятницу развеем чем-нибудь контрпродуктивным!?

Представляю Вашему вниманию ТОП-5 самых нетрадиционных сортировок всех времён и народов.

Младопрограммистам такое полезно показывать в дидактических целях. Всех остальных как минимум позабавит.

Начнём

+68

kiloper 18 окт 2013 в 10:41

Метод генерации тестовых заданий на основе деревьев И/ИЛИ и его программная реализация

6 мин

12K

Программирование * Алгоритмы * Функциональное программирование *

Первый мой топик на Хабре будет посвящен моим научным исследованиям, которые связаны с методами построения алгоритмов генерации тестовых заданий для организации контроля знаний обучаемых.

Не секрет, что обеспечение тестирования многовариантными тестовыми заданиями позволяет снизить эффект списывания среди обучаемых. Автоматизация получения многовариантных заданий ложится на плечи того или иного алгоритма, заложенного в программном генераторе. Литература, описывающая методы генерации задач, не поддается счету, но ни один метод не претендует на некую универсальность, а предназначен для построения генератора либо конкретного задания либо определенного класса задач.

Использование языков программирования для описания алгоритмов генерации не поддается критике и имеет ряд преимуществ относительно имеющихся методов, так как программный код и возможности применяемого языка позволяют описывать задания для широкого класса дисциплин. Единственный недостаток — отсутствие навыков программирования у большинства преподавателей, особенно, у гуманитариев.

Подробности

Scratch 18 окт 2013 в 04:36

Fortuna: генератор случайных чисел для параноиков

5 мин

47K

Алгоритмы * Криптография * Информационная безопасность *

Все знают, что лучший генератор случайных чисел — это устройство, оцифровывающее выход с очень чувствительного микрофона, стоящего на солнечном берегу моря где-нибудь в районе диких пляжей Бали.

Если у вас такого устройства нет, то прошу под кат.

styskin 17 окт 2013 в 10:22

+53

Технология Блендер. Как Яндекс умно смешивает разные виды ответов

4 мин

18K

Блог компании ЯндексПоисковые технологии * Алгоритмы *

Сегодня мы расскажем вам о нашей технологии под названием Блендер. Она обеспечивает ранжирование и встраивание блоков с вертикальными поисками в страницу поисковой выдачи Яндекса.

Начать, пожалуй, стоит с того, зачем вообще мы применяем вертикальные поиски. В некоторых случаях поиск по вертикалям бывает гораздо эффективнее стандартного веб-поиска. Например, когда пользователю требуется найти информацию определенного типа (картинки, видео). Некоторые запросы подразумевают другие критерии ранжирования: при поиске по товарам важно иметь возможность производить ранжирование по цене, а в поиске по людям необходимо учитывать дополнительные фильтры. Вертикальные поиски также могут предполагать совершенно иные способы взаимодействия с пользователем, как в случае с навигацией по результатам, отмеченным на карте, при поиске ближайшего магазина, кинотеатра или заправки.

tibult 17 окт 2013 в 09:59

+36

Разработка нечеткой нейронной сети NEFClass M

4 мин

14K

Анализ недостатков системы NEFClass показывает, что их причиной является несовершенство алгоритма обучения нечетких множеств NEFClass. Для того что бы исправить это, необходимо заменить эмпирический алгоритм обучения на строгий алгоритм численной оптимизации. Как и оригинальная, так и модифицированная модель NEFClass основывается на архитектуре нечеткого персептрона. Архитектурные различия оригинальной и модифицированной моделей состоит в виде функций принадлежности нечетких множеств, функции t-нормы для вычисления активаций нейронов правил, а также в виде агрегирующей функции (t-конормы), определяющей активации выходных нейронов. Применение численных методов оптимизации требует дифференцируемости функций принадлежности нечетких множеств – условие, которому треугольные функции принадлежности не удовлетворяют. Поэтому в модифицированной модели нечеткие множества имеют гауссовскую функцию принадлежности.

Требование дифференцируемости диктует также вид t-нормы (пересечения) для вычисления активации нейронов правил. В системе NEFClass для этого используется функция минимума; в модификации это произведение соответствующих значений. Наконец, вид агрегирующей функции (t-конормы) для модифицированной модели ограничен только взвешенной суммой. Причина состоит в том, что функция максимума, которая используется в оригинальной системе, не удовлетворяет условию дифференцируемости.

Основное изменение, касается алгоритма обучения нечетких множеств. Целевой функцией в модифицированной системе NEFClass выступает минимизация среднеквадратичной ошибки на обучающей выборке по аналогии с классическими нейросетями

alizar 16 окт 2013 в 20:56

+15

Стэнфордская нейросеть определяет тональность текста с точностью 85%, код отдадут в Open Source

2 мин

34K

Алгоритмы * Open source *

Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением эмоциональной окраски текстов, подробнее см. в статье Irokez’а. Это очень важное направление машинного обучения: анализ тональности нужен для лучшего «понимания» текстов, перевода с одного языка на другой.

Сложность задачи заключается в непростых лингвистических конструкциях, которые часто используют люди. Даже человек не сразу распознает негатив во фразе вроде «В этой книге хороша только обложка». Как обучить этому компьютер?

Точность определения эмоций у лучших компьютерных программ до сегодняшнего дня составляла не более 80%. Группе учёных из Стэнфорда при участии небезызвестного Эндрю Нг удалось довести её до 85%, а при дальнейшем обучении рекурсивной нейросети точность вполне может повыситься до 95%, говорит один из авторов исследования. Заметим, что 95% — это будет абсолютно феноменальный результат, не все люди способы распознавать сарказм и определять тональность слов с такой точностью.

cattheblack 15 окт 2013 в 13:20

+70

Автономный робот команды НАМТ на «Робокросс-2013» и «Eurathlon 2013»

11 мин

12K

Алгоритмы * Обработка изображений *

День добрый!
Хочу опубликовать отчёт об автономном роботе команды НАМТ, участвовавшей в соревнованиях «Робокросс 2013» и европейском «Eurathlon 2013».
На этот раз роботизировался не автомобиль, а электрический квадроцикл, так как система делалась с прицелом на Eurathlon, путёвку на который обеспечило первое место на «Робокросс 2012». Газель на горных дорогах была бы слишком габаритным и трудноуправляемым объектом. Одна МКПП добавляет много трудностей.

Вкратце о соревнованиях

Довольно подробно задание «Робокросса» описано в статье команды «АВРОРА», заслуженно занявшей первое место в конкурсе «Мул».
На «Робокроссе» задание «Мул» было взято с прошлогоднего Eurathlon. Робот должен в автономном режиме следовать за какой-либо меткой (не радиомаяком), затем вернуться в точку старта, объезжая динамические и статические препятствия на трассе.
На Eurathlon было задание «Автономная навигация» — заранее неизвестная дорога в горном лесу, даны координаты нескольких ключевых точек, которые необходимо проехать. Склоны и овраги в комплекте.

Приношу извинения за размеры фотографий, с моим интернетом они полдня заливались, с постоянными обрывами. Снова этого не вынесу! Спасибо, экс-ёта.

Подробности и фототрафик

+41

tmk826 14 окт 2013 в 21:02

Алгоритм распределения данных в кластере серверов в dCache

2 мин

4.8K

Java * Алгоритмы * Big Data *

В продолжение статьи о dCache расскажу о некоторых деталях внутренней реализации.

Одна из важных задач распределённых систем — как распределить нагрузку по имеющимся узлам. Для распределённого хранилища эта задача особо важна, так как решение принятое на стадии записи влияет на то, как данные будут прочитаны.

Показать, как это сделано в dCache

scifix 10 окт 2013 в 15:04

CFD 3D: простой симулятор воды

12 мин

67K

.NET * Алгоритмы * Математика *

Введение

CFD (Computational fluid dynamics) — вычислительная гидродинамика.
Используется для моделирования разных процессов в жидкостях, а также разных типов жидкостей (например мёд, нефть — это все жидкости).

В данном посте рассматривается 2D симулятор обычной воды с открытой поверхностью и препятствиями (для 3D версии все аналогично + доступны исходники).
Поверхность воды представляет собой границу, отделяющую воду от воздуха.Это позволяет моделировать волны, падение капель и т.д.

spmbt 10 окт 2013 в 06:33

+86

Случайный генератор буквоцифр и его варианты

9 мин

96K

Ненормальное программирование * JavaScript * Алгоритмы *

Обратиться к теме написания случайных генераторов букв навела мысль о том, что в JS существует нетипичная нативная функция преобразования строки в n-ичное число, где n = 2..36. 36 в стандарте языка придумано не случайно — это сумма количества цифр и малых английских букв, из которых предлагается писать такие числа. Это значит, что парой нативных функций уже можно построить полезный генератор небольших строк из буквоцифр.

Math.random().toString(36) //даст числа вида 0.816cwugw2ky, 0.opgqwav8w1m, 0.f0w4ejtq8wk, ...

Это значит, что для некоторых задач можно не писать относительно честные генераторы на основе унылых строк вида «abcdefghijklmno...».

Сделаем несколько полезных функций

+13

BasmanovDaniil 9 окт 2013 в 11:22

Процедурный генератор хрущёвок

9 мин

112K

Unity * Алгоритмы * Разработка игр *

Сидел я как-то дома, читал статью про хрущёвки и восторгался гением архитектора. Потом меня отпустило, и я подумал, что унылость и однообразие хрущёвок очень легко можно описать математически. Прямые углы, равные интервалы, минимум украшений — что может быть проще?

На самом деле, у хрущёвок существует несколько десятков модификаций, но некая основа, сущность хрущёвки всё равно прослеживается.

В общем, недолго думая, я сел и написал генератор хрущёвок на C# под Unity3d. Под катом описание работы алгоритма и размышления на тему uv-карт, сабмешей и шейдеров.

AveNat 9 окт 2013 в 05:51

+255

Введение в анализ сложности алгоритмов (часть 4)

5 мин

104K

Туториал

Перевод

От переводчика: данный текст даётся с незначительными сокращениями по причине местами излишней «разжёванности» материала. Автор абсолютно справедливо предупреждает, что отдельные темы могут показаться читателю чересчур простыми или общеизвестными. Тем не менее, лично мне этот текст помог упорядочить имеющиеся знания по анализу сложности алгоритмов. Надеюсь, что он окажется полезен и кому-то ещё.
Из-за большого объёма оригинальной статьи я разбила её на части, которых в общей сложности будет четыре.
Я (как всегда) буду крайне признательна за любые замечания в личку по улучшению качества перевода.

Опубликовано ранее:
Часть 1
Часть 2
Часть 3

Оптимальная сортировка

Поздравляю! Теперь вы знаете о том, как анализировать сложность алгоритмов, что такое асимптотическая оценка и нотация «большое-О». Вы также в курсе, как интуитивно выяснить является ли сложностью алгоритма O( 1 ), O( log( n ) ), O( n ), O( n² ) и так далее. Вы знакомы с символами o, O, ω, Ω, Θ и понятием «наихудшего случая». Если вы добрались до этого места, то моя статья уже выполнила свою задачу.

Этот финальный раздел — опциональный. Он несколько сложнее, так что можете не стесняясь пропустить его, если хотите.От вас потребуется сфокусироваться и потратить некоторое время на решение упражнений. Однако, так же здесь будет продемонстрирован очень полезный и мощный способ анализа сложности алгоритмов, что, безусловно, стоит внимания.

AveNat 8 окт 2013 в 10:34

+49

Введение в анализ сложности алгоритмов (часть 3)

6 мин

130K

Туториал

Перевод

Логарифмы

Если вы знаете, что такое логарифмы, то можете спокойно пропустить этот раздел. Глава предназначается тем, кто незнаком с данным понятием или пользуется им настолько редко, что уже забыл что там к чему. Логарифмы важны, поскольку они очень часто встречаются при анализе сложности. Логарифм — это операция, которая при применении её к числу делает его гораздо меньше (подобно взятию квадратного корня). Итак, первая вещь, которую вы должны запомнить: логарифм возвращает число, меньшее, чем оригинал. На рисунке справа зелёный график — линейная функция f(n) = n, красный — f(n) = sqrt(n), а наименее быстро возрастающий — f(n) = log(n). Далее: подобно тому, как взятие квадратного корня является операцией, обратной возведению в квадрат, логарифм — обратная операция возведению чего-либо в степень.