How to become an author

User

ProfileArticlesPostsNewsComments114

ContentAI_Team Jan 10 2017 at 20:33

Мобильный OCR. Как всё начиналось (часть 2)

6 min

5.9K

Content AI corporate blogImage processing*Development of mobile applications*Development for iOS*

В предыдущем посте мы начали рассказывать, как OCR-технологии «переезжали» с настольных компьютеров в смартфоны – а началось всё с приложения для сканирования визиток Business Card Reader. Но сканирование визиток – это только один сценарий, где нужно мобильное распознавание. О том, как решались другие задачи ~~хотелки~~ пользователей, – читайте ниже.

Как мы уже говорили, перенос технологии распознавания на смартфоны связан с кучей ограничений и сложностей. Главной была и остаётся ресурсоёмкость технологии – невозможно перенести ее в мобильное устройство как есть. Но у нас уже с 2007 года был готовый инструментарий разработчика ABBYY Mobile OCR Engine, который позволял на мобильном оцифровать изображение и выдать результат в формате TXT без сохранения форматирования. И для начала в 2011 году мы решили воплотить в жизнь небольшие пользовательские сценарии, в которых такое «элементарное» распознавание вполне подходило.

Читать дальше →

+27

mnv Jan 11 2017 at 05:26

Разделение текста на предложения с помощью Томита-парсера

4 min

19K

Programming*Machine learning*Algorithms*PHP*Natural Language Processing*

Чтобы подготовить русскоязычные тексты для дальнейшего анализа, мне однажды понадобилось разбить их на предложения. Разумеется, автоматически. Что приходит на ум в первую очередь, если нужно разделить текст на предложения? Разбить по точкам — угадал?

Если вы начнете это делать, то довольно быстро столкнетесь с тем, что точка — это не всегда разделитель предложений (“т.к.”, “т.д.”, “т.п.”, “пр.”, “S.T.A.L.K.E.R.”). Причем эти токены не всегда будут исключениями при разбивке текста на предложения. Например, “т.п.” может быть в середине предложения, а может и в конце.

Вопросительный и восклицательный знак тоже не всегда разделяют текст на предложения. Например, “Yahoo!”. Предложения могут разделять и другие знаки, например, двоеточие (когда следует список из отдельных утверждений).

Поэтому я долго не думая поискал готовый инструмент и остановился на Томита-парсере от Яндекса. О нем и расскажу.

Читать дальше →

+30

shifttstas Jan 8 2017 at 17:06

Обещания Google начали сбываться — теперь сайты https помечаются как надёжные

1 min

52K

Google ChromeInformation Security*

(Разница между HTTPS и HTTP к которой идет Google)

Пару месяцев назад Google решила перевести весь интернет на HTTPS, стимулируя пользователей браузера Chrome посещать только HTTPS сайты.

Сейчас начался первый этап — пометка сайтов с https как безопасные.

Что там будет дальше?

Читать дальше →

+55

vlad_br Jan 6 2017 at 15:43

Распознавание чеков в Google Docs с помощью ABBYY OCR SDK

3 min

23K

Image processing*Programming*

Tutorial

В северном полушарии нынче зима, а это значит что пора на лыжи! Мы с друзьями поддались этому течению и приступили к подготовке нашего совместного зимнего отдыха. Детали всего процесса планирования раскрывать не буду, скажу лишь только, что мне выпала ответственная роль сбора магазинных чеков наших совместных трат.

Читать дальше →

+23

ARG89 Dec 20 2016 at 03:00

Java-хардкор по-новосибирски: обзор и видео лучших докладов JBreak 2016. И анонс JBreak 2017

6 min

12K

JUG Ru Group corporate blogJava*

Что ни говори, а в Новосибирске обстановка суровая: суровая погода, суровая архитектура, – теперь можно с уверенностью сказать, что в Нске проходит еще и суровая Java-конференция. Без простых докладов, без аджайлов и скрамов, – только хардкор, в лучших традициях Joker и JPoint – и имя этой конференции JBreak.

В этом посте вы найдете:

Лучшие доклады JBreak 2016;
Ссылку на вообще все доклады JBreak 2016;
Анонс, кто будет выступать в этот раз;
Объяснение, почему конференция съедет из Академгородка.

+21

Karaoke Dec 17 2016 at 08:45

Книги, рекомендованные Y Combinator на зимние каникулы 2016-2017

5 min

29K

Edison corporate blogReading room

Translation

«Чтение и личный опыт формируют мировоззрение. И даже если вы не помните самый момент получения опыта или содержания книги, то их влияние на ваше представление о мире непременно остается в Вас. Ваш разум похож на скомпилированную программу без исходного кода — он работает, но не ясно как.»
— Пол Грэм, основатель Y Combinator, программист, инвестор, эссеист

Очередная подборка книг от крутейшего в мире бизнес-инкубатора кремниевой долины.

+11

AlexeyR Dec 15 2016 at 21:17

Логика сознания. Часть 9. Искусственные нейронные сети и миниколонки реальной коры

26 min

55K

RoboticsMachine learning*Image processing*Algorithms*Programming*

Приходит ветеринар к терапевту. Терапевт: — На что жалуетесь? Ветеринар: — Нет, ну так каждый может!

Искусственные нейронные сети способны обучаться. Воспринимая множество примеров, они могут самостоятельно находить в данных закономерности и выделять скрытые в них признаки. Искусственные нейронные сети во многих задачах показывают очень неплохие результаты. Закономерный вопрос — насколько нейронные сети похожи на реальный мозг? Ответ на этот вопрос важен главным образом для того, чтобы понять, можно ли, развивая идеологию искусственных нейронных сетей, добиться того же, на что способен человеческий мозг? Важно понять, носят ли различия косметический или идеологический характер.

Как это ни удивительно, но очень похоже, что реальный мозг противоречит всем базовым принципам искусственных нейронных сетей. Это вдвойне удивительно, учитывая, что изначально искусственные нейронные сети создавались как попытка воспроизвести именно биологические механизмы. Но в том и коварство подобных ситуаций. Очень часто то, что на первый взгляд выглядит правдоподобно, на поверку оказывается полной противоположностью того, что есть на самом деле.

Читать дальше →

+37

Jabher Dec 7 2016 at 10:21

Нейронные сети на JS. Создавая сеть с нуля

8 min

92K

EPAM corporate blogJavaScript*Algorithms*Machine learning*Programming*

КПДВ про нейронные сети

Нейронные сети сейчас в тренде. Каждый день мы читаем про то, как они учатся писать комментарии в интернете, торговаться на рынках, обрабатывать фотографии. Список бесконечен. Когда я впервые посмотрел на масштаб кода, который приводит это в движение, я был напуган и хотел больше не видеть эти исходники.

Но врожденные любознательность и энтузиазм довели меня до того, что я стал одним из разработчиков Synaptic — проекта фреймворка для построения нейронных сетей на JS с 3к+ звезд на GitHub. Сейчас мы с автором фреймворка занимаемся созданием Synaptic 2.0 с ускорением на GPU и WebWorker-ах и с поддержкой почти всех основных фич любого приличного NN-фреймворка.

В итоге оказалось, что нейронные сети — это несложно, они работают на достаточно простых принципах, которые несложно понять и воспроизвести. Самая трудная задача — это обучение, но для этого почти всегда пользуются готовыми алгоритмами, а скопировать их не очень сложно.
Доказать это просто. Ниже в статье реализация нейронной сети с нуля без каких-либо библиотек.

Читать дальше →

+48

Aleksei_Mikhailov Dec 2 2016 at 12:40

Как привести дела в порядок, если закончились силы

2 min

41K

Три года назад я испытывал личностный кризис. Тогда произошел ряд событий и стало непонятно, что же главное, чего хочу и что делать дальше. В таком состоянии у человека не остается сил и энергии, чтобы придумать план решения трудностей, применить аварийную технику тайм-менеджмента и сделать шаг в правильном направлении.

Запас энергии ограничен, а в кризис или при профессиональном выгорании этот запас исчерпывается на дела и мысли. При этом, к кризису и выгоранию приводят не желаемые и вредные дела и мысли. Вот что я сделал:

Читать дальше →

+34

gladkovs Nov 28 2016 at 13:08

Адреса ФИАС в среде PostgreSQL. Часть 1

10 min

32K

Как бы мы не относились к качеству адресов ФИАС с ними необходимо работать, потому что это единственный общероссийский справочник адресов. Поэтому рано или поздно приходится решать задачу связи местоположения объектов недвижимости, юридических и физические адресов с адресом из ФИАС.

В этой статье изложен опыт работы со списком адресообразующих элементов ФИАС, загруженным в базу данных под управлением PostgreSQL. Для работы с адресообразующими элементами ФИАС создано несколько функций на языке PL/pgSQL.

Читать дальше →

+20

Karaoke Nov 27 2016 at 15:47

Как Дональд Кнут учился в школе и поступал в универ

8 min

11K

Edison corporate blogIT career

Translation

Какая была первая публикация Кнута, каким послушным ботаном он был в школе, и почему любил музыку больше, чем математику.

Я окончил Лютеранскую Среднюю Школу в Милоуки (Milwaukee Lutheran High School,) в 1956. У нас не было преподавателей «мирового масштаба», но все они были заинтересованы в нашем образовании.

После, я продолжил обучение на математика, хотя она меня не сильно интересовала во время обучения в школе, потому что когда я пытался расспросить преподавателя, он не знал ответа. Я мог решить что-либо неправильно и учитель не замечал ошибки. Так зачем мне надо было идти на математика? Боле того, в то время я больше любил музыку и физику. Мой учитель физики и химии был великолепным человеком, который написал собственную книгу. Он сам разрабатывал ход экспериментов по химии тем самым восхищал меня. Он также заинтересовал меня физикой, несмотря на то, что я посвящал большую часть свободного времени музыке.

+15

pkruglov Nov 24 2016 at 11:12

Руководство для начинающих VR-разработчиков

8 min

166K

VK corporate blogGame development*Unity3D*Unreal Engine*AR and VR

Tutorial

Translation

В этом руководстве собраны базовые ссылки и рекомендации, которые могут послужить вам точкой отсчёта в освоении VR-разработки.

1. Изучаем оборудование

Спросите себя: меня интересует разработка для десктопных устройств, наподобие HTC Vive, или меня больше привлекают мобильные устройства вроде Samsung Gear VR или Google Cardboard? Если вы пока не определились, то почитайте обзоры и подумайте о том, что лучше выбрать для вашего рынка. Если для ваших идей требуются контроллеры движения или качественная графика, то ориентируйтесь на подключаемые к компьютеру очки VR. Модели, которые сегодня поддерживаются движками Unity, Unreal и веб-реaлизациями:

Читать дальше →

+30

alxgutnikov Nov 24 2016 at 07:31

WebRTC: Делаем peer to peer игру на javascript

13 min

39K

Badoo corporate blogCanvas*JavaScript*Programming*Game development*

Tutorial

Недавно мне довелось поработать над прототипом видеочата. Это был отличный повод поближе познакомиться с концепциями WebRTC и опробовать их на практике. Как правило, когда говорят про WebRTC, подразумевают организацию аудио- и видеосвязи, но эта технология может применяться и для других интересных вещей. Я решил попробовать сделать peer-to-peer игру и поделиться опытом ее создания. Видео того что получилось и подробности реализации под катом.

Читать дальше →

+90

Karaoke Nov 22 2016 at 13:32

Обучаемся самостоятельно: подборка видеокурсов по Computer Science

11 min

131K

Edison corporate blogProgramming*Machine learning*Mathematics*Algorithms*

Translation

Содержание

+50

Leono Nov 20 2016 at 14:43

Деконструкция мифа о глубоком обучении. Лекция в Яндексе

13 min

39K

Яндекс corporate blogMachine learning*Mathematics*Algorithms*

Оптимизм по поводу нейронных сетей разделяют не все — или, по крайней мере, уровень такого оптимизма бывает разным. Старший преподаватель факультета компьютерных наук ВШЭ Сергей Бартунов согласен, что нейросетевая область сейчас на подъеме. С другой стороны, он хочет внести в происходящее некоторую ясность, определить реальный потенциал нейросетей. Вне зависимости от точки зрения докладчика, глубокое обучение и правда не проникает в нашу сферу совсем уж стремительными темпами. Традиционные методы обучения всё ещё работают и не обязательно будут вытеснены машинным интеллектом в ближайшей будущем.

Под катом — расшифровка лекции и часть слайдов Сергея.

+79

Nuteralie Nov 16 2016 at 17:09

Ю. Шмидхубер: «Прекрасно быть частью будущего искусственного интеллекта»

7 min

11K

Machine learning*Robotics

В последние дни сентября в Амстердаме проходила конференция по графическим технологиям GTC EUROPE 2016. Профессор Юрген Шмибдхубер представлял свою презентацию, как научный директор IDSIA, швейцарской лаборатории, где он с коллегами занимается исследованиями в области искусственного интеллекта.

Главный тезис выступления — настоящий искусственный интеллект изменит все уже в скором времени. По большей части статья, которую вы сейчас читаете, подготовлена по материалам презентации профессора Шмидхубера.

Читать дальше →

+27

9_pm Nov 16 2016 at 12:35

Сотворение мира Опыт создания разумной жизни своими руками

23 min

28K

Python*Machine learning*Game development*

Иногда проводишь день в попытках без использования терминов «рекурсивный вызов» и «идиоты» объяснить главному бухгалтеру, почему на самом деле простое изменение учетной системы затягивается почти на неделю из-за орфографической ошибки, допущенной кем-то в коде в 2009 году. В такие дни хочется пооборвать руки тому умнику, который сотворил этот мир, и переписать все с ноля.

TL;DR
Под катом история о том, как я в качестве практики для изучения Python разрабатываю свою библиотеку для агентного моделирования с машинным обучением и богами.

Ссылка на github. Для работы из коробки нужен pygame. Для ознакомительного примера понадобится sklearn.

Читать дальше →

+42

tangro Nov 15 2016 at 09:35

Протокол QUIC: переход Web от TCP к UDP

9 min

97K

Инфопульс Украина corporate blogIT Standards*System Analysis and Design*Instant Messaging*Development of communication systems*

Translation

Протокол QUIC (название расшифровывается как Quick UDP Internet Connections) — совершенно новый способ передачи информации в интернете, построенный поверх протокола UDP, вместо общепринятого ранее использования TCP. Некоторые люди называют его (в шутку) TCP/2. Переход к UDP — наиболее интересная и мощная особенность протокола, из которой следуют некоторые другие особенности.

Сегодняшний Web построен на протоколе TCP, который был выбран за его надёжность и гарантированность доставки пакетов. Для открытия TCP-соединения используется так называемое «трёхкратное рукопожатие». Это означает дополнительные циклы отправки-приёма сообщений для каждого нового соединения, что увеличивает задержки.

Если вы захотите установить защищённое TLS-соединение, придётся переслать ещё больше пакетов.

Некоторые инновации, вроде TCP Fast Open, улучшат некоторые аспекты ситуации, но эта технология пока не очень широко распространена.

Протокол UDP, с другой стороны, построен на идее «отправить пакет и забыть о нём». Сообщение, отправленное по UDP, будет доставлено получателю (не гарантированно, с некоторой вероятностью успеха). Яркое преимущество здесь в меньшем времени установки соединения, такой же яркий недостаток — негарантированность доставки или порядка прихода пакетов получателю. Это означает, что для обеспечения надёжности придётся построить некоторый механизм поверх UDP, который гарантирует доставку пакетов.

И здесь на сцену выходит QUIC от Google.

Читать дальше →

+33

Kaspersky_Lab Nov 15 2016 at 09:54

Простыми словами: как работает машинное обучение

7 min

42K

«Лаборатория Касперского» corporate blogMachine learning*Information Security*

В последнее время все технологические компании твердят о машинном обучении. Мол, столько задач оно решает, которые раньше только люди и могли решить. Но как конкретно оно работает, никто не рассказывает. А кто-то даже для красного словца машинное обучение называет искусственным интеллектом.

Как обычно, никакой магии тут нет, все одни технологии. А раз технологии, то несложно все это объяснить человеческим языком, чем мы сейчас и займемся. Задачу мы будем решать самую настоящую. И алгоритм будем описывать настоящий, подпадающий под определение машинного обучения. Сложность этого алгоритма игрушечная — а вот выводы он позволяет сделать самые настоящие.

Читать дальше →

+30

wunder_editor Nov 14 2016 at 19:16

Глубокое обучение для новичков: распознаем изображения с помощью сверточных сетей

27 min

105K

Wunder Fund corporate blogAlgorithms*Machine learning*

Tutorial

Translation

Введение

Представляем вторую статью в серии, задуманной, чтобы помочь быстро разобраться в технологии глубокого обучения; мы будем двигаться от базовых принципов к нетривиальным особенностям с целью получить достойную производительность на двух наборах данных: MNIST (классификация рукописных цифр) и CIFAR-10 (классификация небольших изображений по десяти классам: самолет, автомобиль, птица, кошка, олень, собака, лягушка, лошадь, корабль и грузовик).

Читать дальше →

+34

1 2 ...

25