Pull to refresh

Spell Checker встроен во все сервисы Google

Lumber room
Система Spell Checker (проверка опечаток в поисковых словах, задаваемых пользователем) встроена во все англоязычные сервисы компании Google, сообщает Google Operating System.

Как известно, функция поиска встроена в любые сервисы и программы от Google. Однако Spell Checker до недавнего времени был доступен только для веб-поиска. Теперь все сервисы, включая, к примеру, Blog Search, Google Maps, Google Co-op и т.п., будут помогать англоязычным пользователям в случае опечаток.
Total votes 6: ↑6 and ↓0 +6
Views 329
Comments 9

Сексуальная дискриминация в орфографическом корректоре Google

IT-companies
Автоматический орфографический корректор Google в большинстве случаев работает на ура, но в последнее время он исправляет такие запросы как she invented, she created, she discovered на he invented, he created и he discovered, соответственно. Google анализирует запросы людей для вывода подсказок правильного написания, так что отсюда можно сделать вывод, что варианты с мужским полом используют чаще.
Читать дальше →
Total votes 6: ↑4 and ↓2 +2
Views 385
Comments 0

Google прекращает половую дискриминацию

IT-companies
Не так давно мы писали о том, что орфографический корректор Google предлагал поменять такие запросы как she invented, she created, she discovered на he invented, he created и he discovered. Сегодня Google эту ошибку исправила.

Проверка орфографии происходит в автоматическом режиме, основываясь на поисковых запросах и проиндексированном содержимом страниц, однако, на этот раз разработчики прибегли к использованию «чёрного списка», чтобы поправить орфографический корректор.
Total votes 10: ↑9 and ↓1 +8
Views 314
Comments 3

opechatka.ru

Lumber room
Только что захотел почитать новостей на сайте 3dnews.ru.
Забыв поменять раскладку с кириллицы на латиницу, и написав в адресной строке «3втуцыюкг», был приятно удивлен выданным результатом:
поехали
Total votes 27: ↑9 and ↓18 -9
Views 277
Comments 16

Русско-English или несколько слов о проверке орфографии двух языков сразу

Self Promo

С самого момента появления проверки орфографии в «обычных» программах (Firefox, Miranda, Opera) меня напрягала необходимость постоянного переключения словаря с русского на английский и обратно.

Для Firefox и Miranda есть (полу)решения, которые сами переключают словарь в зависимости от текущей раскладки клавиатуры. Уже хоть что-то, но всё равно не очень удобно — то одна, то другая половина слов остаются «красными» и затрудняют поиск настоящих ошибок.

Идеальным решением был бы словарь, объединяющий в себе орфографию обоих языков. И такой словарь был создан одним из пользователей Firefox (http://forum.ru-board.com/...). Но изучив его повнимательнее, я понял, что мне он не нравится (подробности см. ниже).
Читать дальше →
Total votes 72: ↑67 and ↓5 +62
Views 1.6K
Comments 56

Penisland, или как написать спеллчекер

Algorithms *
Есть хорошая статья Питера Норвига, в которой он рассказывает как написать спеллчекер в 20 строк кода. В этой статье он показывает как поисковые системы могут исправлять ошибки в запросах. И делает это довольно элегантно. Однако, у его подхода есть два серьезных недостатка. Во-первых, исправление более трех ошибок требует больших ресурсов. А гугл, кстати, неплохо справляется и с четырьмя ошибками. Во-вторых, нет возможности проверки связного текста.



Итак, хочется исправить эти проблемы. А именно, написать корректор коротких фраз или запросов, который:
  • умел бы выявлять три (и более) ошибки в запросе;
  • умел бы проверять «разорванные» или «слипшиеся» фразы, например expertsexchange — experts_exchange, ma na ger — manager
  • не требовал много кода для реализации
  • мог бы достраиваться до исправления ошибок на других языках и других типов" ошибок

Остальное — под катом.
Читать дальше →
Total votes 133: ↑131 and ↓2 +129
Views 11K
Comments 49

Проверка орфографии для Skype

Instant Messaging *
В долгих поисках бесплатного словаря для Skype, я наткнулся на очень неплохое решение под названием Ursa Spell Checker. Наверняка это не единственное решение, и наверняка не самое лучшее, но тем не менее речь пойдет именно о нём.

Процесс установки и настройки очень прост:
1. Идем по этой ссылке и скачиваем программу.
На момент написания этого текста последняя версия — 1.6
2. Запускаем скачанный файл и устанавливаем программу.
3. После установки программа попросит ввести регистрационный ключ. Ключ бесплатен, его можно получить вот по этой ссылке.
Читать дальше →
Total votes 51: ↑41 and ↓10 +31
Views 61K
Comments 41

ReSpeller — плагин проверки орфографии для ReSharper

.NET *
Sandbox
Многие разработчики, использующие различные IDE от JetBrains — Idea, PyCharm и т.д, — знают и активно используют встроенный в них спелл чекер. Однако, к несчастью .Net разработчиков, в Решарпере отсутствует подобная функциональность из коробки.
Поэтому я решил написать свой плагин для Решарпера для проверки орфографии в коде.
Читать дальше →
Total votes 25: ↑24 and ↓1 +23
Views 7.3K
Comments 9

Делаем спеллчекер на фонетических алгоритмах своими руками

Algorithms *Open data *
Запустив в продакшене супер-мега-навороченную систему нечёткого поиска с поддержкой морфологии, которая показывала на тестовый кейсах блестящие результаты, разработчик сталкивается с суровой реальностью. Пользователи, избалованные автокоррекцией Яндекса и Гугла, делают ошибки и опечатки. И вместо аккуратной страницы с результатами поиска получают грустный смайлик — машина не поняла запроса.

Машинный спеллчекинг — это целое искусство и не зря поисковые гиганты нанимают талантливых математиков работать над этой задачей. Но существуют и простые механизмы автокоррекции, основанные на фонетических принципах, которые уже способны давать результат и улучшать пользовательский опыт. О них и поговорим в статье. Тем более, что они так или иначе являются фундаментом для более сложных решений.

В конце статьи приводится ссылка на открытый датасет с ошибками и опечатками. Можно собрать по нему ценную статистику и потестировать свои алгоритмы спеллчекинга.
Читать дальше →
Total votes 18: ↑17 and ↓1 +16
Views 8.7K
Comments 10

Как обучть мдль пнмть упртые скрщня

Python *Data Mining *Algorithms *Mathematics *Machine learning *

Недавно я натолкнулся на вопрос на Stackoverflow, как восстанавливать исходные слова из сокращений: например, из wtrbtl получать water bottle, а из bsktballbasketball. В вопросе было дополнительное усложнение: полного словаря всех возможных исходных слов нет, т.е. алгоритм должен быть в состоянии придумывать новые слова.


Вопрос меня заинтриговал, и я полез разбираться, какие алгоритмы и математика лежат в основе современных опечаточников (spell-checkers). Оказалось, что хороший опечаточник можно собрать из n-граммной языковой модели, модели вероятности искажений слов, и жадного алгоритма поиска по лучу (beam search). Вся конструкция вместе называется модель зашумлённого канала (noisy channel).


Вооружившись этими знаниями и Питоном, я за вечер создал с нуля модельку, способную, обучившись на тексте "Властелина колец" (!), распознавать сокращения вполне современных спортивных терминов.


Читать дальше →
Total votes 88: ↑87 and ↓1 +86
Views 37K
Comments 17