четверг, 17 мая 2007 г.

Как написать проверку орфографии («спеллчекер» в 21 строку)

(c) Питер Норвиг
Перевод: Петров Александр


Кто такой Питер Норвиг (Peter Norvig)

Питер Норвиг американец, возглавляет исследовательское отделение компании Google.

Почетный член и советник Американской ассоциации Искусственного интеллекта. Написал книгу "Искусственный интеллект: современный подход." в соавторстве со Стюартом Расселом.
Основные статьи Норвига посвящены проблемам искусственного интеллекта и компьютерной лингвистики. Он является одним из авторов языка JScheme. Он также является автором известного эссе "Научитесь программировать за десять лет", переведенного на разные языки мира.




И так, приступим...


На прошлой неделе два моих друга (Дин и Билл) независимо друг от друга сказали мне, что они поражены работой Гугловского корректора орфографии. Как здорово и быстро он работает, говорили они. Напишите в строке поиска, например «праферка» и Гугл любезно поправит вас – « Возможно, вы имели в виду: проверка». (прим.перев. Стоит, конечно, отметить, что все ломается, если захотеть). Поисковики Microsoft’a и Yahoo работают тоже хорошо. Меня же удивило то, что изначально я думал, что Дин и Билл будучи специалистами в области математики обратили внимание на отличную работу проверки орфографии в Гугле потому, что осознавали те проблемы, которые возникают при статистической обработке текста и при решении таких задач, как проверка орфографии. Однако как оказалось оба моих друга математикой не занимались, и вообщем-то моё предположение оказалось не верным.

Я подумал, что многим будет интересно узнать, как реализуются орфографические корректоры.

(продолжение...)