Как комментарий к заметке «Частотный анализ украинского языка» [1] излагаются простые наблюдения по частотности пар букв. Предлагается применить разработанную технику к анализу текстов. Основная гипотеза: множество геометрически связанных кластеров символов несут информацию об авторстве и другие важные интегральные данные.
В частности, мне кажется, что ожидать от разных сообществ носителей языка (форумы и т.д.) одного и того же спектра диграмм кажется не обоснованным.
В частности, мне кажется, что ожидать от разных сообществ носителей языка (форумы и т.д.) одного и того же спектра диграмм кажется не обоснованным.