Pull to refresh

Comments 2

# А
CODE_OF_FIRST_RUSSIAN_LETTER = 1040

# я
CODE_OF_LAST_RUSSIAN_LETTER = 1103

CODES_OF_RUSSIAN_SYMBOLS = list(
    range(
        CODE_OF_FIRST_RUSSIAN_LETTER,
        CODE_OF_LAST_RUSSIAN_LETTER + 1
    )
) + [1025, 1105] # Ё, ё

Замените числа на ord("A"), ord("я") и т.д.
Так и от комментариев избавитесь и код читабельнее

  1. Обходит все английские страницы;

  2. Из каждой страницы извлекает весь контент (похожий пример был в прошлой статье);

  3. На нашем сайте большая часть текста, который видит пользователь, хранится в div с классом b-content. Поэтому тест извлекает контент из него с помощью метода find. Остальные блоки div мы тестируем отдельно;

  4. Получает из контента все слова;

  5. Проходится по каждому слову и по каждому символу;

  6. Проверяет, что символ не является русским.

Зачем разбиваете на слова? Почему сразу по тексту не пробежаться?
Думали ли регулярку составить на русские буквы и проверить на совпадение сразу со всем текстом?
Если нужно выделить слова, содержащее русскую букву - регуляркой можно и такое сделать

На счет ord("А") и ord("я") согласен, так лучше будет, спасибо.

На слова разбивал, чтобы при выводе ошибки можно было понять в каком она слове

Про регулярки не думал, попробую сделать, спасибо)

Sign up to leave a comment.