Как сильно испортился русский язык за 150 лет. Русичка ошибается, посты на «Пикабу» не хуже «Войны и мира»
Пользователь портала «Пикабу» провёл статистическое исследование и выяснил, что жемчужина русской литературы, роман «Война и мир», на самом деле практически ничем не отличается от топовых постов на ресурсе. С такими доказательствами можно смело указывать в списке литературы на лето любимые паблики в соцсетях.
Владимир Шитов из Томска, администратор паблика «Человек наук» во «ВКонтакте» и одноимённого телеграм-канала, зарегистрированный на портале «Пикабу» под ником Vladimir98, занимается популяризацией науки во всевозможных её проявлениях.
Среди его постов можно найти и посвящённые искусственному интеллекту, и рассказы о лауреатах Шнобелевской премии, и даже уравнение идеального чая, который органично дополнит формула правильного поедания мороженого.
На «Пикабу» Владимир часто пишет о статистике, в том числе составленной на основе произведений русской литературы. Один из таких постов на тему частотности употребления отдельных букв набрал 6,9 тысячи плюсов.
В результате этого исследования парень выяснил, что буква «О» встречается в русскоязычных текстах чаще, чем 14 самых редких букв вместе взятые, самой популярной согласной стала «Н», а самой редкой — гласная «Ё». При этом около 50 процентов любого длинного текста составлены всего из семи букв.
На этом Шитов не остановился и решил исследовать не только буквы, но и слова. Для эксперимента он взял текст четырёх томов романа Льва Толстого «Война и мир» (465 тысяч слов) и один из самых популярных постов на «Пикабу» за 2020 год, в котором пользователям Сети предложили пофантазировать, что бы было, если бы они стали Биллом Гейтсом (83 тысячи слов).
Чтобы понять, насколько достояние культуры похоже на современный русский язык, сравним его с одним из самых популярных постов на «Пикабу» 2020 года. У него достаточно много комментариев, в которых люди говорят на разнообразные темы. Это отлично подходит для анализа языка, — написал Владимир.
Казалось бы, в настолько непохожих друг на друга текстах, разница между которыми больше 150 лет, не может быть вообще ничего общего, но совпадения начались уже на уровне букв.
Частота букв оказалась практически идентичной, разве что за исключением буквы «Т» в посте, но это различие Владимир списал на фамилию Гейтс. Не менее интересной получилась раскладка и по самым популярным словам в обоих текстах.
Самыми часто повторяющимися в «Войне и мире» оказались предлоги, местоимения, союзы и частицы. А как же пост? Там картина практически идентичная.
Первые четыре слова в обоих графиках были одинаковыми, что свидетельствует о большой степени схожести русского языка XIX и XXI веков.
Вы можете возразить, что эти слова необходимы для связывания текста, поэтому неудивительно, что они так часто встречаются. Можно удалить все предлоги, союзы, частицы и прочие «стоп-слова». Тогда тексты снова приобретают свою индивидуальность, — отметил Владимир.
При таких вводных самые частотные слова в романе дают понять, кто его главные герои и о чём в нём идёт речь.
То же самое можно узнать и из наиболее популярных слов в посте о Биле Гейтсе.
Такие данные, в свою очередь, наталкивают на мысль, что и принципы построения русскоязычных текстов за 150 лет практически не поменялись. Как и не поменялся образ мысли носителя русского языка, что доказывает другое исследование лингвистов. Учёные выяснили, что эмоции человека зависят от языка, на котором тот разговаривает.
Но даже знание языка, на котором написано произведение, не позволяет его полностью понять. Эксперты решили узнать, что означают имена из книг о Гарри Поттере, и выяснили — всё сложнее, чем кажется.