Методика, опробованная на обзорах чикагских отелей, основана на анализе структуры и стиля текстов. Лживые рецензии в целом напоминают беллетристику.

Группа исследователей из Корнеллского университета (США) под руководством профессора компьютерных наук Клэр Карди и специалиста по теории коммуникации Джеффа Хэнкока представила программу-прототип, способную с высокой долей вероятности отсеивать очень часто встречающиеся в Сети ложные рецензии, обзоры и отзывы на продукты и услуги (то, что называется «opinion spam»).

По просьбе учёных 20 студентов университета написали намеренно лживые позитивные отзывы о 20 чикагских отелях. Затем продукты любительского PR были смешаны с верифицированными правдивыми рецензиями и отданы на просмотр ещё трём добровольцам. Последние в определении «джинсы» показали результат, не отличающийся от случайного; более того, мнения о том, какие именно отзывы не были правдивыми, не совпадали.

Люди подвержены ошибкам: многие будут верить, что читают правду, пока не убедятся в обратном («презумпция правдивости»).

Программа способна провести анализ множества текстов и показать, что в правдивых рецензиях чаще встречаются слова, имеющие отношение к предмету. В случае с отелями это «ванная», «заселение» или «цена». Необъективные рецензии «беллетристичнее»; они изобилуют «общеконтекстуальными» словами и словосочетаниями вроде «бизнес-трип», «каникулы» или «ваш муж». Честные и нечестные рецензенты по-разному используют ключевые слова, относящиеся к человеческому поведению и личной жизни, употребляют разное количество пунктуационных знаков и длинных слов. А ещё выяснилось, что правдивые обозреватели используют больше существительных, а лжецы излишне налегают на глаголы.

Исследователи создали несколько аналитических программ; лучшие результаты (89,8% обнаруженного вранья) показала та, которая в первую очередь вычленяла в текстах ключевые слова, а также фиксировала, как некоторые слова соединялись в словосочетания.

http://science.compulenta.ru/624452/?r1 … mp;r2=news