如何站在大数据的角度看100000个故事 (2)

没有任何单词会中只在故事的开始或结束。像“高兴地(happily)”,在全文都稳定出现,但在最后结尾频率飙升(“从此他们过上幸福快乐(happily)的生活”)。其他的词,如“真相(truth)”或“道歉(apologize)”,在故事情节发展的过程中频率不断上升,这很合理。一个角色通常不会在故事开始时就“道歉(apologize)”或“意识到真相(realize the truth)”。类似的,“wealthy”这类描述设定的词出现频率会逐渐下降,就像剧情发展到后面就越不可能引入新的角色一样。

上图种有一个有趣特征,大多数单词出现频率最高的时候是在开始或结束时,但在90%的点上,像“grabs”, “rushes”, 和 “shoots”这样的词在故事的90%部分最常出现,说明故事的高潮一般在这里。

在故事中出现的词语

受到对出现在故事高潮时出现的单词的分析的启发,我们可以观察哪些单词出现在故事情节的中间部分,而不是一直盯着开头和结尾不放。

peak_decile <- decile_counts %>% inner_join(word_averages, by = "word") %>% filter(number >= 2500) %>% transmute(peak_decile = decile, word, number, fraction_peak = n / number) %>% arrange(desc(fraction_peak)) %>% distinct(word, .keep_all = TRUE) peak_decile ## # A tibble: 1,640 × 4 ## peak_decile word number fraction_peak ## <dbl> <chr> <int> <dbl> ## 1 0.1 fictional 2688 0.4676339 ## 2 1.0 happily 2895 0.4601036 ## 3 1.0 ends 18523 0.4036603 ## 4 0.1 opens 7319 0.3913103 ## 5 1.0 reunited 2660 0.3853383 ## 6 0.1 protagonist 3222 0.3764742 ## 7 1.0 ending 4181 0.3721598 ## 8 0.1 year 18692 0.3578536 ## 9 0.1 century 3583 0.3530561 ## 10 0.1 story 37248 0.3257356 ## # ... with 1,630 more rows

故事的每个十分位数(起点,终点,30%点等)都有一次单词出现的频率很高。哪些词更能代表这些十分位呢?

img

我们观察到,开头和结尾的高频词相对固定。例如,“fictionnal”一词出现在故事的前10%。中间部分的词汇分布的相对分散(比如,在该部分中出现的比例为14%,而不是预期的10%),但它们仍然是故事结构中很有意义的词汇。

我们可以把其中代表性强的单词的完整趋势绘制出来看看。

img

试着分析上图的24个词,我们的主人公被“attracted”, then “suspicious”, followed by “jealous”, “drunk”, and ultimately “furious”. A shame that once they “confront” the problem, they run into a “trap” and are “wounded”.如果你忽略掉哪些重复的词和语法的确实,你可以发现整个故事的趋势可以用这些关键词复述出来。

情感分析

我们关于故事情节中不断上升的紧张局势和冲突的这一假设,得到了证实。可以用情感分析来发现每个故事不同10分位的平均情感得分。

decile_counts %>% inner_join(get_sentiments("afinn"), by = "word") %>% group_by(decile) %>% summarize(score = sum(score * n) / sum(n)) %>% ggplot(aes(decile, score)) + geom_line() + scale_x_continuous(labels = percent_format()) + expand_limits(y = 0) + labs(x = "Position within a story", y = "Average AFINN sentiment score")

img

情节描述在故事中的每个部分都计算出了负AFINN分值(这是很有意义的,因为故事是聚焦于矛盾的)。但开头相对平缓一点,然后矛盾开始逐步凸显出来,在80-90%的高潮时。然后通常会有一半的结束,一半包含“快乐(happily)”,“救助(rescues)”和“团聚(reunited)”等词汇,导致得分又变高了。

总而言之,如果我们必须总结出人类撰写的平均的故事结构,那么大致都是“事情会变得越来越糟,直到最后一分钟才出现转机,变得越来越好”这样的情况。

后续

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpjfxs.html