如何站在大数据的角度看100000个故事 (2)

日期：2021-05-30 栏目：程序人生浏览：次

没有任何单词会中只在故事的开始或结束。像“高兴地（happily）”，在全文都稳定出现，但在最后结尾频率飙升（“从此他们过上幸福快乐（happily）的生活”）。其他的词，如“真相（truth）”或“道歉（apologize）”，在故事情节发展的过程中频率不断上升，这很合理。一个角色通常不会在故事开始时就“道歉（apologize）”或“意识到真相（realize the truth）”。类似的，“wealthy”这类描述设定的词出现频率会逐渐下降，就像剧情发展到后面就越不可能引入新的角色一样。

上图种有一个有趣特征，大多数单词出现频率最高的时候是在开始或结束时，但在90％的点上，像“grabs”, “rushes”, 和 “shoots”这样的词在故事的90%部分最常出现，说明故事的高潮一般在这里。

在故事中出现的词语

受到对出现在故事高潮时出现的单词的分析的启发，我们可以观察哪些单词出现在故事情节的中间部分，而不是一直盯着开头和结尾不放。

peak_decile <- decile_counts %>% inner_join(word_averages, by = "word") %>% filter(number >= 2500) %>% transmute(peak_decile = decile, word, number, fraction_peak = n / number) %>% arrange(desc(fraction_peak)) %>% distinct(word, .keep_all = TRUE) peak_decile ## # A tibble: 1,640 × 4 ## peak_decile word number fraction_peak ## <dbl> <chr> <int> <dbl> ## 1 0.1 fictional 2688 0.4676339 ## 2 1.0 happily 2895 0.4601036 ## 3 1.0 ends 18523 0.4036603 ## 4 0.1 opens 7319 0.3913103 ## 5 1.0 reunited 2660 0.3853383 ## 6 0.1 protagonist 3222 0.3764742 ## 7 1.0 ending 4181 0.3721598 ## 8 0.1 year 18692 0.3578536 ## 9 0.1 century 3583 0.3530561 ## 10 0.1 story 37248 0.3257356 ## # ... with 1,630 more rows

故事的每个十分位数（起点，终点，30％点等）都有一次单词出现的频率很高。哪些词更能代表这些十分位呢？

我们观察到，开头和结尾的高频词相对固定。例如，“fictionnal”一词出现在故事的前10％。中间部分的词汇分布的相对分散（比如，在该部分中出现的比例为14％，而不是预期的10％），但它们仍然是故事结构中很有意义的词汇。

我们可以把其中代表性强的单词的完整趋势绘制出来看看。

试着分析上图的24个词，我们的主人公被“attracted”, then “suspicious”, followed by “jealous”, “drunk”, and ultimately “furious”. A shame that once they “confront” the problem, they run into a “trap” and are “wounded”.如果你忽略掉哪些重复的词和语法的确实，你可以发现整个故事的趋势可以用这些关键词复述出来。

情感分析

我们关于故事情节中不断上升的紧张局势和冲突的这一假设，得到了证实。可以用情感分析来发现每个故事不同10分位的平均情感得分。

decile_counts %>% inner_join(get_sentiments("afinn"), by = "word") %>% group_by(decile) %>% summarize(score = sum(score * n) / sum(n)) %>% ggplot(aes(decile, score)) + geom_line() + scale_x_continuous(labels = percent_format()) + expand_limits(y = 0) + labs(x = "Position within a story", y = "Average AFINN sentiment score")

情节描述在故事中的每个部分都计算出了负AFINN分值（这是很有意义的，因为故事是聚焦于矛盾的）。但开头相对平缓一点，然后矛盾开始逐步凸显出来，在80-90％的高潮时。然后通常会有一半的结束，一半包含“快乐（happily）”，“救助（rescues）”和“团聚（reunited）”等词汇，导致得分又变高了。

总而言之，如果我们必须总结出人类撰写的平均的故事结构，那么大致都是“事情会变得越来越糟，直到最后一分钟才出现转机，变得越来越好”这样的情况。

后续

转载注明出处：https://www.heiqu.com/wpjfxs.html

如何站在大数据的角度看100000个故事 (2)

相关推荐