性能评价指标就是用来精确地评价结果好坏的打分公式。对于简单的问题,比如上面说的解方程,性能评价指标非常好找,就是解方程正确率和所需时间。但对于机器翻译这种比较难评价的问题,科研人员就要首先认真地设计一个评价指标(设计工作本身的含金量甚至都足够发一篇论文),然后大家采用统一的指标来给自己的模型打分,这样才有互相比较优劣的标准。比如机器翻译领域,目前常用的评价指标之一是“词错误率”。它的设计思路是:在训练数据集中,每个原句都对应于一个已经请专家翻译的标准结果句,我们只需要把机器翻译的结果跟标准结果句来比较,就能评价好坏。具体怎么比较呢?可以这样想:我翻译的结果跟标准结果如果有差异,那肯定把我的句子经过一定的修改就能变成标准结果句,我只要去衡量一下到底要做多少“修改”就能评价好坏了,需要做的“修改”越多,那么我的翻译质量就越坏。什么叫做“修改”呢,我们可以定义3种修改:“插入”、“删除”、“改变”,也就是说,我每次“修改”可以给我的句子插入一个词,或者删除一个词,或者改变一个词。最少需要做多少次这样的“修改”就可以把我的句子变成标准结果句,就说我修改的代价是这么多次。把这个代价去除以标准结果句的词数,就是词错误率。
上面这个计算过程并不重要,我想说的重点在于,科研里不会存在模糊,评价科研结果要尽可能避免人类的主观模糊评价,而要设计一个精确的评价。当然,把科研成果投入到实际使用以后肯定要听取用户的评价,但在这之前,科研必须要能自己评价自己,否则连自己都不知道什么才叫做“进步”。
当一个科研工作完成了自我评价,达到了期望,就要开始写论文准备发表。在最热的领域里,你的idea也有可能有其他人独立想到了,假如他比你先发表了论文,那你就失去了发论文的机会,工作几乎等于白做。所以既然工作都完成了,写论文一定要快。可是光快是不行的,要稳中求快。论文并不是单纯地展示实验结果就可以的,正如之前所说,一篇论文不仅要能清晰地展示自己的工作,还要能很容易地被人看懂。甚至有时候自己工作的意义没有那么明显,还要花费篇幅来讲自己这个工作的意义,它展示出了什么新的可能性,给人带来了什么新的思路,这在论文写作里往往称为“讲故事”。事实上有不少人发现,论文里“故事”讲得好不好,是真的能影响论文成功发表的概率的。同样一个工作,你让两个人来分别写论文,一个人写的能发表,另一个人就发不出去,这是完全可能的。
写好论文,就可以把文章投稿到会议委员会或者期刊编辑部,开始科研工作者最紧张的审稿流程。审稿就是由会议或者期刊的管理部门组织一批本领域的专家来评审所有的投稿,决定哪些论文可以采用,哪些论文需要驳回。具体的审稿流程可能并不止一步,可能有初审,专家审,终审等等,不过这里我简化地讲一下。当你的论文投到了对方那里以后,对方会组织几个审稿人(不定数量,一般至少3人)来审你的论文。审论文过程一般是双盲的,也就是说你不知道谁给你审的稿,审稿人也不知道他看的是谁的论文。这是因为同一个领域的科研圈子一般是很小的,大家低头不见抬头见,如果互相认识的话拒稿或者通过难免会有人情上的问题。审稿完成之后,审稿人会给你发回审稿意见。审稿意见分为三类,分别是accept(接受)、neutral(中立)、reject(拒绝),具体可能还有程度上的差异(比如strong accept表示强烈推荐,说明审稿人认为这篇论文达到了同类论文的较高质量)。除了这一两个词以外,审稿人还会对你论文的优点和缺点做详细的总结,最后给出改进意见。一些负责任的审稿人甚至能给出长达八九页的详细指导意见。可以说,对于不怎么会写论文的新手,多投稿来凑各个审稿人的审稿意见对培养自己写论文能力是很有帮助的。收到审稿意见以后,在截止期限之前,你还可以继续修改论文重新投稿。最后,如果所有审稿人一致接受,那么论文基本就可以发表;如果一些人接受一些人拒绝,最后就会在评审会议上决定是否发表。投稿之后一次通过的论文并没那么多,很多论文还是由审稿人和作者反复打磨才出来的。
审稿人干了这么多活也不是白干的,但他也不是稀罕那点审稿费。作为审稿人,最大的利益其实是能提前看到很多未发表的论文,看到很多新的idea,抓住现在本领域大家都在研究的方向,而且还能跟作者通过审稿意见深度沟通。不过关于这种利益也有一些反面例子,比如科研领域有一件事是很惨的,就是科研撞车:你正在研究的题目被别人先发表了出来。审稿人也是人,当他看到一篇论文正是自己研究的东西的时候,他也有可能出于私心拒绝这篇论文。现在的多个审稿人机制在一定程度上可以解决这个问题,但也不是说能完全解决。
打杂