为做个程序员英语字典,我处理了StackOverflow和HackerNews10年5千万条数据

有点标题党,不过都说都真实的。英语技能对开发员人员至关重要。所有人都不喜欢背单词,但更惨的是背住的单词发现没怎么用,又慢慢地忘记了。本来计划给自己做个开发人员常用单词表,感觉可能对其它人也有用,所以就发布开源出来。 

单词列表托管在Github上,一共将近3000个。

https://github.com/kkyon/Simple-IT-English

单词主要来自:StackOverflow 和HackerNew、

 

Word Source: Source Newest Post Oldest Post Row Count Size
HackerNews comments   2015-10-13 08:44:02 UTC   2006-10-09 19:51:01 UTC   8399417   3.41 GB  
HackerNews stories   2015-10-13 08:44:34 UTC   2006-10-09 18:21:51 UTC   1959809   402.71 MB  
StackOverflow answers   2019-09-01 05:22:21.463 UTC   2008-08-01 13:16:49.127 UTC   27665009   22.27 GB  
StackOverflow questions   2019-09-01 05:23:41.743 UTC   2008-08-03 21:38:52.623 UTC   18154493   28.13 GB  
48.8 GB processed




1 . 大数据部分使用了Bigquery, 使用非常简单。
技术栈是:

2. NLP部分使用NLTK.

3. 最后使用python脚本来生成Markdown文件。 具体代码在github上都有。 后面加个v2ex地址: https://www.v2ex.com/t/627750

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpgsfx.html