wainshine/Chinese-Names-Corpus: 中文人名语料库。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。
2018-11-22 00:41:14
Author: github.com(查看原文)
阅读量:648
收藏
Join GitHub today
GitHub is home to over 28 million developers working together to host and review code, manage projects, and build software together.
Sign up
中文人名语料库。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。
Permalink
Type |
Name |
Latest commit message |
Commit time |
|
Failed to load latest commit information. |
|
Ancient_Names_Corpus(25W).txt
|
删除1000余非人名
|
Aug 7, 2017
|
|
ChengYu_Corpus(5W).txt
|
删除1000余非人名
|
Aug 7, 2017
|
|
Chinese_Family_Name(1k).xlsx
|
中文姓氏、称呼
|
Apr 2, 2017
|
|
Chinese_Names_Corpus(120W).txt
|
删除3万非、低频人名
|
Nov 4, 2018
|
|
Chinese_Relationship(4.8k).xlsx
|
删除1000余非人名
|
Aug 7, 2017
|
|
English_Cn_Name_Corpus(48W).txt
|
删除1000余非人名
|
Aug 7, 2017
|
|
English_Names_Corpus(2W).txt
|
英文常见姓或名
|
Feb 19, 2017
|
|
Japanese_Names_Corpus(18W).txt
|
删除500非人名
|
Dec 30, 2017
|
|
Japanese_Names_Corpus(1W).xlsx
|
数据来源于网络
|
Dec 31, 2016
|
|
LICENSE
|
第一次提交
|
Dec 9, 2016
|
|
README.md
|
Update README.md
|
Nov 4, 2018
|
业余项目“萌名(一个基于语料库技术的取名工具)”的副产品。不定期更新。只删词,不加词。
可用于中文分词、人名识别。
中文常见人名(Chinese_Names_Corpus)
120万。从亿级人名语料中提取。删除了罕见姓氏、和带生僻字的人名。随机删除了部分名人姓名(一点点小私心)。清洗后仍存有少量badcase。
中文古代人名(Ancient_Names_Corpus)
25万。多个人名词典汇总。删除了罕见姓氏、和带生僻字的人名。清洗后仍存有少量badcase。
日文人名(Japanese_Names_Corpus)
18万。从维基百科中提取。删除了罕见姓氏、和带生僻字的人名。清洗后仍存有少量badcase。
数据清洗过程相见,“日本人名数据清洗分享”。
翻译人名(English_Cn_Name_Corpus)
48万。多个人名词典汇总。删除了翻译人名常用字之外的人名。混有少量西化中文人名,如“李伯恩”。清洗后仍存有少量badcase,尤其是英文地名。
中文姓氏(Chinese_Family_Name)
1千。从亿级人名语料中提取。删除了罕见姓氏,复姓只保留了“欧阳”。
中文称呼(Chinese_Relationship)
5千。称呼词根。多个人名词典汇总。删除了部分带贬义的称呼。
18万。中文称呼。多个人名词典汇总。清洗后仍存有大量badcase。
成语词典(ChengYu_Corpus)
5万。多个成语词典汇总。清洗后仍存有少量badcase。
更新时间:
更早的提交,不记得时间了。
删除了1000余非人名。 -2017.08.08
删除了5000余非人名。 -2017.11.25
新增了18万日文人名。 -2017.12.17
删除了1500余非人名(主要是日文地名)。 -2017.12.30
删除了约3万余非人名、或低频人名。 -2018.11.4
@萌名 整理
2018.11.04
Press h to open a hovercard with more details.
文章来源: https://github.com/wainshine/Chinese-Names-Corpus
如有侵权请联系:admin#unsafe.sh