命名实体识别（NER）怎么做？BiLSTM-CRF 和 BERT-CRF 哪个好？

Question

Levenx · Accepted Answer

命名实体识别（Named Entity Recognition，NER）是从文本中抽取出特定类型的实体——人名、地名、机构名、日期等。它是信息抽取的基础：搜索引擎要理解"苹果"是公司还是水果，问答系统要找到答案里的人名和地点，都靠 NER。NER 怎么定义"实体"最常用的标注体系是 BIO：B-X 表示实体 X 的开头，I-X 表示实体 X 的内部，O 表示非实体。比如"北京大学位于海淀区"标注为"B-ORG I-ORG I-ORG I-ORG O B-LOC I-LOC I-LOC"。还有 BIOES 体系多了 E（结束）和 S（单字实体），理论上更精确但实际差距不大。常见实体类型：PER（人名）、LOC（地名）、ORG（机构）、DATE（日期）、MISC（其他）。具体定义取决于业务场景——医疗 NER 需要识别疾病名和药品名，金融 NER 需要识别公司名和指标。NER 方法演进规则和词典：正则匹配+实体词典，准确率极高但覆盖率低。电话号码、邮箱这类格式固定的实体用正则就行。但新实体（新人名、新公司名）永远识别不了——这就是规则方法的根本缺陷。CRF（条件随机场）：传统方法的巅峰。它

命名实体识别（NER）怎么做？BiLSTM-CRF 和 BERT-CRF 哪个好？

NER 怎么定义"实体"

NER 方法演进

NER 的核心评估指标

中文 NER 的特殊挑战