0. 摘要 参加了天池的一个pdf简历信息提取的比赛,这里进行回顾、整理和分享 赛题要求从pdf简历中提取出信息,比如说名字,籍贯等。这里搭建了一个BiLSTM-CRF模型,能够从PDF简历中提取出所需的信息。 模型的线上得分是0.727,排名 21/1200+ 1. 赛题相关 模型目标:pdf简历 --> 类别信息 2. 思路 使用python库pdfminer,将pdf简历中的文本提取出来。利用json标注文件,对提取出来的文本进行匹配和BIO标注,每一个字对应一个标注。最后,将标注后的文本送到BiLSM…