陈银波的知识小站

  • 首页
  • 数学
  • 算法
  • 图
  • 数据
复杂 = f (简单1, 简单2, ... , 简单n)
  1. 首页
  2. 算法
  3. 正文

PDF简历信息提取——BiLSTM-CRF

9 6 月, 2024 893点热度 0人点赞 0条评论

0. 摘要

参加了天池的一个pdf简历信息提取的比赛,这里进行回顾、整理和分享

赛题要求从pdf简历中提取出信息,比如说名字,籍贯等。这里搭建了一个BiLSTM-CRF模型,能够从PDF简历中提取出所需的信息。

模型的线上得分是0.727,排名 21/1200+

1. 赛题相关

模型目标:pdf简历 --> 类别信息

2. 思路

使用python库pdfminer,将pdf简历中的文本提取出来。利用json标注文件,对提取出来的文本进行匹配和BIO标注,每一个字对应一个标注。最后,将标注后的文本送到BiLSM-CRF模型中进行训练。

3. BiLSTM-CRF 模型

将文本中的每个字进行one-hot编码,经过Embedding层后,每一个字对应一个字向量,所以文本可以用一个矩阵表示。将文本矩阵输入BiLSTM层,输出中每一个字会对应一个类别概率向量,此类别概率向量表示了该字属于各个类别的概率。所以所有字属于各个类别的概率可以用一个类别概率矩阵表示。将此类别概率矩阵输入CRF层,即可得到得分最高的文本标注序列。

此处留一个pytorch官方的BiLSTM-CRF教程链接: https://pytorch.org/tutorials/beginner/nlp/advanced_tutorial.html#

4. 代码地址

https://github.com/Agwave/PDF-Resume-Information-Extraction

标签: 暂无
最后更新:20 6 月, 2024

陈银波

邮箱:agwave@foxmail.com 知乎:https://www.zhihu.com/people/agwave github:https://github.com/agwave leetcode:https://leetcode.cn/u/agwave

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

文章目录
  • 0. 摘要
  • 1. 赛题相关
  • 2. 思路
  • 3. BiLSTM-CRF 模型
  • 4. 代码地址
分类
  • 图
  • 工程
  • 数学
  • 数据
  • 算法
最新 热点 随机
最新 热点 随机
Change Data Capture (CDC) 技术初探 IPv6在物联网中的应用 IPv6首部的改进:简化与优化网络通信 IPv6:下一代互联网协议 联邦图学习:连接联邦学习与图神经网络的新桥梁
二次型化标准型的应用:最值求解图注意力网络(GAT):一个例子解释从输入到输出维度变化的完整过程图卷积网络(GCN):一个例子解释从输入到输出维度变化的完整过程联邦图学习:连接联邦学习与图神经网络的新桥梁IPv6首部的改进:简化与优化网络通信
PageRank计算过程与直觉:从简单例子切入 同质图与异质图 二次型化标准型的应用:最值求解 图数据分享:北京地铁数据 图注意力网络(GAT):一个例子解释从输入到输出维度变化的完整过程
归档
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月

COPYRIGHT © 2024 陈银波的知识小站. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

粤ICP备2024254302号-1

粤公网安备44030002003798号