陈银波的知识小站

  • 首页
  • 数学
  • 算法
  • 图
  • 数据
  • 记忆
复杂 = f (简单1, 简单2, ... , 简单n)
  1. 首页
  2. 算法
  3. 正文

PDF简历信息提取——BiLSTM-CRF

9 6 月, 2024 1176点热度 0人点赞 3条评论

0. 摘要

参加了天池的一个pdf简历信息提取的比赛,这里进行回顾、整理和分享

赛题要求从pdf简历中提取出信息,比如说名字,籍贯等。这里搭建了一个BiLSTM-CRF模型,能够从PDF简历中提取出所需的信息。

模型的线上得分是0.727,排名 21/1200+

1. 赛题相关

模型目标:pdf简历 --> 类别信息

2. 思路

使用python库pdfminer,将pdf简历中的文本提取出来。利用json标注文件,对提取出来的文本进行匹配和BIO标注,每一个字对应一个标注。最后,将标注后的文本送到BiLSM-CRF模型中进行训练。

3. BiLSTM-CRF 模型

将文本中的每个字进行one-hot编码,经过Embedding层后,每一个字对应一个字向量,所以文本可以用一个矩阵表示。将文本矩阵输入BiLSTM层,输出中每一个字会对应一个类别概率向量,此类别概率向量表示了该字属于各个类别的概率。所以所有字属于各个类别的概率可以用一个类别概率矩阵表示。将此类别概率矩阵输入CRF层,即可得到得分最高的文本标注序列。

此处留一个pytorch官方的BiLSTM-CRF教程链接: https://pytorch.org/tutorials/beginner/nlp/advanced_tutorial.html#

4. 代码地址

https://github.com/Agwave/PDF-Resume-Information-Extraction

标签: 暂无
最后更新:20 6 月, 2024

陈银波

邮箱:agwave@foxmail.com 知乎:https://www.zhihu.com/people/agwave github:https://github.com/agwave leetcode:https://leetcode.cn/u/agwave

点赞
< 上一篇
下一篇 >

文章评论

  • Watch Motorsport Online

    Well I definitely enjoyed studying it. This information procured by you is very helpful for good planning.

    9 9 月, 2025
    回复
  • American football schedule Qatar

    I adore reading and I believe this website got some really utilitarian stuff on it! .

    10 9 月, 2025
    回复
  • casino slot machine games

    After study a few of the blog posts on your website now, and I truly like your way of blogging. I bookmarked it to my bookmark website list and will be checking back soon. Pls check out my web site as well and let me know what you think.

    11 9 月, 2025
    回复
  • razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
    取消回复

    文章目录
    • 0. 摘要
    • 1. 赛题相关
    • 2. 思路
    • 3. BiLSTM-CRF 模型
    • 4. 代码地址
    分类
    • 图
    • 工程
    • 数学
    • 数据
    • 算法
    • 记忆
    最新 热点 随机
    最新 热点 随机
    你的重复性工作,我帮你自动化 “沙滩之城” Change Data Capture (CDC) 技术初探 IPv6在物联网中的应用 IPv6首部的改进:简化与优化网络通信
    IPv6在物联网中的应用IPv6首部的改进:简化与优化网络通信IPv6:下一代互联网协议Change Data Capture (CDC) 技术初探“沙滩之城”
    简单直观地理解神经网络 同质图与异质图 图注意力网络(GAT):一个例子解释从输入到输出维度变化的完整过程 “沙滩之城” 二次型化标准型的应用:最值求解
    归档
    • 2025 年 9 月
    • 2024 年 10 月
    • 2024 年 9 月
    • 2024 年 8 月
    • 2024 年 7 月
    • 2024 年 6 月
    • 2024 年 5 月

    COPYRIGHT © 2024 陈银波的知识小站. ALL RIGHTS RESERVED.

    Theme Kratos Made By Seaton Jiang

    粤ICP备2024254302号-1

    粤公网安备44030002003798号