陈银波的知识小站

  • 首页
  • 数学
  • 算法
  • 图
  • 数据
  • 记忆
复杂 = f (简单1, 简单2, ... , 简单n)
  1. 首页
  2. 算法
  3. 正文

PDF简历信息提取——BiLSTM-CRF

9 6 月, 2024 1637点热度 0人点赞 7条评论

0. 摘要

参加了天池的一个pdf简历信息提取的比赛,这里进行回顾、整理和分享

赛题要求从pdf简历中提取出信息,比如说名字,籍贯等。这里搭建了一个BiLSTM-CRF模型,能够从PDF简历中提取出所需的信息。

模型的线上得分是0.727,排名 21/1200+

1. 赛题相关

模型目标:pdf简历 --> 类别信息

2. 思路

使用python库pdfminer,将pdf简历中的文本提取出来。利用json标注文件,对提取出来的文本进行匹配和BIO标注,每一个字对应一个标注。最后,将标注后的文本送到BiLSM-CRF模型中进行训练。

3. BiLSTM-CRF 模型

将文本中的每个字进行one-hot编码,经过Embedding层后,每一个字对应一个字向量,所以文本可以用一个矩阵表示。将文本矩阵输入BiLSTM层,输出中每一个字会对应一个类别概率向量,此类别概率向量表示了该字属于各个类别的概率。所以所有字属于各个类别的概率可以用一个类别概率矩阵表示。将此类别概率矩阵输入CRF层,即可得到得分最高的文本标注序列。

此处留一个pytorch官方的BiLSTM-CRF教程链接: https://pytorch.org/tutorials/beginner/nlp/advanced_tutorial.html#

4. 代码地址

https://github.com/Agwave/PDF-Resume-Information-Extraction

标签: 暂无
最后更新:20 6 月, 2024

陈银波

邮箱:agwave@foxmail.com 知乎:https://www.zhihu.com/people/agwave github:https://github.com/agwave leetcode:https://leetcode.cn/u/agwave

点赞
< 上一篇
下一篇 >

文章评论

  • Watch Motorsport Online

    Well I definitely enjoyed studying it. This information procured by you is very helpful for good planning.

    9 9 月, 2025
    回复
  • American football schedule Qatar

    I adore reading and I believe this website got some really utilitarian stuff on it! .

    10 9 月, 2025
    回复
  • casino slot machine games

    After study a few of the blog posts on your website now, and I truly like your way of blogging. I bookmarked it to my bookmark website list and will be checking back soon. Pls check out my web site as well and let me know what you think.

    11 9 月, 2025
    回复
  • Gena Strobel

    Thanks, I have recently been looking for info approximately this topic for a long time and yours is the best I've found out so far. However, what concerning the bottom line? Are you positive in regards to the supply?

    5 10 月, 2025
    回复
  • vorbelutrioperbir

    Some genuinely fantastic information, Sword lily I found this.

    9 10 月, 2025
    回复
  • NBA schedule Qatar

    I besides conceive therefore, perfectly indited post! .

    13 10 月, 2025
    回复
  • gullybet cashback offer

    I'm curious to find out what blog platform you happen to be using? I'm experiencing some minor security issues with my latest website and I'd like to find something more secure. Do you have any recommendations?

    14 10 月, 2025
    回复
  • razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
    回复 American football schedule Qatar 取消回复

    文章目录
    • 0. 摘要
    • 1. 赛题相关
    • 2. 思路
    • 3. BiLSTM-CRF 模型
    • 4. 代码地址
    分类
    • 图
    • 工程
    • 数学
    • 数据
    • 算法
    • 记忆
    最新 热点 随机
    最新 热点 随机
    你的重复性工作,我帮你自动化 “沙滩之城” Change Data Capture (CDC) 技术初探 IPv6在物联网中的应用 IPv6首部的改进:简化与优化网络通信
    “沙滩之城”你的重复性工作,我帮你自动化
    遗传算法解决旅行商问题 高阶导数题四大解法一文搞定 图数据分享:深圳地铁数据 PageRank计算过程与直觉:从简单例子切入 你的重复性工作,我帮你自动化
    归档
    • 2025 年 9 月
    • 2024 年 10 月
    • 2024 年 9 月
    • 2024 年 8 月
    • 2024 年 7 月
    • 2024 年 6 月
    • 2024 年 5 月

    COPYRIGHT © 2024 陈银波的知识小站. ALL RIGHTS RESERVED.

    Theme Kratos Made By Seaton Jiang

    粤ICP备2024254302号-1

    粤公网安备44030002003798号