博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
高保真PDF至HTML转换 pdf2htmlEX
阅读量:7142 次
发布时间:2019-06-29

本文共 353 字,大约阅读时间需要 1 分钟。

传统pdf2html有两种:

一种相当于pdf2text加一些比较弱的格式,基本跟pdf2text也差不了多少

另一种是把所有渲染成图片然后嵌到一个html,结果是文字信息都丢失(不能选择,拷贝),生成的文件还巨大。

pdf2htmlEX结合二者优点,既保留了文字,又保留了格式。

具体来说有如下特性

  • 1.从pdf提取字体
  • 2.保证渲染准确性,针对web进行优化(包括减少文件大小,文字行合并,(为HTML文字选择)字体重编码等等)
  • 3.其他内容用图片显示
  • 4.单文件输出,一个HTML搞定一切

转换的效果实例:

/

Watch Fork

Convert PDF to HTML without losing format. Text is preserved as much as possible. —

转载地址:http://edgrl.baihongyu.com/

你可能感兴趣的文章
基于UDP协议的网络程序
查看>>
Linux常用网络工具traceroute路由扫描
查看>>
线索化二叉树
查看>>
Git命令集之十——文件移动命令
查看>>
产业融合促使未来进入一个新的商业模式中去
查看>>
关于设置http响应头connection的作用
查看>>
Java之注解
查看>>
PHP响应式VIP电影影视系统源码 带自动采集和会员管理系统
查看>>
iframe里弹出的层显示在整个网页上
查看>>
开源项目Bug悬赏任务
查看>>
ubuntu 和 win10 双系统安装 及 pyopengl 环境配置修改
查看>>
学习计划书
查看>>
为什么你的智能手表功能这么多,ICMAX来解答
查看>>
tor_api
查看>>
Connectify+Wireshark捕获手机APP的数据包
查看>>
两种方法反转单链表
查看>>
二叉树递归前序、中序、后序遍历
查看>>
在VIEW中加载UICollectionView
查看>>
散列桶
查看>>
eclipse修改 服务器默认路径
查看>>