eikc 发表于 2004-12-21 14:37

提一个建议━━将PDF文件转化为文本文件

提一个建议━━将PDF文件转化为文本文件
易名:
大家以前可能看过我的一些文章,我是十分喜欢阅读的,因此从论坛上搜集了不少文章和经典名著,其中包括很多PDF打印文档。但是在看的过程中速度实在让人受不了,而且如果有些什么心得体会又没有办法进行标注,所以我曾经将经典书籍一个字一个字的打下来转化成文本,这个工作断断续续干了大约一年多。也曾经在论坛中上传过几个我手工打的文章。
但是,前一段时间机器发生了故障,所有收集的文章全部毁之一旦(全部是经过压缩的文本文档,总共60多M)。我用尽了恢复的方法也不行,当时我十分恼火心疼,但是也没有办法。总得面对现实,于是我又重新开始在MACD论坛上下载书籍。今天正在打印《通向金融王国的成功之路》的时候突然想到,我是否应该借助论坛会员的力量,将我自己的工作贡献出来,也让大家一起做这个工作呢?
我知道有很多朋友都在想方设法地寻找各种转化PDF文件到TXT的方法,我也曾经试过很多,但是效果都不理想。也许是我孤陋寡闻吧,有些PDF文档可以用软件转化到TXT,有些扫描的文章就不能。如果大家真的有什么好办法,欢迎告诉我,也可以节省很多时间。
因此,我的提议就是,大家各自贡献自己的力量,
1.将手边有的想要转化、贡献给广大会员的经典PDF版书籍上传到论坛中,我可以和热心的朋友一起分工打字成文本。
2.将手边现成的文本文件的书籍上传。
3.为了书籍打字的尽量准确和快速,我建议打字好并有志于此的会员自报奋勇来报名做这项工作。
4.为了使大家有干劲,论坛应该适当予以奖励。
5.为了上传的文章格式统一,建议大家统一文章的格式。
●关于文本格式:
我想Word是最通用的,但是对于PDF转化的文件来说,会包含很多图片,因此如果用Word文档会很大浪费论坛资源。我想最好采用我以前曾经在论坛推荐过的文本编辑、阅读软件━━“My notebook”(我的笔记本)。我一直以来都是使用这个软件来整理文章,它的好处是可以自动压缩文档,同样加上图片的文章,它保存的格式大约只有Word的一半。而其它方面是采用RTF格式,并不会改变文字颜色等效果。唯一的缺点是没有正版序列号,我使用的也是在其他网站下载的破解版。当然如果大家想要使用最新的8.3正版,或者论坛集体和作者商量可以批发来或者想方法破解,不过这个软件的注册费并不贵,原先只有RMB:25元。
●关于图片处理:
对于PDF档中的图片,我一般是采用抓图软件,也是我在论坛上下载的,既有完善的抓图功能,又可以进行常见的编辑,文件很小是绿色软件,完全够用了。
●关于打字用文本软件:
其次,我在打字用的软件是Emeditor,是十分好用的文本编辑软件,在网上随便都可以找得到。只是本身带有的插件功能中的“透明效果”不是十分完美,在我的系统中使用总是感觉迟钝,因此只好不使用透明功能。
●关于PDF阅读软件:
阅读PDF文件采用的软件也是在论坛上下载的(几乎我所有的东西都是在论坛下的,附带感谢那些无私奉献的会员们)。如果大家真的有志于此,我可以重新上传给大家用。
●关于打字软件:
我是采用的最新的五笔打字软件(网上作者免费提供的)“极点五笔4.0版”,词库是自己编辑的,比较适合股票文章的。大家也可以在网上找到适合自己的词库。这是我使用这么多五笔打字软件中感觉最好的,一直在使用。
另外的提议,因为大家可能都象我一样,觉得自己辛辛苦苦打字的文章免费给人家用十分可惜。那么版主们是否可以制定这样的规则?比如专门设一个主题,只让上传书籍的有贡献的会员可以下载,或者只有在某些级别以上的会员下载?或者限制下载已知的数量?总要让人心服口服才行。
这些就是我的提议,我现在手上现有的书籍有以下几本:
PDF版的:《专业投机原理》、《日本蜡烛图技术》、《艾略特波浪理论》
PDG版的:《期货交易技术分析》《笑傲股市》等。
我目前正在做的是《通向金融王国的成功之路》,目前正在打字到第二章,等到全部完成后可以上传到论坛中,做为抛砖引玉吧。以后做其他的时候可以大家分工,省得多做无用工。
希望各位版主和会员们可以商量一下,找到一个可行的办法。我想这应该是一个很好的亮点,会让MACD论坛聚集更多的人气,帮助大家快速提高炒股水平。

雅铭 发表于 2004-12-21 14:55

感谢您的大力支持

bb_byw 发表于 2004-12-21 15:03

您是个好人,向您表示感谢。

liangrl 发表于 2004-12-21 15:56

现在大部分的书籍都是扫描后的图片制作成的,要转换到TXT文字,只能用ORC软件来处理,我试过好多次,ORC的文字识别率太低,有时还不如手工录入的快。

eikc 发表于 2004-12-21 16:17

所以我提议大伙来用手工录入。

bb_byw 发表于 2004-12-21 16:26

手工录入太繁琐了,其实看得过程中做一下笔记,并记下是在多少页就行。一点建议。

liangrl 发表于 2004-12-21 17:32

超星的PDG格式ORC识别转换还行,其他的辩识率太差了

三人行 发表于 2004-12-21 19:10

支持兄弟的想法,共同努力,造福大家。
我正在用OCR校正《专业投机原理》,弄了几天了,已经识别完了,这在校对,
感觉识别率还可以,英文单词识别率一般。书里的图采用抓图插入到word里。

dwdm1234 发表于 2004-12-21 22:47

将PDF文件转化为文本文件,有什么重的的意义吗?

eikc 发表于 2004-12-22 14:56

Originally posted by dwdm1234 at 2004-12-21 22:47
将PDF文件转化为文本文件,有什么重的的意义吗?
看的时候速度比较快,另外文件比较小。同样的一本书,如果转成TXT文件可能只有原来的1/5大小。
另外如果要做什么笔记、感想可以随后记下来。如果象楼上兄弟说的记下多少页,好像麻烦些。
其实这个工作并不见得有多慢,只要大家每个人分工操作,应该是很容易积累“一笔财富”。不过看版主们没有回应可能同意的人少。
这样吧,大家如果愿意可以和我单独联系,大家交换各自的藏书也好。
我的QQ:50756869,只是有时不上网可能回话慢些。

eikc 发表于 2004-12-22 14:59

Originally posted by 三人行 at 2004-12-21 19:10
支持兄弟的想法,共同努力,造福大家。
我正在用OCR校正《专业投机原理》,弄了几天了,已经识别完了,这在校对,
感觉识别率还可以,英文单词识别率一般。书里的图采用抓图插入到word里。

好的,请联系QQ或给我发短信,大家可以互相交换着做。
我以前打字转换过这本书,可是后来文件全部丢失了,可惜。
我下一步也正打算转换这本书呢,可以省了很多力气了。

三人行 发表于 2004-12-22 15:26

Originally posted by eikc at 2004-12-22 14:59


好的,请联系QQ或给我发短信,大家可以互相交换着做。
我以前打字转换过这本书,可是后来文件全部丢失了,可惜。
我下一步也正打算转换这本书呢,可以省了很多力气了。
等我校对完了,会共享的,希望更多人加入进来,这样就可以短时间弄完好多本书了!

寂寞如瘾 发表于 2004-12-22 16:51

PDF文件看起来很方便啊!(Adobe Reader)
另外:ORC比手工输入还是轻松很多。

06092793 发表于 2004-12-22 17:45

双手支持!

f9418168 发表于 2004-12-22 18:34

78787008 发表于 2004-12-22 20:11

不会吧.我记得以前用过一个很小的软件(阅读器),可以复制一页文字,我当时为了翻译单词用过.
去网上找找.名字记不了了.pdf挺好.是天空还是华军不记得了,反正很小.

无弦琴音客 发表于 2004-12-22 21:28

各有利弊。

个人认为 PDF 格式很不错的

虽然慢,但却反映清晰,特别是图片质量很好。

csmpaul 发表于 2004-12-22 23:34

“My notebook”(我的笔记本)哪里有下载?

b46130 发表于 2004-12-23 00:05

我只知道 用 “docviewer”
可以看所有版本的 PDF
不用升级到6.0什么的

krestof 发表于 2004-12-23 00:30

感动得泪流满面
页: [1] 2 3
查看完整版本: 提一个建议━━将PDF文件转化为文本文件