最近這段時間,由于要編寫一文檔,我搜集了相關(guān)的內(nèi)容。需要用到的內(nèi)容在pdf文檔中,因此,尋找出將pdf文件轉(zhuǎn)換成word的文檔或者是將pdf中的文字、圖片提取出來是關(guān)鍵。在此,我將所用到的轉(zhuǎn)換軟件以及相關(guān)的要點寫下來,方便有此需要的各位查閱。 將pdf轉(zhuǎn)換成word文檔中,我分別試用了兩個軟件進(jìn)行轉(zhuǎn)換:(1)Adobe Acrobat 7.0 Professional(2)PDF2Word (pdf輸出word)綠色漢化版 V3.0。Adobe Acrobat 7.0 用法為,用Acrobat 7.0打開pdf文件,然后打開“文件”菜單點擊“另存為”然后將保存類型改為Microsoft word文檔,即可將pdf轉(zhuǎn)換為word文檔,不過此種方法比PDF2Word 3.0的轉(zhuǎn)換效果差,我試驗了轉(zhuǎn)換幾篇pdf文檔,PDF2Word 3.0的轉(zhuǎn)換效果要比Acrobat 7.0好,因此建議用PDF2Word 3.0來進(jìn)行轉(zhuǎn)換。PDF2Word 3.0下載可點擊其超鏈接進(jìn)行下載。 將pdf轉(zhuǎn)換成word文檔容易,但有種情況,將pdf文件轉(zhuǎn)換成word文檔后,在word文檔種,里邊的文字不能編輯,文字都是由一張張圖片組成的,碰到這種情況,難道我們只能一個一個的看著圖片將文字錄入文檔中再編輯嗎?我找了幾個軟件來將圖片中的文字,提取出來保存到word文檔中,易于我們進(jìn)行編輯、排版等操作。其中我試用感覺 用Office 2003提取圖片中的文字,準(zhǔn)確度較高。方法如下: (1) 我們需要安裝“Microsoft Office Document Imaging”的組件,點“開始→程序”,在 “Microsoft Office 工具” 里點“ Microsoft Office Document Imaging” 即可安裝運行。 (2) 打開帶有文字的圖片或電子書籍等,找到你希望提取的頁面,按下鍵盤上的打印屏幕鍵(PrintScreen)進(jìn)行屏幕取圖。 (3)打開Microsoft Office Word 2003 ,將剛才的屏幕截圖粘貼進(jìn)去;點擊“文件”菜單中的“打印”,在安裝Microsoft Office Document Imaging組件后,系統(tǒng)會自動安裝一個名為“Microsoft Office Document Imaging Writer”的打印機。 “Microsoft Office Document Imaging Writer”打印機,其他選項無須額外設(shè)置,點擊“確定”按鈕后,設(shè)定好文件輸出的路徑及文件名(缺省使用源文件名),然后很快就可以自動生成一個MDI格式的文檔了。 打開剛才保存的MDI類型文件,根據(jù)你的需要用鼠標(biāo)選擇文字內(nèi)容(被選中的內(nèi)容在紅色的框內(nèi)),然后單擊鼠標(biāo)右鍵,在彈出的快捷菜單中選擇“將文本發(fā)送到Word”,即可將圖片內(nèi)容自動轉(zhuǎn)換為一個新的Word文檔,然后你就可以在Word文檔中隨心所欲地進(jìn)行編輯這段文字了。 或者 打開MDI文檔,選擇“工具”菜單,選中“將文本發(fā)送到word”,然后一直按確定就可以了。完成了將圖片中的文字作為文本發(fā)送到word中后,我們就可以在word中對該文檔進(jìn)行編輯、排版等操作了。 將圖片中的文字提取出來,我試用了其他OCR文字識別軟件以及用上面這種方法來操作,提取出的文字都有些錯別字或者是出現(xiàn)其他字符等。相對來說對于,用“Microsoft Office Document Imaging”組件來提取的方法,提取出的文字正確率較高。 將圖片中的網(wǎng)址和文字去掉的方法
若其他朋友有更好的方法,請給予告知,大家相互學(xué)習(xí),共同進(jìn)步。 |