by 皮球喵(管理員)
2023-03-23 01:10
小說備份需知
***********************************
若想翻譯的小說全文已完結,請譯者先把全文備份下來,以防發生作者把文章下架的慘劇(出版社要求、作者退出會員…)。
建議四種下載內文途徑,各有優缺點:
一、
縦書きPDF
【成為小說家】小說頁面最上方的鏈結可以直接下載直式瀏覽的PDF全文,最快,不過內容格式(紙本小說形式)不便於使用翻譯網頁。直式瀏覽PDF中,內文有被依頁面範圍強制換行斷句,不影響肉眼瀏覽小說,但若用來直接機器翻譯,則因斷句位置不正確而有誤譯情況。
可以先用記事本【另存為…】功能準備一個編碼為【UTF-8】的空TXT文字檔,把直式瀏覽PDF全文複製(ctrl-A 之後 ctrl-C)再貼入記事本中存檔,可以得到全文的TXT文字檔。間接轉換出來的純文字內容沒有間隔用的空段落。
二、
TXTダウンロード
使用【成為小說家吧】章節列表下方的TXT手動下載鏈結,會跳出下載頁面,手動【篇名】選擇下載,乾淨的TXT檔,文字斷句與段落間隔都正確。不過這方法有點傷眼,有可能會一閃神漏個幾篇。要記得檢查。
三、
在目錄頁,對各篇鏈結使用【右鍵選單】,
選擇【另存連結為…】,這樣每篇都叫【下載.htm】,
還好WINDOWS系統會自動在檔名加序號,
下載.htm、 下載(1).htm、下載(2).htm……
很費事,不過不太會漏掉(因為下載過的鏈結會變色)。
小說內文前後會有多餘的網頁內容,轉存【UTF-8】格式純文字檔時,要手動刪除不想要的部份。
四、
使用全站下載軟體爬文,下載層數設定一層,這樣比較省事。缺點與前項相同。
by goldlove
簡單來說就是說建議如果是長篇小說,建議平常就要有保存的習慣。
写了个Python的爬取脚本,有需求自取(转载等等都可随意,不需要署名):
https://www.esjzone.me/forum/1679240336/165318.html
現在有另一個門路,可以去
https://books.fishhawk.top/
直接下載日文全文了
6666666
6666
1111111