Защо някои книги са само PDF?

Пояснения защо някой от споделените книги са само в PDF, a не в по-удобните и мобилни формати като epub/mobi или текстови формати като doc/docx:
Знаем, че много от читателите предпочитат да четат книгите на мобилни устройства или на устройства с по-малък екран или електронни четци. За този случай текстово оцифровани и обработени книги са идеални за целта, защото текста и редовете се разполагат и преформатират на наличните редове.
Почти винаги за книги текст тези формати са идеални и винаги за предпочитане. Въпреки това понякога правим изключения и някои книги се предлагат само сканирани в суров/снимков вид – това са книги в PDF формат, които са компилирани само от сканирани снимки при това ДОСТА по-голям размер от типичните мобилни формати (1-2Mb) или текстов PDF (2-4Mb).

Нека първо да обясним какво включва пълната обработка на една книга, и после да изтъкнем някой причини защо и как това понякога се избягва:

  1. След закупуване всяка книга се сканира от хартия в снимки и след това се обработва с отцифроваща и редактираща програма (най-удобно с Abbyy Finereader). Просто няма друг начин за дигитализиране на хартиено копие книга. НЯМА ДРУГА АЛТЕРНАТИВА. Ако искаме изобщо дигитална книга трябва да минем през точка 1.
  2. Оттук книгата може да се сподели със наличните скан-снимки или да се продължи с точка 3.4.5.6.7.8.9.10 докато се оформи в префинен желан формат за леко и приятно четене.
  3. Оттук започва същинската работа – прочит и редакция на извлечения текст от сканираните снимки. Това включва прочит на цялата книга от-до. Някои книги са доста големи, или направо огромни. Други пък са малко по-малко интересни за редактиращия, или са толкова големи, че инвестираните ресурси на си заслужават отделеното време. Затова се анализира материала и се решава намясто дали да се отделят 10-20 работни часа дообработка или да се ‘скалъпи’ ПДФ от вече наличните заснети снимки.
  4. Ако решим че искаме да постигнем добри резултати продължаваме с обработка на текста – изчистване на граматични грешки, неразпознати символи, объркани букви, неточни снимки, таблици излишни обекти/зони. (около 10-на часа)
  5. Файла се експортира в htm или doc за да се провери за грешки отново със спел-чек (2-3 часа)
  6. Файла се проверява за специфични грешки, запетайки, нов празен ред, начупени нови редове, тирета, булети, невидими символи и подобни неприятно изглеждащи неточности (за улеснение използване на специални команди с wildcards, скриптове, макроси или Find and Replace със regex)
  7. След като е готов синтаксиса се започва със стилизирането – избор формат на листа, шрифта, размери, заглавия, хединги, параграфи, страници, таблици.
  8. Добавя се (генерира се) съдържание, базирано на различните Хединги в документа. Форматира се да изглежда добре.
  9. Наличните снимки в книгата се обработват отделно от това, преоразмеряват, компресират  една по една и после се добавят към готовия файл от точка 7.
  10. Резултата до тук се запомня в htm (нужно за точка 12) и док файл (от който ще направим краен pdf).
  11. Добавя се корица, която се преоразмерява, компресира (да кажем под 100Kb) и чест се фотошопира за да изглежда по-добре изчистена и гладка. Също се преоразмерява и в други по-малки размери. нужни за мобилните формати.
  12. Файла htm се добавя в Calibre заедно с корицата и анотацията за да се преобразува в epub. Крайния epub се преобразува набързо до mobi/azw3.
  13. След това doc файла (от точка 10) се запазва в PDF и се настройва корица с PDF Editor и други дреболии ако нещо не изглежда добре. Често се връщаме на точка 7 за преработка на текста за да се получи по-добър PDF …
  14. Когато всичко е готово се качва място в облака за евентуално споделяне.
  15. Прави се нов пост с информация за произвидението, изваждат се определени пасажи, направени по време на прочита и редакцията от точка 4, добавки за автор и библиография.
  16. Преглежда се пак всичко и се споделя със света. Следват споделяния тук-там
  17. Горе-долу резултата е налице и се планира следващ материал, често след малко почивка …

 

Ето сега накратко причини за споделяне на книга само в такъв снимков неразпознат-текст PDF:

  • Книгите са много големи и са прекалено трудоемки за прочит/редакция/преоформяне
  • Основна причина е липсата на човешки ресурси за помощ при обработка – затова и скоростта на сподялба е такава каква то е. Ако желаете да помогнете сте много добре дошли!
  • Едно преобразуване от хартия на КАЧЕСТВЕН редактиран epub отнема до средно  3-4 дена (около 15-20 часа отдадена работа). Най-малко.
  • Често тези книги имат много снимки, таблици и графики или са списания с много детайли
  • Дори и аз да правя една книга, тя-друга, той-трета, а те-четвърта – то пак може да се обработят не повече от 2-3 книги на седмица. А сме буквално сме разглезни от избора, който имаме за плановете занапред.
  • Избора от книги е огромен – влезте в една книжарница и ще разберете. И има огромно количество чакащи заглавия – затова някои книги леко се пренебрегват (незаслужено) за сметка на други.
  • За времето за която бихме направили подобна книга текстово разпозната, то бихме могли да обработим примерно ТРИ други стандартни книги съставени основно от текст. Това е въпрос на преценка и дали си заслужава да се отдели толкова време. Ако целим да споделим колкото се може повече, то някои книги се налага да останат така, за да не ни забавят (освен ако някой от вас не помогне, разбира се )
  • Опитваме се възможно най-малко на брой книги да са в неразпознат пдф формат. Затова и като цяло избягваме. Цели се постигане на качествени резултати за множество формати.

 

Наистина се опитваме книги само на PDF да е рядкост и макар да са лесно четими на компютър това не винаги е удобно за голяма част от нашите чители. Но няма достатъчно време и хора, който да помогнат

Бележка: Изследването на http://4eti.me/vote показва от кои заглавия се вълнуват читателите и постепенно почти всички макар и листът да нарастна много (а защо не и всички от тях) ще бъдат споделени. Отделно от това си имаме и немалко (всъщност още много-много други заглавия).

Благодарим ви за цялото разбиране и приемаме всякакви съвети и помощ на https://fncontact.com/4etime