[Все] [А] [Б] [В] [Г] [Д] [Е] [Ж] [З] [И] [Й] [К] [Л] [М] [Н] [О] [П] [Р] [С] [Т] [У] [Ф] [Х] [Ц] [Ч] [Ш] [Щ] [Э] [Ю] [Я] [Прочее] | [Рекомендации сообщества] [Книжный торрент] |
pdf->fb2
Есть такая проблема - имеется куча технической документации в формате pdf. Как вы сами понимаете - читать ее с экрана ебука просто пытка, хочется сконвертировать ее в fb2. Документации много, яб даже сказал - очень много (около 1Gb), посему как-то хочется автоматизировать сей процесс. PDF-ы - "честные", то есть текст - сделан текстом (не отсканированая картинка), но картинки-иллюстрации тоже присутствуют. Защита - отсуствует. Кто что сможет посоветовать?
Можно также добыть всю эту документацию в HTML, но это немного гиморойно и я не уверен что полученный HTML будет удобно конвертировать во что бы то не было.
P.S. Это документация по Cisco, язык - английский в основном, если интересно - могу выложить после конвертации. Выкладывать pdf нет смыла - они берутся с www.cisco.com :)
HTML - наиболее подходящее для конвертации сырьё. Честный PDF приводится к HTML либо Solid PDF Converter'ом, либо сохранением в виде HTML из Adobe Acrobat (не Reader). В отличие от других опробованных конверторов эти позволяют сохранить в тексте bold и italic.
После чего лично я вставляю HTML-файл в OpenOffice', и конвертирую OOOFBTools. Если вдруг найдёте более удобный способ - напишите.
Альтернатива - корректная расстановка в самом PDF абзацев. Такое возможно, для этого процесса у Adobe даже существует отдельный термин, но вот программу, которая позволила бы править текст в PDF "по месту" обнаружить мне не удалось.
Irsi, возможно, Вас заинтересует эта тема
Пройдите правое меню по цепочке:
ЧаВо по книгам -> Обмен опытом -> Форматы PDF
P.S. Это документация по Cisco, язык - английский в основном, если интересно - могу выложить после конвертации. Выкладывать pdf нет смыла - они берутся с www.cisco.com :)
Дайте всё же ссылку на конкретный pdf файл лазить по сайту нет охоты, есть у меня одна штука на Яве, помотрю.
Ulenspiegel, спасибо, но от OOOFBTools у меня остались самые неприятные впечатления. Например они теряют таблицы. Собственно пример с типовым html/pdf, который надо конвертнуть - ниже. Посмотрите что увы получается на выходе. Или я уже натыкаюсь на ограничения fb2?
archimedes, спасибо, я как-то умудрился это пропустить. нтересно - буду изучать.
Дайте всё же ссылку на конкретный pdf файл лазить по сайту нет охоты, есть у меня одна штука на Яве, помотрю.
Ну хотя бы - http://www.cisco.com/en/US/products/sw/secursw/ps1018/products_tech_note09186a00808bc994.shtml или прямая ссылка на pdf (не уверен что отработает) - http://www.cisco.com/application/pdf/paws/98628/zone-design-guide.pdf
от OOOFBTools у меня остались самые неприятные впечатления. Например они теряют таблицы.
Есть мнение, что таблицы (особенно с содержимым, а не как костыль для компенсации убогости средств форматирования) с fb2 (в части адекватного отображения не экране ебука) сочетаются... даже не слабо, а условно.
Anarchist, плохо это. Тогда возникает вопрос - какая альтернатива для того чтоб читать техническую документацию на экране ебука? Как минимум необходимы таблицы, картинки и выдление текста с примерами кода/конфигурации. rtf ну очень неохота использовать по понятным причинам, pdf - неудобен из-за жесткой привязки к размерам поля вывода, fb2 как мы выяснили не поддерживает необходимых элементов форматирования, html - тоже неудобен по понятным причинам... Что остается-то?
...Тогда возникает вопрос - какая альтернатива для того чтоб читать техническую документацию на экране ебука? ...
А чем вообще читают техническую документацию? Дисплеем компьютера с соответствующим разрешением? - Ну вот и ответ на Ваш вопрос: современные читалки для чтения технической документации попросту не предназначены. Они для текста. Ждем годик-другой, вроде на подходе большие экраны.
Да вопрос вообщем-то не в большом экране - вопрос в жесткой привязке pdf к размерам этого экрана. По очевидным причинам так сложилось что все pdf форматируются для печати на листе А4 и соответственно вывести их на современную читалку, размера поля вывода которой немного ме дотягивают до А6, приводят к результатам, которые можно назвать как угодно, окромя приемлемый. Простите, но я не думаю что через годик-другой размеры экранов достигнут размеров близких формату А4 (~14" диагональ), да и таскать такую "дуру" с собой будет неудобно.
В принципе - диагональ "текстовой" области (поля по очевидным причинам отбрасываем) у типовой книжки издательства O'Reilly составляет примерно 10". Упихать это в 5-6" не составит никаких проблем, будет читаемо (проверенно). Так что дело тут вовсе не в размерах экрана ебука.
Да вопрос вообщем-то не в большом экране...
Не всякая картинка, ужатая вдвое, будет "рассмотрима", особенно, если учесть черно-белость и 16(в лучшем случае) градаций серого. Кроме того, остается проблема таблиц.
Таскать с собой дуру размером 14" по диагонали, конечно, неудобно. Но обещают (давно уже!) гибкие экраны.
Мммм... еще раз - А4 как формат выводного поля по умолчанию был выбран для pdf вовсе не по причине размеров таблиц и рисунков - просто это документ для печати на принтере, от этого и А4.
На самом деле А4 слишком большой для комфортного чтения. Комфортное чтение это шрифт 10го кегля, ~60 символов в строке, размеры поля текста вертикаль:горизонталь ~3:2. Минимально читабельно - 8й кегль и ~40 символов в строке. Терпимо - 8й кеголь и ~60 символов в строке. Для детей и людей с плохим зрением - 12й кегль. Исходя из этого легко считается необходимая диагональ ебука. Потом берем любую книгу с полки меряем диагональ (без полей! только текст по очевидным причинам) и... получаем примерно теже цифры. :)
Так что не ждите ебуков с 14" в обозримом будущем - 8" как мах. имхо.
Н-да, сдаюсь, "on-the-fly" на редкость коряво получается.
Если надумаете посмотреть:
-> http://www.austria-forum.org/wbtmaster/previewUploads.htm?TUlibrary
-> "Try PDF" (left side)
-> zone-design-guide.pdf (left side)
-> Preview Text
Н-да, сдаюсь, "on-the-fly" на редкость коряво получается.
О чём ты грезишь?
Форматирование (элементов внутри таблиц) уже в исходном документе оставляет желать лучшего.
Ulenspiegel, спасибо, но от OOOFBTools у меня остались самые неприятные впечатления. Например они теряют таблицы.
Хм... Скажем так - видимо, они теряют таблицы не всегда. Другой вопрос, что в FB2 отображать таблицы кроме CoolReader3 сейчас никто и на умеет :( Ну, в качестве альтернативы - на последних прошивках lBook в качестве базы для смотрелки PDF используется уже не poppler, а Adobe SDK. И текстовые PDF таки вполне успешно масштабируются. Но - появляются (по понятным причинам) разорванные абзацы. Если найду методу для того, чтобы сделать text reflow в имеющемся PDF - скорее всего, буду их использовать именно в виде PDF.
А как у fb2 с оформлением текстам разными шрифтами? Ну типа как обычно оформляется - заголовки пропорциональным шрифтом без засечек, основной текст - пропорциональным с засечками, код - моноширинным...
А как у fb2 с оформлением текстам разными шрифтами? ...
По-всякому. В fb2 шрифты не предусмотрены, какой указан в настройках читалки - так и показывает.
Как я понимаю у fb2 предусмотрены только стили текста? В принципе это правильно имхо.
У FB2, как такового - никак. Отдельные читалки (CR3) позволяют задавать стили отображения заголовков, например, через CSS. Вроде бы при этом можно задать и свой шрифт, но сам я этого не проверял.
Посмотрел АлРидер - можно объявить 2 шрифта: основной и дополнительный. Потом для разных элементов указать используемый шрифт. Негусто, в общем.
А определять свои стили в fb2 можно? в список отдельных читалок входят ебуки типа того же покетбука?
Недопонял. Попробуйте переформулировать. Определить оформление уже существующих в формате fb2 стилей - да, можно (в CR3). Создать свой стиль - нельзя. За то, что прошито внутри покетбука - не поручусь, в lBook'ах v5 прошит CR3, в v3 - как правило, CR3, но были и комбинированные прошивки (CR3+FBReader). Скорее всего, ничего принципиально нового Вы не увидите (с).
Так ответ понял:
1. Свои стили определять нельзя.
2. lbook в список отдельных читалок входит.
Ну теперь осталось разобраться какие стили текста в fb2 допустимы/определены и как посмотреть какая читалка используется в покетбуке...
Irsi >>> А определять свои стили в fb2 можно?
Ulenspiegel >> Определить оформление уже существующих в формате fb2 стилей - да, можно (в CR3). Создать свой стиль - нельзя.
Irsi > понял: [...] Свои стили определять нельзя.
Да легко! Тэг "style" с атрибутом "name" спасёт отцов русской демократии! Пример способа применения - Савченко "За перевалом" (именно этот, удалённый, вариант) - скачать .fb2.zip, распаковать, открыть текстовым редактором notepad'ом и поискать слова "redtext" и "spacing" (вместе с кавычками). Случайно узнал в процессе допроса автора CoolReader'а. Дарю!
...Дарю!
Гм... "Бойтесь данайцев, дары приносящих".
Я так понимаю, эта штука будет работать только в кулридере? Ничего себе подарочек...
ew > эта штука будет работать только в кулридере?
И да и нет.
Да - только во вьюерах, поддерживающих языки описания стилей, будут работать описания стилей (кроме CSS, в .fb2 можно использовать ещё какие-то ЯОС, но какие - уже не помню).
Нет - текст со style'ями смотреть можно в любом вьюере, который соответствует требованиям формата в плане - текст, обрамленный неизвестным тэгом, не удалять, а показывать как обычный текст. (fb2->html транслятор, применённый на Либрусеке и Флибусте, увы, этм свойством не обладает. :-( )
Я тут наткнулся на чудную книгу - http://www.yuzzich.narod.ru/filez/my_books/make_fb.zip, и убедился что для решения моих задач собственно CSS не нужен. Единственная засада - со списками...
А еще я убедился что на автоматическое преобразование в моем случае можно смело забить. :(
Irsi > Единственная засада - со списками...
О, это совсем просто:
1) цитатой (хотя можно и без неё);
2) в начало абзаца - значок "bullet" (U+2022) или символы из семейства U+25xx;
2) для отступа - должное количество неразрывных пробелов перед значком.
С CSS'ом можно и не так выпендриться (атрибут "style" тэга "p")... :-)
Все это немного напоминает костыль, Вы не находите? Надеюсь в будущем будут предусмотрено что-нибуть в стиле и сопутствующая обвязка. бо список - такой же полноправный элемент логической разметки текста, как например параграф или заголовок.
Irsi > список - такой же полноправный элемент логической разметки текста, как например параграф или заголовок.
Согласен. Но в FB2 его нет. Хотя ничто по идее не мешает расширить открытый формат... кроме разве что необходимости переделки редактора и вьюера :-(
Ещё одна вещь, которая даже в худлите сильно пригодится, - это формула: текст по центру и цифирка в скобках у правого края.
Впрочем, не исключено, что и то и другое можно сделать как таблицу - нужны всего-то невидимые линии, ширина столбца жёсткая либо по ширине содержимого и объединение столбцов в каждой строке в отдельности. Но это тоже костыль. :-(
Irsi > Надеюсь в будущем будут предусмотрено что-нибуть в стиле и сопутствующая обвязка.
А стиль - это не "элемент логической разметки" (равно как жирность и курсивность). Хотя, наверно, можно вставить "списочные" символы и изобразить вложенность силами CSS или иного ЯОС, но я не настолько его знаю, чтобы сходу предложить решение.
> Согласен. Но в FB2 его нет. Хотя ничто по идее не мешает расширить открытый формат...
В FB3 вроде уже есть... ждем его выхода видимо.
>А стиль - это не "элемент логической разметки"
Согласен, просто часто это синонимы - каждому элементу логической разметки соотвествует свой стиль. Более того - имхо стиль не привязанный ни к какому элементу логической разметки - не только не нужен, но даже наверное вреден. Исключение - "базовые стили", которые сами по себе не используются, но служат основой для построения других стилей.
Irsi > каждому элементу логической разметки соотвествует свой стиль. Более того - имхо стиль не привязанный ни к какому элементу логической разметки - не только не нужен, но даже наверное вреден.
А курсивности с жирностями к какой логической разметке отнести?
А вообще - да, я часто вместо style (например, для р а з р я д к и ) использую strong или emphasis: в stylesheet'е расписываю что-то вроде "emphasis { font-style: inherit; letter-spacing: 0.2em; }" и выделяю слова с разрядкой emphasis'ом. Тогда вьюер, не работающий с CSS'ом, покажет курсив, а CR - разрядку. Получается в каком-то смысле через жопу, но работает. :-)
Irsi > FB3
Не, не хочу. ИМХО проще всё-таки FB2 расширить, чем для FB3 новые читалки писать.
Кстати, есть же ещё (в разработке) NFB...
И да и нет...
Т.е. возможны сюрпризы :(
Я бы не стал этим пользоваться.
А как насчёт простой выгрузки текста из "двухколоночного" пдф -- когда каждая пдф-страница это неразрезанный разворот, т.е. 1=титул+1, 2=2+3, 3=4+5 -- обычными что выделением/копированием, что экспортом в текст получается лишь забавная чересстрочная каша. Чем и как?
Желание найти волшебную кнопку - чтобы оно все само, без всяких усилий корректно конвертировалось - вполне понятно.
Но, как и все волшебное, - из разряда сказок и мечтаний.
Для текстовых 2-колоночных pdf правильнее всего использовать ФР+мозги+руки )
Господа у меня задача гораздо проще - я точно знаю что среди них нет и не будет ни много колоночных pdf, ни pdf со спуском полос. Еще раз - это фирменная документация Cisco и если честно у меня есть сильнейшее подозрение что все она генерится автоматом, на основе некого языка логической разметки, как html, так и pdf-версия.
>Еще раз - это фирменная документация Cisco и если честно у меня есть сильнейшее подозрение что все она генерится автоматом, на основе некого языка логической разметки, как html, так и pdf-версия
Ваши предчувствия вас не обманули, — документация Cisco (как и многая другая) создаётся при помощи замечательного средства DocBook, которое в упор не желают признавать букоделы, предпочитая ему ограниченный fb2.
Ну назовите мне вьюверы, которые его поддерживают...
К тому же я полазил по pdf-никам от кошководах - нашел как минимум три программы, которыми они их делают. Ни в одной из ник упоминаний про докбук не обнаружил, Видимо я был не прав - похоже ручками делалось (о ужас!).
Для текстовых 2-колоночных pdf правильнее всего использовать ФР
Перераспознавать, что ли?!
Или вообще -- распечатать, потом отсканить, а там уж как всегда?
Solid PDF converter заявляет, что может. Не проверял.
Последние комментарии
20 минут 41 секунда назад
22 минуты 26 секунд назад
46 минут 27 секунд назад
52 минуты 33 секунды назад
1 час 15 минут назад
2 часа 5 минут назад
2 часа 17 минут назад
2 часа 48 минут назад
2 часа 53 минуты назад
3 часа 57 секунд назад