четверг, 1 января 2015 г.

Very long lines

Оказывается, команда file может сказать о файле и такое:
HTML document, UTF-8 Unicode text, with very long lines
Столкнулся с этим, когда на дампе обычной html-страницы наличные текстовые редакторы (diakonos, Emacs) стали тормозить, а попытка поиска по регулярным выражениям загоняла их в полный ступор, после чего оставалось лишь прибить процесс. Простейший скрипт на bash показал, что некоторые строки в файле имеют длину более пяти тысяч символов (йандекс рулит!).

Осталось выяснить на досуге, является ли это фундаментальным ограничением, или найдется ПО, способное такое переварить. В крайнем случае можно и порезать, но это не путь джедая))

0 коммент. :

Отправить комментарий

Следующее Предыдущее Главная страница

Blogger Template by Blogcrowds