Very long lines
Оказывается, команда file может сказать о файле и такое:
HTML document, UTF-8 Unicode text, with very long lines
Столкнулся с этим, когда на дампе обычной html-страницы наличные текстовые редакторы (diakonos, Emacs) стали тормозить, а попытка поиска по регулярным выражениям загоняла их в полный ступор, после чего оставалось лишь прибить процесс. Простейший скрипт на bash показал, что некоторые строки в файле имеют длину более пяти тысяч символов (йандекс рулит!).
Осталось выяснить на досуге, является ли это фундаментальным ограничением, или найдется ПО, способное такое переварить. В крайнем случае можно и порезать, но это не путь джедая))
HTML document, UTF-8 Unicode text, with very long lines
Столкнулся с этим, когда на дампе обычной html-страницы наличные текстовые редакторы (diakonos, Emacs) стали тормозить, а попытка поиска по регулярным выражениям загоняла их в полный ступор, после чего оставалось лишь прибить процесс. Простейший скрипт на bash показал, что некоторые строки в файле имеют длину более пяти тысяч символов (йандекс рулит!).
Осталось выяснить на досуге, является ли это фундаментальным ограничением, или найдется ПО, способное такое переварить. В крайнем случае можно и порезать, но это не путь джедая))
Отправить комментарий