Регулярное выражение с QString

Old

Джедай : наставник для всех

Offline

Сообщений: 4350

Re: Регулярное выражение с QString

« Ответ #150 : Июля 29, 2013, 20:40 »

Цитата: Majestio от Июля 29, 2013, 20:30

Меняет способ.

Способ чего?
Можно устанавливать любые кодеки, это ничего не поменяет. Как был внутри unicode, так и остался.
А вот как произойдет конвертация в этот unicode из других кодировок и будет ли она правильная вопрос.


	Записан

Majestio

Гость

Re: Регулярное выражение с QString

« Ответ #151 : Июля 29, 2013, 20:47 »

Цитата: Old от Июля 29, 2013, 20:40

Ну как чего, способа доступа к n-му символу строки. Для строки в Unicode - символ берется по смещению = 2*порядковый_номер_символа. Для UTF-8 берется посредством последовательной предварительной индексации (см. вики). А это дополнительное время.


	Записан

Old

Джедай : наставник для всех

Offline

Сообщений: 4350

Re: Регулярное выражение с QString

« Ответ #152 : Июля 29, 2013, 20:56 »

Цитата: Majestio от Июля 29, 2013, 20:47

Давайте вы сейчас посмотрите все вики и перечитаете последние посты. Вы уже не туда куда то пошли. Подмигивающий


	Записан

Old

Джедай : наставник для всех

Offline

Сообщений: 4350

Re: Регулярное выражение с QString

« Ответ #153 : Июля 29, 2013, 21:18 »

Вам не кажется странным, что изменились количества слов:

Цитата: Majestio от Июля 29, 2013, 20:00

Old: 9578 15211
Majestio: 12047 15211

Вдогоночку ....

Изменил кодировку под win-1251 ...

Old: 8985 247
Majestio: 11593 247
Perl: 3312 15211

Ну вот кагбэ так Строит глазки


	Записан

Majestio

Гость

Re: Регулярное выражение с QString

« Ответ #154 : Июля 29, 2013, 21:35 »

Цитата: Old от Июля 29, 2013, 20:56

Речь зашла об этом:

Цитата: Old от Июля 29, 2013, 19:41

Перл быстр, потому что работает с UTF8, в отличие от нас.

А это ошибочное утверждение! У Перла есть средства для работы с UTF-8, и это совсем не родная его кодировка! Но и у Qt средства тоже есть. Вопрос в их реализациях. Перл не хранит текст в UTF-8, но и не хранит в Unicode. Про его механизм хорошим доступным языком написано тут. Так что, как реализовали - так и пользуем.

Цитата: Old от Июля 29, 2013, 21:18

Вам не кажется странным, что изменились количества слов:

Ничего странного ))) Перекодировочку забыл Строит глазки

... исправляю:

Код

C++ (Qt)
...
    QTextCodec *codec = QTextCodec::codecForName("CP-1251");
    QTextCodec::setCodecForLocale(codec);
 
    QFile in( "C:/Projects/wordstat/test.txt" );
    if( !in.open( QIODevice::ReadOnly | QIODevice::Text ) )
    {
        qWarning( "Test file not found." );
        return 1;
    }
 
    QTextStream inStream(&in);
    QString src = inStream.readAll();
...

Результаты:

Old: 8997 15211
Majestio: 11810 15211

Как видно, "от перемены мест слагаемых - легче не становится" )))


	Записан

Majestio

Гость

Re: Регулярное выражение с QString

« Ответ #155 : Июля 29, 2013, 21:41 »

А вот по поводу регэкспов немного расскажу (Гурам - не читать!!!) Строит глазки

Что такое регэкспы? Регэксп - по сути реализация детерминированного конечного автомата (ДКА) для обработки массива символов. Таким образом, использование его состоит из двух фаз:

1) Непосредственное построение самого ДКА по регулярному выражению
2) Применение ДКА для обработки ваших данных

Почему приведенный мною пример на Перле быстрее? Дело не в регэкспах, а в их реализации. В Перле весь код, за исключением функции eval походит предварительную компиляцию в байт-код, потом его интерпретацию. На этой фазе предварительной компиляции, строятся и ДКА. Если не ошибаюсь, в ранних версиях Перл'а этого не было, но была функция "обучения" learn, которая и строила ДКА для множественного применения. Сейчас не получается раскопать, а старый файлец hlp-формата 97 года моя вынь не желает читать, без проверки на валидность))) Да ланна, не суть.

Что мы видим в коде на Ц++?
В середине цикла объявляется переменная локальной видимости QRegExp rx( "[\\s\\.,:;\\-()]" ), которая в каждом такте цикла строит для себя ДКА. Уверен, если ее вынести выше за цикл со 100-ми повторениями - Ц++ код станет заметно быстрее, а по "справедливости" - равным коду на Перл.


	Записан

Old

Джедай : наставник для всех

Offline

Сообщений: 4350

Re: Регулярное выражение с QString

« Ответ #156 : Июля 29, 2013, 21:58 »

Цитата: Majestio от Июля 29, 2013, 21:35

Речь зашла об этом:

Речь зашла о том, что в Qt все строки хранятся в unicode и не зависимо от того, какие кодеки мы куда устанавливаем, в конце концов разбор идет именно юникода. Всегда.

Цитата: Majestio от Июля 29, 2013, 21:35

Как видно, "от перемены мест слагаемых - легче не становится" )))

Вы живете в чудесном мире, а у меня подобное шаманство никакого эффекта не вызывает.
Хоть локаль меняй, хоть в QTextStream кодек устанавливай. Грустно, но у меня Qt работает согласно документации.


	Записан

Majestio

Гость

Re: Регулярное выражение с QString

« Ответ #157 : Июля 29, 2013, 22:03 »

Цитата: Old от Июля 29, 2013, 21:58

Все возможно. От компиляции к компиляции цифры "пляшут". Тем не менее пример был не для этого. Я показывал соотнесение величин скоростей кода Ц++ и Перла на одной виртуальной машине в одинаковых условиях. Возможно с кодеками все именно так, как вы утверждаете. Тут спорить не хочу - значит это была случайность. Но и "внутренности" Перла ("работает с UTF") в этом плане не совсем очевидны. По описаниям - флаги, адаптация, распозавание ... Одна вода.


« Последнее редактирование: Июля 29, 2013, 22:05 от Majestio »	Записан

Old

Джедай : наставник для всех

Offline

Сообщений: 4350

Re: Регулярное выражение с QString

« Ответ #158 : Июля 30, 2013, 09:25 »

Цитата: Majestio от Июля 29, 2013, 21:41

Уверен, если ее вынести выше за цикл со 100-ми повторениями - Ц++ код станет заметно быстрее, а по "справедливости" - равным коду на Перл.

Уверены? Тогда вынесите и проверьте. К сожалению особо ничего не измениться, выигрыш будет меньше 1%.
Если посмотреть тесты производительности для разных библиотек регулярных выражений, то можно увидеть, что скорости у них очень отличаются, иногда на несколько порядков. А то, что в перле используется одна из самых быстрых (если не самая быстрая) библиотека - сомнений нет. Для перла это основная функция.


	Записан

Majestio

Гость

Re: Регулярное выражение с QString

« Ответ #159 : Июля 30, 2013, 10:55 »

Цитата: Old от Июля 30, 2013, 09:25

Уверены? Тогда вынесите и проверьте. К сожалению особо ничего не измениться, выигрыш будет меньше 1%.

В нашем случае - прирост еле заметен, гораздо меньше 1%, вы правы. Но и регэксп у нас совсем детский. Сейчас на вскидку не помню где мое добро - как-то писал на Перле конвертер слабо-структурированных текстов (нормативные акты законодательства). Приходилось делать регэкспы на страничку-две программного кода. Там это действительно было заметно.

Цитата: Old от Июля 30, 2013, 09:25

Если посмотреть тесты производительности для разных библиотек регулярных выражений, то можно увидеть, что скорости у них очень отличаются, иногда на несколько порядков. А то, что в перле используется одна из самых быстрых (если не самая быстрая) библиотека - сомнений нет. Для перла это основная функция.

На счет скорости - утверждать сложно, статистики нет. Но то, что Перл - "законодатель моды" в рег экспах (читаем, наиболее полная реализация функционала регэкспов), это - к гадалке не ходи.


	Записан

Spark

Гость

Re: Регулярное выражение с QString

« Ответ #160 : Июля 31, 2013, 17:41 »

Режим без сортировки (в порядке встречаемости) не получается. QHash все равно как то переворачивает текст. Для этого режима пришлось оформить старый код (первоначально мной предложенный). Режим необходим, но скорее для малых объемов, поэтому ничего страшного нет, но хотелось бы победить и эту проблему.
Может будут предложения, советы?


	Записан

Spark

Гость

Re: Регулярное выражение с QString

« Ответ #161 : Июля 31, 2013, 19:45 »

Пока такой код выстроил.
Вариант2:

Код

C++ (Qt)
    QHash<QString, int> frequencyHash;
    foreach (QString Item, itemList) ++frequencyHash[Item];
    itemList.removeDuplicates();
    int countItem(0);
         foreach (QString trimmedStr, itemList)
         {
             countItemFull = countItemFull + frequencyHash.value(trimmedStr);
             countItem = frequencyHash.value(trimmedStr);
             countItemString.setNum(countItem);
 
             trimmedStr = trimmedStr + "\t" + countItemString;
             frequencyList.prepend( trimmedStr );
         }

Все-ж таки пошустрее.
Посоревнуйтесь


« Последнее редактирование: Августа 01, 2013, 02:39 от Spark »	Записан

Spark

Гость

Re: Регулярное выражение с QString

« Ответ #162 : Августа 01, 2013, 02:42 »

Однако, Вариант2 на порядок медленней, чем основной. Вроде бы нет многократного перебора текста и нет дополнительных регеспов, но Qlist строится медленно.


	Записан

Igors

Джедай : наставник для всех

Offline

Сообщений: 11445

Re: Регулярное выражение с QString

« Ответ #163 : Августа 01, 2013, 09:35 »

Зачем Вы подсчитываете countItemFull если он известен и равен itemList.size() до removeDuplicates. Записать можно значительно короче

Код

C++ (Qt)
 
foreach (QString s, itemList)
  frequencyList.prepend(s + "\t" + QString::Number(frequencyHash[s]));

Это вывод слов в начальном (или обратном) порядке но без повторов. Какой в нем смысл - хз.

Цитата: Spark от Июля 31, 2013, 19:45

Посоревнуйтесь

Вам до тех соревнований еще очень далеко. Лучше подумайте как организовать 2 и более вариантов вместе (сейчас будет "страшнэ")

Ну и конечно, порция нравоучений

Нормально начинать с задачек типа таких

Цитировать

Написать ф-цию
int GetWordCount( const char * str );
которая возвращает число слов в строке str разделенных пробелами или табами.

Вот отсюда растут ноги. Вот это должен в первую очередь уметь программист. Однако наш колобок считает что он сможет проскочить и обойтись без всяких базовых умений. В результате он боится и всячески избегает написать свою ф-цию, класс, файл - зато охотно питается "плюшками" типа foreach, regexp и.т.п. Когда ему об этом мягко говорят - ну, в общем, видели


	Записан

Spark

Гость

Re: Регулярное выражение с QString

« Ответ #164 : Августа 01, 2013, 09:52 »

Я не собирался с вами соревноваться. Я хотел, что бы вы посоревновались. Вы ведь это любите

.

Я работаю над собой

. У меня возникла проблема я ее решаю. Второй вариант проверил. Не лучше первого оказался на поверку. Сейчас испытываю третий. И т.д. Есть еще способы узнать, что лучше? Есть! Посоревнуйтесь

.
Но в общем то конечный результат, каким должен быть, известен. Будем искать способ решения.


	Записан

Страниц: 1 ... 9 10 [11] 12 13 ... 18 Вверх

Печать

« предыдущая тема следующая тема »