Use TextDecoder to decode UTF-8 and UTF-16 strings. #4402.
This commit is contained in:
Родитель
3c8533350b
Коммит
6b43fcc38d
|
@ -515,39 +515,49 @@ function stringToAscii(str, outPtr) {
|
|||
// Given a pointer 'ptr' to a null-terminated UTF8-encoded string in the given array that contains uint8 values, returns
|
||||
// a copy of that string as a Javascript String object.
|
||||
|
||||
var utf8_decoder = new TextDecoder('utf8');
|
||||
function UTF8ArrayToString(u8Array, idx) {
|
||||
var u0, u1, u2, u3, u4, u5;
|
||||
var endPtr = idx;
|
||||
// TextDecoder needs to know the byte length in advance, it doesn't stop on null terminator by itself.
|
||||
// Also, use the length info to avoid running tiny strings through TextDecoder, since .subarray() allocates garbage.
|
||||
while(u8Array[endPtr]) ++endPtr;
|
||||
|
||||
var str = '';
|
||||
while (1) {
|
||||
// For UTF8 byte structure, see http://en.wikipedia.org/wiki/UTF-8#Description and https://www.ietf.org/rfc/rfc2279.txt and https://tools.ietf.org/html/rfc3629
|
||||
u0 = u8Array[idx++];
|
||||
if (!u0) return str;
|
||||
if (!(u0 & 0x80)) { str += String.fromCharCode(u0); continue; }
|
||||
u1 = u8Array[idx++] & 63;
|
||||
if ((u0 & 0xE0) == 0xC0) { str += String.fromCharCode(((u0 & 31) << 6) | u1); continue; }
|
||||
u2 = u8Array[idx++] & 63;
|
||||
if ((u0 & 0xF0) == 0xE0) {
|
||||
u0 = ((u0 & 15) << 12) | (u1 << 6) | u2;
|
||||
} else {
|
||||
u3 = u8Array[idx++] & 63;
|
||||
if ((u0 & 0xF8) == 0xF0) {
|
||||
u0 = ((u0 & 7) << 18) | (u1 << 12) | (u2 << 6) | u3;
|
||||
if (endPtr - idx > 16 && u8Array.subarray) {
|
||||
return utf8_decoder.decode(u8Array.subarray(idx, endPtr));
|
||||
} else {
|
||||
var u0, u1, u2, u3, u4, u5;
|
||||
|
||||
var str = '';
|
||||
while (1) {
|
||||
// For UTF8 byte structure, see http://en.wikipedia.org/wiki/UTF-8#Description and https://www.ietf.org/rfc/rfc2279.txt and https://tools.ietf.org/html/rfc3629
|
||||
u0 = u8Array[idx++];
|
||||
if (!u0) return str;
|
||||
if (!(u0 & 0x80)) { str += String.fromCharCode(u0); continue; }
|
||||
u1 = u8Array[idx++] & 63;
|
||||
if ((u0 & 0xE0) == 0xC0) { str += String.fromCharCode(((u0 & 31) << 6) | u1); continue; }
|
||||
u2 = u8Array[idx++] & 63;
|
||||
if ((u0 & 0xF0) == 0xE0) {
|
||||
u0 = ((u0 & 15) << 12) | (u1 << 6) | u2;
|
||||
} else {
|
||||
u4 = u8Array[idx++] & 63;
|
||||
if ((u0 & 0xFC) == 0xF8) {
|
||||
u0 = ((u0 & 3) << 24) | (u1 << 18) | (u2 << 12) | (u3 << 6) | u4;
|
||||
u3 = u8Array[idx++] & 63;
|
||||
if ((u0 & 0xF8) == 0xF0) {
|
||||
u0 = ((u0 & 7) << 18) | (u1 << 12) | (u2 << 6) | u3;
|
||||
} else {
|
||||
u5 = u8Array[idx++] & 63;
|
||||
u0 = ((u0 & 1) << 30) | (u1 << 24) | (u2 << 18) | (u3 << 12) | (u4 << 6) | u5;
|
||||
u4 = u8Array[idx++] & 63;
|
||||
if ((u0 & 0xFC) == 0xF8) {
|
||||
u0 = ((u0 & 3) << 24) | (u1 << 18) | (u2 << 12) | (u3 << 6) | u4;
|
||||
} else {
|
||||
u5 = u8Array[idx++] & 63;
|
||||
u0 = ((u0 & 1) << 30) | (u1 << 24) | (u2 << 18) | (u3 << 12) | (u4 << 6) | u5;
|
||||
}
|
||||
}
|
||||
}
|
||||
}
|
||||
if (u0 < 0x10000) {
|
||||
str += String.fromCharCode(u0);
|
||||
} else {
|
||||
var ch = u0 - 0x10000;
|
||||
str += String.fromCharCode(0xD800 | (ch >> 10), 0xDC00 | (ch & 0x3FF));
|
||||
if (u0 < 0x10000) {
|
||||
str += String.fromCharCode(u0);
|
||||
} else {
|
||||
var ch = u0 - 0x10000;
|
||||
str += String.fromCharCode(0xD800 | (ch >> 10), 0xDC00 | (ch & 0x3FF));
|
||||
}
|
||||
}
|
||||
}
|
||||
}
|
||||
|
@ -669,17 +679,27 @@ function lengthBytesUTF8(str) {
|
|||
// Given a pointer 'ptr' to a null-terminated UTF16LE-encoded string in the emscripten HEAP, returns
|
||||
// a copy of that string as a Javascript String object.
|
||||
|
||||
var utf16_decoder = new TextDecoder('utf-16le');
|
||||
function UTF16ToString(ptr) {
|
||||
var i = 0;
|
||||
var endPtr = ptr;
|
||||
// TextDecoder needs to know the byte length in advance, it doesn't stop on null terminator by itself.
|
||||
// Also, use the length info to avoid running tiny strings through TextDecoder, since .subarray() allocates garbage.
|
||||
while({{{ makeGetValue('endPtr', 0, 'i16') }}}) endPtr += 2;
|
||||
|
||||
var str = '';
|
||||
while (1) {
|
||||
var codeUnit = {{{ makeGetValue('ptr', 'i*2', 'i16') }}};
|
||||
if (codeUnit == 0)
|
||||
return str;
|
||||
++i;
|
||||
// fromCharCode constructs a character from a UTF-16 code unit, so we can pass the UTF16 string right through.
|
||||
str += String.fromCharCode(codeUnit);
|
||||
if (endPtr - ptr > 32) {
|
||||
return utf16_decoder.decode(HEAPU8.subarray(ptr, endPtr));
|
||||
} else {
|
||||
var i = 0;
|
||||
|
||||
var str = '';
|
||||
while (1) {
|
||||
var codeUnit = {{{ makeGetValue('ptr', 'i*2', 'i16') }}};
|
||||
if (codeUnit == 0)
|
||||
return str;
|
||||
++i;
|
||||
// fromCharCode constructs a character from a UTF-16 code unit, so we can pass the UTF16 string right through.
|
||||
str += String.fromCharCode(codeUnit);
|
||||
}
|
||||
}
|
||||
}
|
||||
{{{ maybeExport('UTF16ToString') }}}
|
||||
|
|
|
@ -0,0 +1,35 @@
|
|||
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Sed posuere interdum sem. Quisque ligula eros ullamcorper quis, lacinia quis facilisis sed sapien. Mauris varius diam vitae arcu. Sed arcu lectus auctor vitae, consectetuer et venenatis eget velit. Sed augue orci, lacinia eu tincidunt et eleifend nec lacus. Donec ultricies nisl ut felis, suspendisse potenti. Lorem ipsum ligula ut hendrerit mollis, ipsum erat vehicula risus, eu suscipit sem libero nec erat. Aliquam erat volutpat. Sed congue augue vitae neque. Nulla consectetuer porttitor pede. Fusce purus morbi tortor magna condimentum vel, placerat id blandit sit amet tortor.
|
||||
|
||||
Mauris sed libero. Suspendisse facilisis nulla in lacinia laoreet, lorem velit accumsan velit vel mattis libero nisl et sem. Proin interdum maecenas massa turpis sagittis in, interdum non lobortis vitae massa. Quisque purus lectus, posuere eget imperdiet nec sodales id arcu. Vestibulum elit pede dictum eu, viverra non tincidunt eu ligula.
|
||||
|
||||
Nam molestie nec tortor. Donec placerat leo sit amet velit. Vestibulum id justo ut vitae massa. Proin in dolor mauris consequat aliquam. Donec ipsum, vestibulum ullamcorper venenatis augue. Aliquam tempus nisi in auctor vulputate, erat felis pellentesque augue nec, pellentesque lectus justo nec erat. Aliquam et nisl. Quisque sit amet dolor in justo pretium condimentum.
|
||||
|
||||
Vivamus placerat lacus vel vehicula scelerisque, dui enim adipiscing lacus sit amet sagittis, libero enim vitae mi. In neque magna posuere, euismod ac tincidunt tempor est. Ut suscipit nisi eu purus. Proin ut pede mauris eget ipsum. Integer vel quam nunc commodo consequat. Integer ac eros eu tellus dignissim viverra. Maecenas erat aliquam erat volutpat. Ut venenatis ipsum quis turpis. Integer cursus scelerisque lorem. Sed nec mauris id quam blandit consequat. Cras nibh mi hendrerit vitae, dapibus et aliquam et magna. Nulla vitae elit. Mauris consectetuer odio vitae augue.
|
||||
|
||||
Cras lobortis sem ultrices leo. Donec magna fusce ac ante. Nullam est nisi blandit eget, suscipit vitae posuere quis ante. Quisque vitae tortor tellus feugiat adipiscing. Morbi ac elit et diam bibendum bibendum. Suspendisse id diam, donec adipiscing vulputate metus. Cras pellentesque vestibulum sem. Maecenas ut elit quis nisl vestibulum bibendum. Aenean eu erat quis turpis consequat vehicula. Morbi lacus velit, tristique ut iaculis volutpat in velit. Duis nec mauris et velit mollis aliquam, nullam posuere. Mauris at turpis sit amet dui imperdiet lobortis, proin eu felis.
|
||||
|
||||
Donec nec dui, in viverra tristique sapien. Suspendisse tincidunt consequat ante. Vestibulum ante ipsum primis in faucibus orci luctus et ultrices posuere cubilia Curae; Ut lacinia luctus nunc. Etiam molestie hendrerit risus. Curabitur venenatis risus varius odio. Quisque elit ante, lacinia eget mollis sed, fermentum nec nisl. Nullam volutpat odio dolor tempor posuere. Suspendisse et elit vel sem interdum consequat. Aenean pulvinar nisl vel neque. Morbi mi ac neque ullamcorper dignissim. Nulla suscipit ipsum. Duis adipiscing turpis vitae turpis. In quis nisl ut tincidunt felis sit amet ipsum. Fusce facilisis nam tortor orci, facilisis sit amet accumsan vel, aliquam nec odio. Fusce accumsan libero et nisi. Lorem ipsum pede id faucibus aliquet, diam velit commodo elit, quis ultricies justo metus sit amet metus. Suspendisse interdum nulla sit amet enim. Etiam ultrices fusce nibh. Maecenas sed dolor vitae nisi volutpat commodo. Nulla interdum egestas lectus. Maecenas imperdiet arcu et orci.
|
||||
|
||||
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Sed posuere interdum sem. Quisque ligula eros ullamcorper quis, lacinia quis facilisis sed sapien. Mauris varius diam vitae arcu. Sed arcu lectus auctor vitae, consectetuer et venenatis eget velit. Sed augue orci, lacinia eu tincidunt et eleifend nec lacus. Donec ultricies nisl ut felis, suspendisse potenti. Lorem ipsum ligula ut hendrerit mollis, ipsum erat vehicula risus, eu suscipit sem libero nec erat. Aliquam erat volutpat. Sed congue augue vitae neque. Nulla consectetuer porttitor pede. Fusce purus morbi tortor magna condimentum vel, placerat id blandit sit amet tortor.
|
||||
|
||||
Mauris sed libero. Suspendisse facilisis nulla in lacinia laoreet, lorem velit accumsan velit vel mattis libero nisl et sem. Proin interdum maecenas massa turpis sagittis in, interdum non lobortis vitae massa. Quisque purus lectus, posuere eget imperdiet nec sodales id arcu. Vestibulum elit pede dictum eu, viverra non tincidunt eu ligula.
|
||||
|
||||
Nam molestie nec tortor. Donec placerat leo sit amet velit. Vestibulum id justo ut vitae massa. Proin in dolor mauris consequat aliquam. Donec ipsum, vestibulum ullamcorper venenatis augue. Aliquam tempus nisi in auctor vulputate, erat felis pellentesque augue nec, pellentesque lectus justo nec erat. Aliquam et nisl. Quisque sit amet dolor in justo pretium condimentum.
|
||||
|
||||
Vivamus placerat lacus vel vehicula scelerisque, dui enim adipiscing lacus sit amet sagittis, libero enim vitae mi. In neque magna posuere, euismod ac tincidunt tempor est. Ut suscipit nisi eu purus. Proin ut pede mauris eget ipsum. Integer vel quam nunc commodo consequat. Integer ac eros eu tellus dignissim viverra. Maecenas erat aliquam erat volutpat. Ut venenatis ipsum quis turpis. Integer cursus scelerisque lorem. Sed nec mauris id quam blandit consequat. Cras nibh mi hendrerit vitae, dapibus et aliquam et magna. Nulla vitae elit. Mauris consectetuer odio vitae augue.
|
||||
|
||||
Cras lobortis sem ultrices leo. Donec magna fusce ac ante. Nullam est nisi blandit eget, suscipit vitae posuere quis ante. Quisque vitae tortor tellus feugiat adipiscing. Morbi ac elit et diam bibendum bibendum. Suspendisse id diam, donec adipiscing vulputate metus. Cras pellentesque vestibulum sem. Maecenas ut elit quis nisl vestibulum bibendum. Aenean eu erat quis turpis consequat vehicula. Morbi lacus velit, tristique ut iaculis volutpat in velit. Duis nec mauris et velit mollis aliquam, nullam posuere. Mauris at turpis sit amet dui imperdiet lobortis, proin eu felis.
|
||||
|
||||
Donec nec dui, in viverra tristique sapien. Suspendisse tincidunt consequat ante. Vestibulum ante ipsum primis in faucibus orci luctus et ultrices posuere cubilia Curae; Ut lacinia luctus nunc. Etiam molestie hendrerit risus. Curabitur venenatis risus varius odio. Quisque elit ante, lacinia eget mollis sed, fermentum nec nisl. Nullam volutpat odio dolor tempor posuere. Suspendisse et elit vel sem interdum consequat. Aenean pulvinar nisl vel neque. Morbi mi ac neque ullamcorper dignissim. Nulla suscipit ipsum. Duis adipiscing turpis vitae turpis. In quis nisl ut tincidunt felis sit amet ipsum. Fusce facilisis nam tortor orci, facilisis sit amet accumsan vel, aliquam nec odio. Fusce accumsan libero et nisi. Lorem ipsum pede id faucibus aliquet, diam velit commodo elit, quis ultricies justo metus sit amet metus. Suspendisse interdum nulla sit amet enim. Etiam ultrices fusce nibh. Maecenas sed dolor vitae nisi volutpat commodo. Nulla interdum egestas lectus. Maecenas imperdiet arcu et orci.
|
||||
|
||||
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Sed posuere interdum sem. Quisque ligula eros ullamcorper quis, lacinia quis facilisis sed sapien. Mauris varius diam vitae arcu. Sed arcu lectus auctor vitae, consectetuer et venenatis eget velit. Sed augue orci, lacinia eu tincidunt et eleifend nec lacus. Donec ultricies nisl ut felis, suspendisse potenti. Lorem ipsum ligula ut hendrerit mollis, ipsum erat vehicula risus, eu suscipit sem libero nec erat. Aliquam erat volutpat. Sed congue augue vitae neque. Nulla consectetuer porttitor pede. Fusce purus morbi tortor magna condimentum vel, placerat id blandit sit amet tortor.
|
||||
|
||||
Mauris sed libero. Suspendisse facilisis nulla in lacinia laoreet, lorem velit accumsan velit vel mattis libero nisl et sem. Proin interdum maecenas massa turpis sagittis in, interdum non lobortis vitae massa. Quisque purus lectus, posuere eget imperdiet nec sodales id arcu. Vestibulum elit pede dictum eu, viverra non tincidunt eu ligula.
|
||||
|
||||
Nam molestie nec tortor. Donec placerat leo sit amet velit. Vestibulum id justo ut vitae massa. Proin in dolor mauris consequat aliquam. Donec ipsum, vestibulum ullamcorper venenatis augue. Aliquam tempus nisi in auctor vulputate, erat felis pellentesque augue nec, pellentesque lectus justo nec erat. Aliquam et nisl. Quisque sit amet dolor in justo pretium condimentum.
|
||||
|
||||
Vivamus placerat lacus vel vehicula scelerisque, dui enim adipiscing lacus sit amet sagittis, libero enim vitae mi. In neque magna posuere, euismod ac tincidunt tempor est. Ut suscipit nisi eu purus. Proin ut pede mauris eget ipsum. Integer vel quam nunc commodo consequat. Integer ac eros eu tellus dignissim viverra. Maecenas erat aliquam erat volutpat. Ut venenatis ipsum quis turpis. Integer cursus scelerisque lorem. Sed nec mauris id quam blandit consequat. Cras nibh mi hendrerit vitae, dapibus et aliquam et magna. Nulla vitae elit. Mauris consectetuer odio vitae augue.
|
||||
|
||||
Cras lobortis sem ultrices leo. Donec magna fusce ac ante. Nullam est nisi blandit eget, suscipit vitae posuere quis ante. Quisque vitae tortor tellus feugiat adipiscing. Morbi ac elit et diam bibendum bibendum. Suspendisse id diam, donec adipiscing vulputate metus. Cras pellentesque vestibulum sem. Maecenas ut elit quis nisl vestibulum bibendum. Aenean eu erat quis turpis consequat vehicula. Morbi lacus velit, tristique ut iaculis volutpat in velit. Duis nec mauris et velit mollis aliquam, nullam posuere. Mauris at turpis sit amet dui imperdiet lobortis, proin eu felis.
|
||||
|
||||
Donec nec dui, in viverra tristique sapien. Suspendisse tincidunt consequat ante. Vestibulum ante ipsum primis in faucibus orci luctus et ultrices posuere cubilia Curae; Ut lacinia luctus nunc. Etiam molestie hendrerit risus. Curabitur venenatis risus varius odio. Quisque elit ante, lacinia eget mollis sed, fermentum nec nisl. Nullam volutpat odio dolor tempor posuere. Suspendisse et elit vel sem interdum consequat. Aenean pulvinar nisl vel neque. Morbi mi ac neque ullamcorper dignissim. Nulla suscipit ipsum. Duis adipiscing turpis vitae turpis. In quis nisl ut tincidunt felis sit amet ipsum. Fusce facilisis nam tortor orci, facilisis sit amet accumsan vel, aliquam nec odio. Fusce accumsan libero et nisi. Lorem ipsum pede id faucibus aliquet, diam velit commodo elit, quis ultricies justo metus sit amet metus. Suspendisse interdum nulla sit amet enim. Etiam ultrices fusce nibh. Maecenas sed dolor vitae nisi volutpat commodo. Nulla interdum egestas lectus. Maecenas imperdiet arcu et orci.
|
|
@ -0,0 +1,59 @@
|
|||
#include <stdio.h>
|
||||
#include <string.h>
|
||||
#include <wchar.h>
|
||||
#include <iostream>
|
||||
#include <cassert>
|
||||
#include <emscripten.h>
|
||||
|
||||
double test(const unsigned short *str) {
|
||||
double res = EM_ASM_DOUBLE({
|
||||
var t0 = performance.now();
|
||||
var str = Module.UTF16ToString($0);
|
||||
var t1 = performance.now();
|
||||
Module.print('t: ' + (t1 - t0) + ', len(result): ' + str.length + ', result: ' + str.slice(0, 100));
|
||||
return (t1-t0);
|
||||
}, str);
|
||||
return res;
|
||||
}
|
||||
|
||||
unsigned short *utf16_corpus = 0;
|
||||
long utf16_corpus_length = 0;
|
||||
|
||||
unsigned short *randomString(int len) {
|
||||
if (!utf16_corpus) {
|
||||
// FILE *handle = fopen("ascii_corpus.txt", "rb");
|
||||
FILE *handle = fopen("utf16_corpus.txt", "rb");
|
||||
fseek(handle, 0, SEEK_END);
|
||||
utf16_corpus_length = ftell(handle)/2;
|
||||
assert(utf16_corpus_length > 0);
|
||||
utf16_corpus = new unsigned short[utf16_corpus_length+1];
|
||||
fseek(handle, 0, SEEK_SET);
|
||||
fread(utf16_corpus, 2, utf16_corpus_length, handle);
|
||||
fclose(handle);
|
||||
utf16_corpus[utf16_corpus_length] = 0;
|
||||
}
|
||||
int startIdx = rand() % (utf16_corpus_length - len);
|
||||
while((utf16_corpus[startIdx] & 0xFF00) == 0xDC00) {
|
||||
++startIdx;
|
||||
if (startIdx + len > utf16_corpus_length) len = utf16_corpus_length - startIdx;
|
||||
}
|
||||
assert(len > 0);
|
||||
unsigned short *s = new unsigned short[len+1];
|
||||
memcpy(s, utf16_corpus + startIdx, len*2);
|
||||
s[len] = 0;
|
||||
while(((unsigned short)s[len-1] & 0xFF00) == 0xD800) { s[--len] = 0; }
|
||||
assert(len >= 0);
|
||||
return s;
|
||||
}
|
||||
|
||||
int main() {
|
||||
srand(time(NULL));
|
||||
double t = 0;
|
||||
for(int i = 0; i < 10; ++i) {
|
||||
// FF Nightly: Already on small strings of 64 bytes in length, TextDecoder trumps in performance.
|
||||
unsigned short *str = randomString(100);
|
||||
t += test(str);
|
||||
free(str);
|
||||
}
|
||||
printf("OK. Time: %f.\n", t);
|
||||
}
|
|
@ -0,0 +1,60 @@
|
|||
#include <stdio.h>
|
||||
#include <string.h>
|
||||
#include <wchar.h>
|
||||
#include <iostream>
|
||||
#include <cassert>
|
||||
#include <emscripten.h>
|
||||
|
||||
double test(const char *str) {
|
||||
double res = EM_ASM_DOUBLE({
|
||||
var t0 = performance.now();
|
||||
var str = Module.UTF8ToString($0);
|
||||
var t1 = performance.now();
|
||||
// Module.print('t: ' + (t1 - t0) + ', len(result): ' + str.length + ', result: ' + str.slice(0, 100));
|
||||
return (t1-t0);
|
||||
}, str);
|
||||
return res;
|
||||
}
|
||||
|
||||
char *utf8_corpus = 0;
|
||||
long utf8_corpus_length = 0;
|
||||
|
||||
char *randomString(int len) {
|
||||
if (!utf8_corpus) {
|
||||
// FILE *handle = fopen("ascii_corpus.txt", "rb");
|
||||
FILE *handle = fopen("utf8_corpus.txt", "rb");
|
||||
fseek(handle, 0, SEEK_END);
|
||||
utf8_corpus_length = ftell(handle);
|
||||
assert(utf8_corpus_length > 0);
|
||||
utf8_corpus = new char[utf8_corpus_length+1];
|
||||
fseek(handle, 0, SEEK_SET);
|
||||
fread(utf8_corpus, 1, utf8_corpus_length, handle);
|
||||
fclose(handle);
|
||||
utf8_corpus[utf8_corpus_length] = '\0';
|
||||
}
|
||||
int startIdx = rand() % (utf8_corpus_length - len);
|
||||
while(((unsigned char)utf8_corpus[startIdx] & 0xC0) == 0x80) {
|
||||
++startIdx;
|
||||
if (startIdx + len > utf8_corpus_length) len = utf8_corpus_length - startIdx;
|
||||
}
|
||||
assert(len > 0);
|
||||
char *s = new char[len+1];
|
||||
memcpy(s, utf8_corpus + startIdx, len);
|
||||
s[len] = '\0';
|
||||
while(((unsigned char)s[len-1] & 0xC0) == 0x80) { s[--len] = '\0'; }
|
||||
while(((unsigned char)s[len-1] & 0xC0) == 0xC0) { s[--len] = '\0'; }
|
||||
assert(len >= 0);
|
||||
return s;
|
||||
}
|
||||
|
||||
int main() {
|
||||
srand(time(NULL));
|
||||
double t = 0;
|
||||
for(int i = 0; i < 100000; ++i) {
|
||||
// FF Nightly: Already on small strings of 64 bytes in length, TextDecoder trumps in performance.
|
||||
char *str = randomString(8);
|
||||
t += test(str);
|
||||
free(str);
|
||||
}
|
||||
printf("OK. Time: %f.\n", t);
|
||||
}
|
Двоичный файл не отображается.
|
@ -0,0 +1,152 @@
|
|||
This is an excerpt from the page "UTF-8 Sampler" at http://www.columbia.edu/~fdc/utf8/index.html#notes, containing the sentence "I can eat glass and it doesn't hurt me" in several languages.
|
||||
|
||||
Sanskrit: काचं शक्नोम्यत्तुम् । नोपहिनस्ति माम् ॥
|
||||
Sanskrit (standard transcription): kācaṃ śaknomyattum; nopahinasti mām.
|
||||
Classical Greek: ὕαλον ϕαγεῖν δύναμαι· τοῦτο οὔ με βλάπτει.
|
||||
Greek (monotonic): Μπορώ να φάω σπασμένα γυαλιά χωρίς να πάθω τίποτα.
|
||||
Greek (polytonic): Μπορῶ νὰ φάω σπασμένα γυαλιὰ χωρὶς νὰ πάθω τίποτα.
|
||||
Latin: Vitrum edere possum; mihi non nocet.
|
||||
Old French: Je puis mangier del voirre. Ne me nuit.
|
||||
French: Je peux manger du verre, ça ne me fait pas mal.
|
||||
Provençal / Occitan: Pòdi manjar de veire, me nafrariá pas.
|
||||
Québécois: J'peux manger d'la vitre, ça m'fa pas mal.
|
||||
Walloon: Dji pou magnî do vêre, çoula m' freut nén må.
|
||||
Picard: Ch'peux mingi du verre, cha m'foé mie n'ma.
|
||||
Kreyòl Ayisyen (Haitï): Mwen kap manje vè, li pa blese'm.
|
||||
Basque: Kristala jan dezaket, ez dit minik ematen.
|
||||
Catalan / Català: Puc menjar vidre, que no em fa mal.
|
||||
Spanish: Puedo comer vidrio, no me hace daño.
|
||||
Aragonés: Puedo minchar beire, no me'n fa mal .
|
||||
Galician: Eu podo xantar cristais e non cortarme.
|
||||
European Portuguese: Posso comer vidro, não me faz mal.
|
||||
Brazilian Portuguese (8): Posso comer vidro, não me machuca.
|
||||
Caboverdiano/Kabuverdianu (Cape Verde): M' podê cumê vidru, ca ta maguâ-m'.
|
||||
Papiamentu: Ami por kome glas anto e no ta hasimi daño.
|
||||
Italian: Posso mangiare il vetro e non mi fa male.
|
||||
Milanese: Sôn bôn de magnà el véder, el me fa minga mal.
|
||||
Roman: Me posso magna' er vetro, e nun me fa male.
|
||||
Napoletano: M' pozz magna' o'vetr, e nun m' fa mal.
|
||||
Venetian: Mi posso magnare el vetro, no'l me fa mae.
|
||||
Zeneise (Genovese): Pòsso mangiâ o veddro e o no me fà mâ.
|
||||
Sicilian: Puotsu mangiari u vitru, nun mi fa mali.
|
||||
Romansch (Grischun): Jau sai mangiar vaider, senza che quai fa donn a mai.
|
||||
Romanian: Pot să mănânc sticlă și ea nu mă rănește.
|
||||
Esperanto: Mi povas manĝi vitron, ĝi ne damaĝas min.
|
||||
Cornish: Mý a yl dybry gwéder hag éf ny wra ow ankenya.
|
||||
Welsh: Dw i'n gallu bwyta gwydr, 'dyw e ddim yn gwneud dolur i mi.
|
||||
Manx Gaelic: Foddym gee glonney agh cha jean eh gortaghey mee.
|
||||
Old Irish (Ogham): ᚛᚛ᚉᚑᚅᚔᚉᚉᚔᚋ ᚔᚈᚔ ᚍᚂᚐᚅᚑ ᚅᚔᚋᚌᚓᚅᚐ᚜
|
||||
Old Irish (Latin): Con·iccim ithi nglano. Ním·géna.
|
||||
Irish: Is féidir liom gloinne a ithe. Ní dhéanann sí dochar ar bith dom.
|
||||
Ulster Gaelic: Ithim-sa gloine agus ní miste damh é.
|
||||
Scottish Gaelic: S urrainn dhomh gloinne ithe; cha ghoirtich i mi.
|
||||
Anglo-Saxon (Runes): ᛁᚳ᛫ᛗᚨᚷ᛫ᚷᛚᚨᛋ᛫ᛖᚩᛏᚪᚾ᛫ᚩᚾᛞ᛫ᚻᛁᛏ᛫ᚾᛖ᛫ᚻᛖᚪᚱᛗᛁᚪᚧ᛫ᛗᛖ᛬
|
||||
Anglo-Saxon (Latin): Ic mæg glæs eotan ond hit ne hearmiað me.
|
||||
Middle English: Ich canne glas eten and hit hirtiþ me nouȝt.
|
||||
English: I can eat glass and it doesn't hurt me.
|
||||
English (IPA): [aɪ kæn iːt glɑːs ænd ɪt dɐz nɒt hɜːt miː] (Received Pronunciation)
|
||||
English (Braille): ⠊⠀⠉⠁⠝⠀⠑⠁⠞⠀⠛⠇⠁⠎⠎⠀⠁⠝⠙⠀⠊⠞⠀⠙⠕⠑⠎⠝⠞⠀⠓⠥⠗⠞⠀⠍⠑
|
||||
Jamaican: Mi kian niam glas han i neba hot mi.
|
||||
Lalland Scots / Doric: Ah can eat gless, it disnae hurt us.
|
||||
Gothic (4): ЌЌЌ ЌЌЌЍ Ќ̈ЍЌЌ, ЌЌ ЌЌЍ ЍЌ ЌЌЌЌ ЌЍЌЌЌЌЌ.
|
||||
Old Norse (Runes): ᛖᚴ ᚷᛖᛏ ᛖᛏᛁ ᚧ ᚷᛚᛖᚱ ᛘᚾ ᚦᛖᛋᛋ ᚨᚧ ᚡᛖ ᚱᚧᚨ ᛋᚨᚱ
|
||||
Old Norse (Latin): Ek get etið gler án þess að verða sár.
|
||||
Norsk / Norwegian (Nynorsk): Eg kan eta glas utan å skada meg.
|
||||
Norsk / Norwegian (Bokmål): Jeg kan spise glass uten å skade meg.
|
||||
Føroyskt / Faroese: Eg kann eta glas, skaðaleysur.
|
||||
Íslenska / Icelandic: Ég get etið gler án þess að meiða mig.
|
||||
Svenska / Swedish: Jag kan äta glas utan att skada mig.
|
||||
Dansk / Danish: Jeg kan spise glas, det gør ikke ondt på mig.
|
||||
Sønderjysk: Æ ka æe glass uhen at det go mæ naue.
|
||||
Frysk / Frisian: Ik kin glês ite, it docht me net sear.
|
||||
Nederlands / Dutch: Ik kan glas eten, het doet mij geen kwaad.
|
||||
Kirchröadsj/Bôchesserplat: Iech ken glaas èèse, mer 't deet miech jing pieng.
|
||||
Afrikaans: Ek kan glas eet, maar dit doen my nie skade nie.
|
||||
Lëtzebuergescht / Luxemburgish: Ech kan Glas iessen, daat deet mir nët wei.
|
||||
Deutsch / German: Ich kann Glas essen, ohne mir zu schaden.
|
||||
Ruhrdeutsch: Ich kann Glas verkasematuckeln, ohne dattet mich wat jucken tut.
|
||||
Langenfelder Platt: Isch kann Jlaas kimmeln, uuhne datt mich datt weh dääd.
|
||||
Lausitzer Mundart ("Lusatian"): Ich koann Gloos assn und doas dudd merr ni wii.
|
||||
Odenwälderisch: Iech konn glaasch voschbachteln ohne dass es mir ebbs daun doun dud.
|
||||
Sächsisch / Saxon: 'sch kann Glos essn, ohne dass'sch mer wehtue.
|
||||
Pfälzisch: Isch konn Glass fresse ohne dasses mer ebbes ausmache dud.
|
||||
Schwäbisch / Swabian: I kå Glas frässa, ond des macht mr nix!
|
||||
Deutsch (Voralberg): I ka glas eassa, ohne dass mar weh tuat.
|
||||
Bayrisch / Bavarian: I koh Glos esa, und es duard ma ned wei.
|
||||
Allemannisch: I kaun Gloos essen, es tuat ma ned weh.
|
||||
Schwyzerdütsch (Zürich): Ich chan Glaas ässe, das schadt mir nöd.
|
||||
Schwyzerdütsch (Luzern): Ech cha Glâs ässe, das schadt mer ned.
|
||||
Hungarian: Meg tudom enni az üveget, nem lesz tőle bajom.
|
||||
Suomi / Finnish: Voin syödä lasia, se ei vahingoita minua.
|
||||
Sami (Northern): Sáhtán borrat lása, dat ii leat bávččas.
|
||||
Erzian: Мон ярсан суликадо, ды зыян эйстэнзэ а ули.
|
||||
Northern Karelian: Mie voin syvvä lasie ta minla ei ole kipie.
|
||||
Southern Karelian: Minä voin syvvä st'oklua dai minule ei ole kibie.
|
||||
Estonian: Ma võin klaasi süüa, see ei tee mulle midagi.
|
||||
Latvian: Es varu ēst stiklu, tas man nekaitē.
|
||||
Lithuanian: Aš galiu valgyti stiklą ir jis manęs nežeidžia
|
||||
Czech: Mohu jíst sklo, neublíží mi.
|
||||
Slovak: Môžem jesť sklo. Nezraní ma.
|
||||
Polska / Polish: Mogę jeść szkło i mi nie szkodzi.
|
||||
Slovenian: Lahko jem steklo, ne da bi mi škodovalo.
|
||||
Bosnian, Croatian, Montenegrin and Serbian (Latin): Ja mogu jesti staklo, i to mi ne šteti.
|
||||
Bosnian, Montenegrin and Serbian (Cyrillic): Ја могу јести стакло, и то ми не штети.
|
||||
Macedonian: Можам да јадам стакло, а не ме штета.
|
||||
Russian: Я могу есть стекло, оно мне не вредит.
|
||||
Belarusian (Cyrillic): Я магу есці шкло, яно мне не шкодзіць.
|
||||
Belarusian (Lacinka): Ja mahu jeści škło, jano mne ne škodzić.
|
||||
Ukrainian: Я можу їсти скло, і воно мені не зашкодить.
|
||||
Bulgarian: Мога да ям стъкло, то не ми вреди.
|
||||
Georgian: მინას ვჭამ და არა მტკივა.
|
||||
Armenian: Կրնամ ապակի ուտել և ինծի անհանգիստ չըներ։
|
||||
Albanian: Unë mund të ha qelq dhe nuk më gjen gjë.
|
||||
Turkish: Cam yiyebilirim, bana zararı dokunmaz.
|
||||
Turkish (Ottoman): جام ييه بلورم بڭا ضررى طوقونمز
|
||||
Bangla / Bengali: আমি কাঁচ খেতে পারি, তাতে আমার কোনো ক্ষতি হয় না।
|
||||
Marathi: मी काच खाऊ शकतो, मला ते दुखत नाही.
|
||||
Kannada: ನನಗೆ ಹಾನಿ ಆಗದೆ, ನಾನು ಗಜನ್ನು ತಿನಬಹುದು
|
||||
Hindi: मैं काँच खा सकता हूँ और मुझे उससे कोई चोट नहीं पहुंचती.
|
||||
Tamil: நான் கண்ணாடி சாப்பிடுவேன், அதனால் எனக்கு ஒரு கேடும் வராது.
|
||||
Telugu: నేను గాజు తినగలను మరియు అలా చేసినా నాకు ఏమి ఇబ్బంది లేదు
|
||||
Sinhalese: මට වීදුරු කෑමට හැකියි. එයින් මට කිසි හානියක් සිදු නොවේ.
|
||||
Urdu(3): میں کانچ کھا سکتا ہوں اور مجھے تکلیف نہیں ہوتی ۔
|
||||
Pashto(3): زه شيشه خوړلې شم، هغه ما نه خوږوي
|
||||
Farsi / Persian(3): .من می توانم بدونِ احساس درد شيشه بخورم
|
||||
Arabic(3): أنا قادر على أكل الزجاج و هذا لا يؤلمني.
|
||||
Maltese: Nista' niekol il-ħġieġ u ma jagħmilli xejn.
|
||||
Hebrew(3): אני יכול לאכול זכוכית וזה לא מזיק לי.
|
||||
Yiddish(3): איך קען עסן גלאָז און עס טוט מיר נישט װײ.
|
||||
Twi: Metumi awe tumpan, ɜnyɜ me hwee.
|
||||
Hausa (Latin): Inā iya taunar gilāshi kuma in gamā lāfiyā.
|
||||
Hausa (Ajami) (2): إِنا إِىَ تَونَر غِلَاشِ كُمَ إِن غَمَا لَافِىَا
|
||||
Yoruba(4): Mo lè je̩ dígí, kò ní pa mí lára.
|
||||
Lingala: Nakokí kolíya biténi bya milungi, ekosála ngáí mabé tɛ́.
|
||||
(Ki)Swahili: Naweza kula bilauri na sikunyui.
|
||||
Malay: Saya boleh makan kaca dan ia tidak mencederakan saya.
|
||||
Tagalog: Kaya kong kumain nang bubog at hindi ako masaktan.
|
||||
Chamorro: Siña yo' chumocho krestat, ti ha na'lalamen yo'.
|
||||
Fijian: Au rawa ni kana iloilo, ia au sega ni vakacacani kina.
|
||||
Javanese: Aku isa mangan beling tanpa lara.
|
||||
Burmese: က္ယ္ဝန္တော္၊က္ယ္ဝန္မ မ္ယက္စားနုိင္သည္။ ၎က္ရောင့္ ထိခုိက္မ္ဟု မရ္ဟိပာ။ (9)
|
||||
Vietnamese (quốc ngữ): Tôi có thể ăn thủy tinh mà không hại gì.
|
||||
Vietnamese (nôm) (4): 些 ࣎ 世 咹 水 晶 ও 空 ࣎ 害 咦
|
||||
Khmer: ខ្ញុំអាចញុំកញ្ចក់បាន ដោយគ្មានបញ្ហារ
|
||||
Lao: ຂອ້ຍກິນແກ້ວໄດ້ໂດຍທີ່ມັນບໍ່ໄດ້ເຮັດໃຫ້ຂອ້ຍເຈັບ.
|
||||
Thai: ฉันกินกระจกได้ แต่มันไม่ทำให้ฉันเจ็บ
|
||||
Mongolian (Cyrillic): Би шил идэй чадна, надад хортой биш
|
||||
Mongolian (Classic) (5): ᠪᠢ ᠰᠢᠯᠢ ᠢᠳᠡᠶᠦ ᠴᠢᠳᠠᠨᠠ ᠂ ᠨᠠᠳᠤᠷ ᠬᠣᠤᠷᠠᠳᠠᠢ ᠪᠢᠰᠢ
|
||||
Nepali: म काँच खान सक्छू र मलाई केहि नी हुन्न् ।
|
||||
Tibetan: ཤེལ་སྒོ་ཟ་ནས་ང་ན་གི་མ་རེད།
|
||||
Chinese: 我能吞下玻璃而不伤身体。
|
||||
Chinese (Traditional): 我能吞下玻璃而不傷身體。
|
||||
Taiwanese(6): Góa ē-tàng chia̍h po-lê, mā bē tio̍h-siong.
|
||||
Japanese: 私はガラスを食べられます。それは私を傷つけません。
|
||||
Korean: 나는 유리를 먹을 수 있어요. 그래도 아프지 않아요
|
||||
Bislama: Mi save kakae glas, hemi no save katem mi.
|
||||
Hawaiian: Hiki iaʻu ke ʻai i ke aniani; ʻaʻole nō lā au e ʻeha.
|
||||
Marquesan: E koʻana e kai i te karahi, mea ʻā, ʻaʻe hauhau.
|
||||
Inuktitut (10): ᐊᓕᒍᖅ ᓂᕆᔭᕌᖓᒃᑯ ᓱᕋᙱᑦᑐᓐᓇᖅᑐᖓ
|
||||
Chinook Jargon: Naika məkmək kakshət labutay, pi weyk ukuk munk-sik nay.
|
||||
Navajo: Tsésǫʼ yishą́ągo bííníshghah dóó doo shił neezgai da.
|
||||
Lojban: mi kakne le nu citka le blaci .iku'i le se go'i na xrani mi
|
||||
Nórdicg: Ljœr ye caudran créneþ ý jor cẃran.
|
Загрузка…
Ссылка в новой задаче