code: tools/mkunicode/src/utf.h annotate

annotate tools/mkunicode/src/utf.h @ 395:b78d6d8f2872

Unicode: remove class, use namespace

author	David Demelier <markand@malikania.fr>
date	Mon, 28 Sep 2015 15:55:46 +0200
parents	7fe8d4094983
children

rev	line source
352 7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	1 /*
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	2 * The authors of this software are Rob Pike and Ken Thompson.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	3 * Copyright (c) 1998-2002 by Lucent Technologies.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	4 * Portions Copyright (c) 2009 The Go Authors. All rights reserved.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	5 * Permission to use, copy, modify, and distribute this software for any
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	6 * purpose without fee is hereby granted, provided that this entire notice
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	7 * is included in all copies of any software which is or includes a copy
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	8 * or modification of this software and in all copies of the supporting
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	9 * documentation for such software.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	10 * THIS SOFTWARE IS BEING PROVIDED "AS IS", WITHOUT ANY EXPRESS OR IMPLIED
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	11 * WARRANTY. IN PARTICULAR, NEITHER THE AUTHORS NOR LUCENT TECHNOLOGIES MAKE ANY
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	12 * REPRESENTATION OR WARRANTY OF ANY KIND CONCERNING THE MERCHANTABILITY
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	13 * OF THIS SOFTWARE OR ITS FITNESS FOR ANY PARTICULAR PURPOSE.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	14 */
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	15
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	16 #ifndef _UTFH_
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	17 #define _UTFH_ 1
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	18
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	19 typedef unsigned int Rune; /* Code-point values in Unicode 4.0 are 21 bits wide.*/
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	20
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	21 enum
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	22 {
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	23 UTFmax = 4, /* maximum bytes per rune */
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	24 Runesync = 0x80, /* cannot represent part of a UTF sequence (<) */
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	25 Runeself = 0x80, /* rune and UTF sequences are the same (<) */
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	26 Runeerror = 0xFFFD, /* decoding error in UTF */
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	27 Runemax = 0x10FFFF, /* maximum rune value */
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	28 };
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	29
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	30 #ifdef __cplusplus
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	31 extern "C" {
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	32 #endif
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	33
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	34 /*
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	35 * rune routines
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	36 */
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	37
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	38 /*
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	39 * These routines were written by Rob Pike and Ken Thompson
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	40 * and first appeared in Plan 9.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	41 * SEE ALSO
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	42 * utf (7)
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	43 * tcs (1)
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	44 */
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	45
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	46 // runetochar copies (encodes) one rune, pointed to by r, to at most
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	47 // UTFmax bytes starting at s and returns the number of bytes generated.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	48
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	49 int runetochar(char* s, const Rune* r);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	50
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	51
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	52 // chartorune copies (decodes) at most UTFmax bytes starting at s to
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	53 // one rune, pointed to by r, and returns the number of bytes consumed.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	54 // If the input is not exactly in UTF format, chartorune will set *r
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	55 // to Runeerror and return 1.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	56 //
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	57 // Note: There is no special case for a "null-terminated" string. A
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	58 // string whose first byte has the value 0 is the UTF8 encoding of the
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	59 // Unicode value 0 (i.e., ASCII NULL). A byte value of 0 is illegal
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	60 // anywhere else in a UTF sequence.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	61
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	62 int chartorune(Rune* r, const char* s);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	63
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	64
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	65 // charntorune is like chartorune, except that it will access at most
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	66 // n bytes of s. If the UTF sequence is incomplete within n bytes,
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	67 // charntorune will set *r to Runeerror and return 0. If it is complete
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	68 // but not in UTF format, it will set *r to Runeerror and return 1.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	69 //
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	70 // Added 2004-09-24 by Wei-Hwa Huang
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	71
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	72 int charntorune(Rune* r, const char* s, int n);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	73
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	74 // isvalidcharntorune(str, n, r, consumed)
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	75 // is a convenience function that calls "*consumed = charntorune(r, str, n)"
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	76 // and returns an int (logically boolean) indicating whether the first
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	77 // n bytes of str was a valid and complete UTF sequence.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	78
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	79 int isvalidcharntorune(const char* str, int n, Rune* r, int* consumed);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	80
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	81 // runelen returns the number of bytes required to convert r into UTF.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	82
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	83 int runelen(Rune r);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	84
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	85
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	86 // runenlen returns the number of bytes required to convert the n
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	87 // runes pointed to by r into UTF.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	88
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	89 int runenlen(const Rune* r, int n);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	90
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	91
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	92 // fullrune returns 1 if the string s of length n is long enough to be
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	93 // decoded by chartorune, and 0 otherwise. This does not guarantee
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	94 // that the string contains a legal UTF encoding. This routine is used
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	95 // by programs that obtain input one byte at a time and need to know
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	96 // when a full rune has arrived.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	97
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	98 int fullrune(const char* s, int n);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	99
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	100 // The following routines are analogous to the corresponding string
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	101 // routines with "utf" substituted for "str", and "rune" substituted
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	102 // for "chr".
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	103
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	104 // utflen returns the number of runes that are represented by the UTF
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	105 // string s. (cf. strlen)
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	106
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	107 int utflen(const char* s);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	108
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	109
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	110 // utfnlen returns the number of complete runes that are represented
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	111 // by the first n bytes of the UTF string s. If the last few bytes of
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	112 // the string contain an incompletely coded rune, utfnlen will not
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	113 // count them; in this way, it differs from utflen, which includes
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	114 // every byte of the string. (cf. strnlen)
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	115
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	116 int utfnlen(const char* s, long n);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	117
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	118
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	119 // utfrune returns a pointer to the first occurrence of rune r in the
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	120 // UTF string s, or 0 if r does not occur in the string. The NULL
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	121 // byte terminating a string is considered to be part of the string s.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	122 // (cf. strchr)
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	123
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	124 /const/ char* utfrune(const char* s, Rune r);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	125
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	126
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	127 // utfrrune returns a pointer to the last occurrence of rune r in the
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	128 // UTF string s, or 0 if r does not occur in the string. The NULL
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	129 // byte terminating a string is considered to be part of the string s.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	130 // (cf. strrchr)
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	131
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	132 /const/ char* utfrrune(const char* s, Rune r);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	133
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	134
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	135 // utfutf returns a pointer to the first occurrence of the UTF string
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	136 // s2 as a UTF substring of s1, or 0 if there is none. If s2 is the
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	137 // null string, utfutf returns s1. (cf. strstr)
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	138
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	139 const char* utfutf(const char* s1, const char* s2);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	140
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	141
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	142 // utfecpy copies UTF sequences until a null sequence has been copied,
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	143 // but writes no sequences beyond es1. If any sequences are copied,
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	144 // s1 is terminated by a null sequence, and a pointer to that sequence
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	145 // is returned. Otherwise, the original s1 is returned. (cf. strecpy)
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	146
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	147 char* utfecpy(char s1, char es1, const char *s2);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	148
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	149
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	150
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	151 // These functions are rune-string analogues of the corresponding
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	152 // functions in strcat (3).
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	153 //
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	154 // These routines first appeared in Plan 9.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	155 // SEE ALSO
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	156 // memmove (3)
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	157 // rune (3)
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	158 // strcat (2)
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	159 //
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	160 // BUGS: The outcome of overlapping moves varies among implementations.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	161
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	162 Rune* runestrcat(Rune* s1, const Rune* s2);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	163 Rune* runestrncat(Rune* s1, const Rune* s2, long n);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	164
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	165 const Rune* runestrchr(const Rune* s, Rune c);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	166
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	167 int runestrcmp(const Rune* s1, const Rune* s2);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	168 int runestrncmp(const Rune* s1, const Rune* s2, long n);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	169
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	170 Rune* runestrcpy(Rune* s1, const Rune* s2);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	171 Rune* runestrncpy(Rune* s1, const Rune* s2, long n);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	172 Rune* runestrecpy(Rune* s1, Rune* es1, const Rune* s2);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	173
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	174 Rune* runestrdup(const Rune* s);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	175
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	176 const Rune* runestrrchr(const Rune* s, Rune c);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	177 long runestrlen(const Rune* s);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	178 const Rune* runestrstr(const Rune* s1, const Rune* s2);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	179
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	180
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	181
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	182 // The following routines test types and modify cases for Unicode
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	183 // characters. Unicode defines some characters as letters and
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	184 // specifies three cases: upper, lower, and title. Mappings among the
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	185 // cases are also defined, although they are not exhaustive: some
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	186 // upper case letters have no lower case mapping, and so on. Unicode
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	187 // also defines several character properties, a subset of which are
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	188 // checked by these routines. These routines are based on Unicode
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	189 // version 3.0.0.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	190 //
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	191 // NOTE: The routines are implemented in C, so the boolean functions
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	192 // (e.g., isupperrune) return 0 for false and 1 for true.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	193 //
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	194 //
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	195 // toupperrune, tolowerrune, and totitlerune are the Unicode case
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	196 // mappings. These routines return the character unchanged if it has
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	197 // no defined mapping.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	198
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	199 Rune toupperrune(Rune r);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	200 Rune tolowerrune(Rune r);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	201 Rune totitlerune(Rune r);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	202
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	203
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	204 // isupperrune tests for upper case characters, including Unicode
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	205 // upper case letters and targets of the toupper mapping. islowerrune
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	206 // and istitlerune are defined analogously.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	207
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	208 int isupperrune(Rune r);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	209 int islowerrune(Rune r);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	210 int istitlerune(Rune r);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	211
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	212
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	213 // isalpharune tests for Unicode letters; this includes ideographs in
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	214 // addition to alphabetic characters.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	215
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	216 int isalpharune(Rune r);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	217
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	218
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	219 // isdigitrune tests for digits. Non-digit numbers, such as Roman
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	220 // numerals, are not included.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	221
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	222 int isdigitrune(Rune r);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	223
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	224
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	225 // isspacerune tests for whitespace characters, including "C" locale
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	226 // whitespace, Unicode defined whitespace, and the "zero-width
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	227 // non-break space" character.
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	228
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	229 int isspacerune(Rune r);
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	230
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	231
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	232 // (The comments in this file were copied from the manpage files rune.3,
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	233 // isalpharune.3, and runestrcat.3. Some formatting changes were also made
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	234 // to conform to Google style. /JRM 11/11/05)
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	235
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	236 #ifdef __cplusplus
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	237 }
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	238 #endif
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	239
7fe8d4094983 Utf8: David Demelier <markand@malikania.fr> parents: diff changeset	240 #endif

Mercurial > code

annotate tools/mkunicode/src/utf.h @ 395:b78d6d8f2872