Annotation of embedaddon/php/ext/standard/html.c, revision 1.1.1.1

1.1       misho       1: /*
                      2:    +----------------------------------------------------------------------+
                      3:    | PHP Version 5                                                        |
                      4:    +----------------------------------------------------------------------+
                      5:    | Copyright (c) 1997-2012 The PHP Group                                |
                      6:    +----------------------------------------------------------------------+
                      7:    | This source file is subject to version 3.01 of the PHP license,      |
                      8:    | that is bundled with this package in the file LICENSE, and is        |
                      9:    | available through the world-wide-web at the following url:           |
                     10:    | http://www.php.net/license/3_01.txt                                  |
                     11:    | If you did not receive a copy of the PHP license and are unable to   |
                     12:    | obtain it through the world-wide-web, please send a note to          |
                     13:    | license@php.net so we can mail you a copy immediately.               |
                     14:    +----------------------------------------------------------------------+
                     15:    | Authors: Rasmus Lerdorf <rasmus@php.net>                             |
                     16:    |          Jaakko Hyvätti <jaakko.hyvatti@iki.fi>                      |
                     17:    |          Wez Furlong <wez@thebrainroom.com>                          |
                     18:    +----------------------------------------------------------------------+
                     19: */
                     20: 
                     21: /* $Id: html.c 321634 2012-01-01 13:15:04Z felipe $ */
                     22: 
                     23: /*
                     24:  * HTML entity resources:
                     25:  *
                     26:  * http://msdn.microsoft.com/workshop/author/dhtml/reference/charsets/charset2.asp
                     27:  * http://msdn.microsoft.com/workshop/author/dhtml/reference/charsets/charset3.asp
                     28:  * http://www.unicode.org/Public/MAPPINGS/OBSOLETE/UNI2SGML.TXT
                     29:  *
                     30:  * http://www.w3.org/TR/2002/REC-xhtml1-20020801/dtds.html#h-A2
                     31:  * 
                     32:  */
                     33: 
                     34: #include "php.h"
                     35: #if PHP_WIN32
                     36: #include "config.w32.h"
                     37: #else
                     38: #include <php_config.h>
                     39: #endif
                     40: #include "html.h"
                     41: #include "php_string.h"
                     42: #include "SAPI.h"
                     43: #if HAVE_LOCALE_H
                     44: #include <locale.h>
                     45: #endif
                     46: #if HAVE_LANGINFO_H
                     47: #include <langinfo.h>
                     48: #endif
                     49: 
                     50: #if HAVE_MBSTRING
                     51: # include "ext/mbstring/mbstring.h"
                     52: ZEND_EXTERN_MODULE_GLOBALS(mbstring)
                     53: #endif
                     54: 
                     55: enum entity_charset { cs_terminator, cs_8859_1, cs_cp1252,
                     56:                                          cs_8859_15, cs_utf_8, cs_big5, cs_gb2312, 
                     57:                                          cs_big5hkscs, cs_sjis, cs_eucjp, cs_koi8r,
                     58:                                          cs_cp1251, cs_8859_5, cs_cp866, cs_macroman
                     59:                                        };
                     60: typedef const char *const entity_table_t;
                     61: 
                     62: /* codepage 1252 is a Windows extension to iso-8859-1. */
                     63: static entity_table_t ent_cp_1252[] = {
                     64:        "euro", NULL, "sbquo", "fnof", "bdquo", "hellip", "dagger",
                     65:        "Dagger", "circ", "permil", "Scaron", "lsaquo", "OElig",
                     66:        NULL, NULL, NULL, NULL, "lsquo", "rsquo", "ldquo", "rdquo",
                     67:        "bull", "ndash", "mdash", "tilde", "trade", "scaron", "rsaquo",
                     68:        "oelig", NULL, NULL, "Yuml" 
                     69: };
                     70: 
                     71: static entity_table_t ent_iso_8859_1[] = {
                     72:        "nbsp", "iexcl", "cent", "pound", "curren", "yen", "brvbar",
                     73:        "sect", "uml", "copy", "ordf", "laquo", "not", "shy", "reg",
                     74:        "macr", "deg", "plusmn", "sup2", "sup3", "acute", "micro",
                     75:        "para", "middot", "cedil", "sup1", "ordm", "raquo", "frac14",
                     76:        "frac12", "frac34", "iquest", "Agrave", "Aacute", "Acirc",
                     77:        "Atilde", "Auml", "Aring", "AElig", "Ccedil", "Egrave",
                     78:        "Eacute", "Ecirc", "Euml", "Igrave", "Iacute", "Icirc",
                     79:        "Iuml", "ETH", "Ntilde", "Ograve", "Oacute", "Ocirc", "Otilde",
                     80:        "Ouml", "times", "Oslash", "Ugrave", "Uacute", "Ucirc", "Uuml",
                     81:        "Yacute", "THORN", "szlig", "agrave", "aacute", "acirc",
                     82:        "atilde", "auml", "aring", "aelig", "ccedil", "egrave",
                     83:        "eacute", "ecirc", "euml", "igrave", "iacute", "icirc",
                     84:        "iuml", "eth", "ntilde", "ograve", "oacute", "ocirc", "otilde",
                     85:        "ouml", "divide", "oslash", "ugrave", "uacute", "ucirc",
                     86:        "uuml", "yacute", "thorn", "yuml"
                     87: };
                     88: 
                     89: static entity_table_t ent_iso_8859_15[] = {
                     90:        "nbsp", "iexcl", "cent", "pound", "euro", "yen", "Scaron",
                     91:        "sect", "scaron", "copy", "ordf", "laquo", "not", "shy", "reg",
                     92:        "macr", "deg", "plusmn", "sup2", "sup3", NULL, /* Zcaron */
                     93:        "micro", "para", "middot", NULL, /* zcaron */ "sup1", "ordm",
                     94:        "raquo", "OElig", "oelig", "Yuml", "iquest", "Agrave", "Aacute",
                     95:        "Acirc", "Atilde", "Auml", "Aring", "AElig", "Ccedil", "Egrave",
                     96:        "Eacute", "Ecirc", "Euml", "Igrave", "Iacute", "Icirc",
                     97:        "Iuml", "ETH", "Ntilde", "Ograve", "Oacute", "Ocirc", "Otilde",
                     98:        "Ouml", "times", "Oslash", "Ugrave", "Uacute", "Ucirc", "Uuml",
                     99:        "Yacute", "THORN", "szlig", "agrave", "aacute", "acirc",
                    100:        "atilde", "auml", "aring", "aelig", "ccedil", "egrave",
                    101:        "eacute", "ecirc", "euml", "igrave", "iacute", "icirc",
                    102:        "iuml", "eth", "ntilde", "ograve", "oacute", "ocirc", "otilde",
                    103:        "ouml", "divide", "oslash", "ugrave", "uacute", "ucirc",
                    104:        "uuml", "yacute", "thorn", "yuml"
                    105: };
                    106: 
                    107: static entity_table_t ent_uni_338_402[] = {
                    108:        /* 338 (0x0152) */
                    109:        "OElig", "oelig", NULL, NULL, NULL, NULL,
                    110:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    111:        /* 352 (0x0160) */
                    112:        "Scaron", "scaron", NULL, NULL, NULL, NULL, NULL, NULL,
                    113:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    114:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    115:        /* 376 (0x0178) */
                    116:        "Yuml", NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    117:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    118:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    119:        /* 400 (0x0190) */
                    120:        NULL, NULL, "fnof"
                    121: };
                    122: 
                    123: static entity_table_t ent_uni_spacing[] = {
                    124:        /* 710 */
                    125:        "circ",
                    126:        /* 711 - 730 */
                    127:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    128:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    129:        /* 731 - 732 */
                    130:        NULL, "tilde"
                    131: };
                    132: 
                    133: static entity_table_t ent_uni_greek[] = {
                    134:        /* 913 */
                    135:        "Alpha", "Beta", "Gamma", "Delta", "Epsilon", "Zeta", "Eta", "Theta",
                    136:        "Iota", "Kappa", "Lambda", "Mu", "Nu", "Xi", "Omicron", "Pi", "Rho",
                    137:        NULL, "Sigma", "Tau", "Upsilon", "Phi", "Chi", "Psi", "Omega",
                    138:        /* 938 - 944 are not mapped */
                    139:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    140:        "alpha", "beta", "gamma", "delta", "epsilon", "zeta", "eta", "theta",
                    141:        "iota", "kappa", "lambda", "mu", "nu", "xi", "omicron", "pi", "rho",
                    142:        "sigmaf", "sigma", "tau", "upsilon", "phi", "chi", "psi", "omega",
                    143:        /* 970 - 976 are not mapped */
                    144:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    145:        "thetasym", "upsih",
                    146:        NULL, NULL, NULL,
                    147:        "piv"
                    148: };
                    149: 
                    150: static entity_table_t ent_uni_punct[] = {
                    151:        /* 8194 */
                    152:        "ensp", "emsp", NULL, NULL, NULL, NULL, NULL,
                    153:        "thinsp", NULL, NULL, "zwnj", "zwj", "lrm", "rlm",
                    154:        NULL, NULL, NULL, "ndash", "mdash", NULL, NULL, NULL,
                    155:        /* 8216 */
                    156:        "lsquo", "rsquo", "sbquo", NULL, "ldquo", "rdquo", "bdquo", NULL,
                    157:        "dagger", "Dagger", "bull", NULL, NULL, NULL, "hellip",
                    158:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, "permil", NULL,
                    159:        /* 8242 */
                    160:        "prime", "Prime", NULL, NULL, NULL, NULL, NULL, "lsaquo", "rsaquo", NULL,
                    161:        NULL, NULL, "oline", NULL, NULL, NULL, NULL, NULL,
                    162:        "frasl"
                    163: };
                    164: 
                    165: static entity_table_t ent_uni_euro[] = {
                    166:        "euro"
                    167: };
                    168: 
                    169: static entity_table_t ent_uni_8465_8501[] = {
                    170:        /* 8465 */
                    171:        "image", NULL, NULL, NULL, NULL, NULL, NULL,
                    172:        /* 8472 */
                    173:        "weierp", NULL, NULL, NULL,
                    174:        /* 8476 */
                    175:        "real", NULL, NULL, NULL, NULL, NULL,
                    176:        /* 8482 */
                    177:        "trade", NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    178:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    179:        /* 8501 */
                    180:        "alefsym",
                    181: };
                    182: 
                    183: static entity_table_t ent_uni_8592_9002[] = {
                    184:        /* 8592 (0x2190) */
                    185:        "larr", "uarr", "rarr", "darr", "harr", NULL, NULL, NULL,
                    186:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    187:        /* 8608 (0x21a0) */
                    188:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    189:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    190:        /* 8624 (0x21b0) */
                    191:        NULL, NULL, NULL, NULL, NULL, "crarr", NULL, NULL,
                    192:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    193:        /* 8640 (0x21c0) */
                    194:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    195:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    196:        /* 8656 (0x21d0) */
                    197:        "lArr", "uArr", "rArr", "dArr", "hArr", NULL, NULL, NULL,
                    198:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    199:        /* 8672 (0x21e0) */
                    200:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    201:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    202:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    203:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    204:        /* 8704 (0x2200) */
                    205:        "forall", NULL, "part", "exist", NULL, "empty", NULL, "nabla",
                    206:        "isin", "notin", NULL, "ni", NULL, NULL, NULL, "prod",
                    207:        /* 8720 (0x2210) */
                    208:        NULL, "sum", "minus", NULL, NULL, NULL, NULL, "lowast",
                    209:        NULL, NULL, "radic", NULL, NULL, "prop", "infin", NULL,
                    210:        /* 8736 (0x2220) */
                    211:        "ang", NULL, NULL, NULL, NULL, NULL, NULL, "and",
                    212:        "or", "cap", "cup", "int", NULL, NULL, NULL, NULL,
                    213:        /* 8752 (0x2230) */
                    214:        NULL, NULL, NULL, NULL, "there4", NULL, NULL, NULL,
                    215:        NULL, NULL, NULL, NULL, "sim", NULL, NULL, NULL,
                    216:        /* 8768 (0x2240) */
                    217:        NULL, NULL, NULL, NULL, NULL, "cong", NULL, NULL,
                    218:        "asymp", NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    219:        /* 8784 (0x2250) */
                    220:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    221:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    222:        /* 8800 (0x2260) */
                    223:        "ne", "equiv", NULL, NULL, "le", "ge", NULL, NULL,
                    224:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    225:        /* 8816 (0x2270) */
                    226:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    227:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    228:        /* 8832 (0x2280) */
                    229:        NULL, NULL, "sub", "sup", "nsub", NULL, "sube", "supe",
                    230:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    231:        /* 8848 (0x2290) */
                    232:        NULL, NULL, NULL, NULL, NULL, "oplus", NULL, "otimes",
                    233:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    234:        /* 8864 (0x22a0) */
                    235:        NULL, NULL, NULL, NULL, NULL, "perp", NULL, NULL,
                    236:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    237:        /* 8880 (0x22b0) */
                    238:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    239:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    240:        /* 8896 (0x22c0) */
                    241:        NULL, NULL, NULL, NULL, NULL, "sdot", NULL, NULL,
                    242:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    243:        /* 8912 (0x22d0) */
                    244:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    245:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    246:        /* 8928 (0x22e0) */
                    247:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    248:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    249:        /* 8944 (0x22f0) */
                    250:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    251:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    252:        /* 8960 (0x2300) */
                    253:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    254:        "lceil", "rceil", "lfloor", "rfloor", NULL, NULL, NULL, NULL,
                    255:        /* 8976 (0x2310) */
                    256:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    257:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    258:        /* 8992 (0x2320) */
                    259:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    260:        NULL, "lang", "rang"
                    261: };
                    262: 
                    263: static entity_table_t ent_uni_9674[] = {
                    264:        /* 9674 */
                    265:        "loz"
                    266: };
                    267: 
                    268: static entity_table_t ent_uni_9824_9830[] = {
                    269:        /* 9824 */
                    270:        "spades", NULL, NULL, "clubs", NULL, "hearts", "diams"
                    271: };
                    272: 
                    273: static entity_table_t ent_koi8r[] = {
                    274:        "#1105", /* "jo "*/
                    275:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, 
                    276:        NULL, NULL, NULL, NULL, NULL, "#1025", /* "JO" */
                    277:        NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, 
                    278:        "#1102", "#1072", "#1073", "#1094", "#1076", "#1077", "#1092", 
                    279:        "#1075", "#1093", "#1080", "#1081", "#1082", "#1083", "#1084", 
                    280:        "#1085", "#1086", "#1087", "#1103", "#1088", "#1089", "#1090", 
                    281:        "#1091", "#1078", "#1074", "#1100", "#1099", "#1079", "#1096", 
                    282:        "#1101", "#1097", "#1095", "#1098", "#1070", "#1040", "#1041", 
                    283:        "#1062", "#1044", "#1045", "#1060", "#1043", "#1061", "#1048", 
                    284:        "#1049", "#1050", "#1051", "#1052", "#1053", "#1054", "#1055", 
                    285:        "#1071", "#1056", "#1057", "#1058", "#1059", "#1046", "#1042",
                    286:        "#1068", "#1067", "#1047", "#1064", "#1069", "#1065", "#1063", 
                    287:        "#1066"
                    288: };
                    289: 
                    290: static entity_table_t ent_cp_1251[] = {
                    291:        "#1026", "#1027", "#8218", "#1107", "#8222", "hellip", "dagger",
                    292:        "Dagger", "euro", "permil", "#1033", "#8249", "#1034", "#1036",
                    293:        "#1035", "#1039", "#1106", "#8216", "#8217", "#8219", "#8220",
                    294:        "bull", "ndash", "mdash", NULL, "trade", "#1113", "#8250",
                    295:        "#1114", "#1116", "#1115", "#1119", "nbsp", "#1038", "#1118",
                    296:        "#1032", "curren", "#1168", "brvbar", "sect", "#1025", "copy",
                    297:        "#1028", "laquo", "not", "shy", "reg", "#1031", "deg", "plusmn",
                    298:        "#1030", "#1110", "#1169", "micro", "para", "middot", "#1105",
                    299:        "#8470", "#1108", "raquo", "#1112", "#1029", "#1109", "#1111",
                    300:        "#1040", "#1041", "#1042", "#1043", "#1044", "#1045", "#1046",
                    301:        "#1047", "#1048", "#1049", "#1050", "#1051", "#1052", "#1053",
                    302:        "#1054", "#1055", "#1056", "#1057", "#1058", "#1059", "#1060",
                    303:        "#1061", "#1062", "#1063", "#1064", "#1065", "#1066", "#1067",
                    304:        "#1068", "#1069", "#1070", "#1071", "#1072", "#1073", "#1074",
                    305:        "#1075", "#1076", "#1077", "#1078", "#1079", "#1080", "#1081",
                    306:        "#1082", "#1083", "#1084", "#1085", "#1086", "#1087", "#1088",
                    307:        "#1089", "#1090", "#1091", "#1092", "#1093", "#1094", "#1095",
                    308:        "#1096", "#1097", "#1098", "#1099", "#1100", "#1101", "#1102",
                    309:        "#1103"
                    310: };
                    311: 
                    312: static entity_table_t ent_iso_8859_5[] = {
                    313:        "#1056", "#1057", "#1058", "#1059", "#1060", "#1061", "#1062",
                    314:        "#1063", "#1064", "#1065", "#1066", "#1067", "#1068", "#1069",
                    315:        "#1070", "#1071", "#1072", "#1073", "#1074", "#1075", "#1076",
                    316:        "#1077", "#1078", "#1079", "#1080", "#1081", "#1082", "#1083",
                    317:        "#1084", "#1085", "#1086", "#1087", "#1088", "#1089", "#1090",
                    318:        "#1091", "#1092", "#1093", "#1094", "#1095", "#1096", "#1097",
                    319:        "#1098", "#1099", "#1100", "#1101", "#1102", "#1103", "#1104",
                    320:        "#1105", "#1106", "#1107", "#1108", "#1109", "#1110", "#1111",
                    321:        "#1112", "#1113", "#1114", "#1115", "#1116", "#1117", "#1118",
                    322:        "#1119"
                    323: };
                    324: 
                    325: static entity_table_t ent_cp_866[] = {
                    326: 
                    327:        "#9492", "#9524", "#9516", "#9500", "#9472", "#9532", "#9566", 
                    328:        "#9567", "#9562", "#9556", "#9577", "#9574", "#9568", "#9552", 
                    329:        "#9580", "#9575", "#9576", "#9572", "#9573", "#9561", "#9560", 
                    330:        "#9554", "#9555", "#9579", "#9578", "#9496", "#9484", "#9608", 
                    331:        "#9604", "#9612", "#9616", "#9600", "#1088", "#1089", "#1090", 
                    332:        "#1091", "#1092", "#1093", "#1094", "#1095", "#1096", "#1097", 
                    333:        "#1098", "#1099", "#1100", "#1101", "#1102", "#1103", "#1025", 
                    334:        "#1105", "#1028", "#1108", "#1031", "#1111", "#1038", "#1118", 
                    335:        "#176", "#8729", "#183", "#8730", "#8470", "#164",  "#9632", 
                    336:        "#160"
                    337: };
                    338: 
                    339: /* MacRoman has a couple of low-ascii chars that need mapping too */
                    340: /* Vertical tab (ASCII 11) is often used to store line breaks inside */
                    341: /* DB exports, this mapping changes it to a space */
                    342: static entity_table_t ent_macroman[] = {
                    343:        "sp", NULL, NULL, NULL,
                    344:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    345:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    346:        NULL, NULL, NULL, NULL, NULL, "quot", NULL,
                    347:        NULL, NULL, "amp", NULL, NULL, NULL, NULL,
                    348:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    349:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    350:        NULL, NULL, NULL, "lt", NULL, "gt", NULL,
                    351:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    352:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    353:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    354:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    355:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    356:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    357:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    358:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    359:        NULL, NULL, NULL, NULL, NULL, NULL, NULL,
                    360:        NULL, "Auml", "Aring", "Ccedil", "Eacute", "Ntilde", "Ouml",
                    361:        "Uuml", "aacute", "agrave", "acirc", "auml", "atilde", "aring",
                    362:        "ccedil", "eacute", "egrave", "ecirc", "euml", "iacute", "igrave",
                    363:        "icirc", "iuml", "ntilde", "oacute", "ograve", "ocirc", "ouml",
                    364:        "otilde", "uacute", "ugrave", "ucirc", "uuml", "dagger", "deg",
                    365:        "cent", "pound", "sect", "bull", "para", "szlig", "reg",
                    366:        "copy", "trade", "acute", "uml", "ne", "AElig", "Oslash",
                    367:        "infin", "plusmn", "le", "ge", "yen", "micro", "part",
                    368:        "sum", "prod", "pi", "int", "ordf", "ordm", "Omega",
                    369:        "aelig", "oslash", "iquest", "iexcl", "not", "radic", "fnof",
                    370:        "asymp", "#8710", "laquo", "raquo", "hellip", "nbsp", "Agrave",
                    371:        "Atilde", "Otilde", "OElig", "oelig", "ndash", "mdash", "ldquo",
                    372:        "rdquo", "lsquo", "rsquo", "divide", "loz", "yuml", "Yuml",
                    373:        "frasl", "euro", "lsaquo", "rsaquo", "#xFB01", "#xFB02", "Dagger",
                    374:        "middot", "sbquo", "bdquo", "permil", "Acirc", "Ecirc", "Aacute",
                    375:        "Euml", "Egrave", "Iacute", "Icirc", "Iuml", "Igrave", "Oacute",
                    376:        "Ocirc", "#xF8FF", "Ograve", "Uacute", "Ucirc", "Ugrave", "#305",
                    377:        "circ", "tilde", "macr", "#728", "#729", "#730", "cedil",
                    378:        "#733", "#731", "#711"
                    379: };
                    380: 
                    381: struct html_entity_map {
                    382:        enum entity_charset charset;    /* charset identifier */
                    383:        unsigned int basechar;                  /* char code at start of table */
                    384:        unsigned int endchar;                   /* last char code in the table */
                    385:        entity_table_t *table;                  /* the table of mappings */
                    386: };
                    387: 
                    388: static const struct html_entity_map entity_map[] = {
                    389:        { cs_cp1252,            0x80, 0x9f, ent_cp_1252 },
                    390:        { cs_cp1252,            0xa0, 0xff, ent_iso_8859_1 },
                    391:        { cs_8859_1,            0xa0, 0xff, ent_iso_8859_1 },
                    392:        { cs_8859_15,           0xa0, 0xff, ent_iso_8859_15 },
                    393:        { cs_utf_8,             0xa0, 0xff, ent_iso_8859_1 },
                    394:        { cs_utf_8,             338,  402,  ent_uni_338_402 },
                    395:        { cs_utf_8,             710,  732,  ent_uni_spacing },
                    396:        { cs_utf_8,             913,  982,  ent_uni_greek },
                    397:        { cs_utf_8,             8194, 8260, ent_uni_punct },
                    398:        { cs_utf_8,             8364, 8364, ent_uni_euro }, 
                    399:        { cs_utf_8,             8465, 8501, ent_uni_8465_8501 },
                    400:        { cs_utf_8,             8592, 9002, ent_uni_8592_9002 },
                    401:        { cs_utf_8,             9674, 9674, ent_uni_9674 },
                    402:        { cs_utf_8,             9824, 9830, ent_uni_9824_9830 },
                    403:        { cs_big5,                      0xa0, 0xff, ent_iso_8859_1 },
                    404:        { cs_gb2312,            0xa0, 0xff, ent_iso_8859_1 },
                    405:        { cs_big5hkscs,         0xa0, 0xff, ent_iso_8859_1 },
                    406:        { cs_sjis,                      0xa0, 0xff, ent_iso_8859_1 },
                    407:        { cs_eucjp,                     0xa0, 0xff, ent_iso_8859_1 },
                    408:        { cs_koi8r,                 0xa3, 0xff, ent_koi8r },
                    409:        { cs_cp1251,            0x80, 0xff, ent_cp_1251 },
                    410:        { cs_8859_5,            0xc0, 0xff, ent_iso_8859_5 },
                    411:        { cs_cp866,                 0xc0, 0xff, ent_cp_866 },
                    412:        { cs_macroman,          0x0b, 0xff, ent_macroman },
                    413:        { cs_terminator }
                    414: };
                    415: 
                    416: static const struct {
                    417:        const char *codeset;
                    418:        enum entity_charset charset;
                    419: } charset_map[] = {
                    420:        { "ISO-8859-1",         cs_8859_1 },
                    421:        { "ISO8859-1",          cs_8859_1 },
                    422:        { "ISO-8859-15",        cs_8859_15 },
                    423:        { "ISO8859-15",         cs_8859_15 },
                    424:        { "utf-8",                      cs_utf_8 },
                    425:        { "cp1252",             cs_cp1252 },
                    426:        { "Windows-1252",       cs_cp1252 },
                    427:        { "1252",           cs_cp1252 }, 
                    428:        { "BIG5",                       cs_big5 },
                    429:        { "950",            cs_big5 },
                    430:        { "GB2312",                     cs_gb2312 },
                    431:        { "936",            cs_gb2312 },
                    432:        { "BIG5-HKSCS",         cs_big5hkscs },
                    433:        { "Shift_JIS",          cs_sjis },
                    434:        { "SJIS",               cs_sjis },
                    435:        { "932",            cs_sjis },
                    436:        { "EUCJP",              cs_eucjp },
                    437:        { "EUC-JP",             cs_eucjp },
                    438:        { "KOI8-R",         cs_koi8r },
                    439:        { "koi8-ru",        cs_koi8r },
                    440:        { "koi8r",          cs_koi8r },
                    441:        { "cp1251",         cs_cp1251 },
                    442:        { "Windows-1251",   cs_cp1251 },
                    443:        { "win-1251",       cs_cp1251 },
                    444:        { "iso8859-5",      cs_8859_5 },
                    445:        { "iso-8859-5",     cs_8859_5 },
                    446:        { "cp866",          cs_cp866 },
                    447:        { "866",            cs_cp866 },    
                    448:        { "ibm866",         cs_cp866 },
                    449:        { "MacRoman",       cs_macroman },
                    450:        { NULL }
                    451: };
                    452: 
                    453: static const struct {
                    454:        unsigned short charcode;
                    455:        char *entity;
                    456:        int entitylen;
                    457:        int flags;
                    458: } basic_entities[] = {
                    459:        { '"',  "&quot;",       6,      ENT_HTML_QUOTE_DOUBLE },
                    460:        { '\'', "&#039;",       6,      ENT_HTML_QUOTE_SINGLE },
                    461:        { '\'', "&#39;",        5,      ENT_HTML_QUOTE_SINGLE },
                    462:        { '<',  "&lt;",         4,      0 },
                    463:        { '>',  "&gt;",         4,      0 },
                    464:        { 0, NULL, 0, 0 }
                    465: };
                    466:        
                    467: struct basic_entities_dec {
                    468:        unsigned short charcode;
                    469:        char entity[8];
                    470:        int entitylen;  
                    471: };
                    472:        
                    473: #define MB_RETURN { \
                    474:                        *newpos = pos;       \
                    475:                        mbseq[mbpos] = '\0'; \
                    476:                        *mbseqlen = mbpos;   \
                    477:                        return this_char; }
                    478:                                        
                    479: #define MB_WRITE(mbchar) { \
                    480:                        mbspace--;  \
                    481:                        if (mbspace == 0) {      \
                    482:                                MB_RETURN;           \
                    483:                        }                        \
                    484:                        mbseq[mbpos++] = (mbchar); }
                    485: 
                    486: /* skip one byte and return */
                    487: #define MB_FAILURE(pos) do { \
                    488:        *newpos = pos + 1; \
                    489:        *status = FAILURE; \
                    490:        return 0; \
                    491: } while (0)
                    492: 
                    493: #define CHECK_LEN(pos, chars_need)                     \
                    494:        if (chars_need < 1) {                                           \
                    495:                if((str_len - (pos)) < chars_need) {    \
                    496:                        *newpos = pos;                                          \
                    497:                        *status = FAILURE;                                      \
                    498:                        return 0;                                                       \
                    499:                }                                                                               \
                    500:        } else {                                                                        \
                    501:                if((str_len - (pos)) < chars_need) {    \
                    502:                        *newpos = pos + 1;                                      \
                    503:                        *status = FAILURE;                                      \
                    504:                        return 0;                                                       \
                    505:                }                                                                               \
                    506:        }
                    507: 
                    508: /* {{{ get_next_char
                    509:  */
                    510: inline static unsigned int get_next_char(enum entity_charset charset,
                    511:                unsigned char * str,
                    512:                int str_len,
                    513:                int * newpos,
                    514:                unsigned char * mbseq,
                    515:                int * mbseqlen, 
                    516:                int *status)
                    517: {
                    518:        int pos = *newpos;
                    519:        int mbpos = 0;
                    520:        int mbspace = *mbseqlen;
                    521:        unsigned int this_char = 0;
                    522:        unsigned char next_char;
                    523: 
                    524:        *status = SUCCESS;
                    525: 
                    526:        if (mbspace <= 0) {
                    527:                *mbseqlen = 0;
                    528:                CHECK_LEN(pos, 1);
                    529:                *newpos = pos + 1;
                    530:                return str[pos];
                    531:        }
                    532: 
                    533:        switch (charset) {
                    534:                case cs_utf_8:
                    535:                        {
                    536:                                unsigned char c;
                    537:                                CHECK_LEN(pos, 1);
                    538:                                c = str[pos];
                    539:                                if (c < 0x80) {
                    540:                                        MB_WRITE(c);
                    541:                                        this_char = c;
                    542:                                        pos++;
                    543:                                } else if (c < 0xc2) {
                    544:                                        MB_FAILURE(pos);
                    545:                                } else if (c < 0xe0) {
                    546:                                        CHECK_LEN(pos, 2);
                    547:                                        if (str[pos + 1] < 0x80 || str[pos + 1] > 0xbf) {
                    548:                                                MB_FAILURE(pos);
                    549:                                        }
                    550:                                        this_char = ((c & 0x1f) << 6) | (str[pos + 1] & 0x3f);
                    551:                                        if (this_char < 0x80) {
                    552:                                                MB_FAILURE(pos);
                    553:                                        }
                    554:                                        MB_WRITE((unsigned char)c);
                    555:                                        MB_WRITE((unsigned char)str[pos + 1]);
                    556:                                        pos += 2;
                    557:                                } else if (c < 0xf0) {
                    558:                                        CHECK_LEN(pos, 3);
                    559:                                        if (str[pos + 1] < 0x80 || str[pos + 1] > 0xbf) {
                    560:                                                MB_FAILURE(pos);
                    561:                                        }
                    562:                                        if (str[pos + 2] < 0x80 || str[pos + 2] > 0xbf) {
                    563:                                                MB_FAILURE(pos);
                    564:                                        }
                    565:                                        this_char = ((c & 0x0f) << 12) | ((str[pos + 1] & 0x3f) << 6) | (str[pos + 2] & 0x3f);
                    566:                                        if (this_char < 0x800) {
                    567:                                                MB_FAILURE(pos);
                    568:                                        } else if (this_char >= 0xd800 && this_char <= 0xdfff) {
                    569:                                                MB_FAILURE(pos);
                    570:                                        }
                    571:                                        MB_WRITE((unsigned char)c);
                    572:                                        MB_WRITE((unsigned char)str[pos + 1]);
                    573:                                        MB_WRITE((unsigned char)str[pos + 2]);
                    574:                                        pos += 3;
                    575:                                } else if (c < 0xf5) {
                    576:                                        CHECK_LEN(pos, 4);
                    577:                                        if (str[pos + 1] < 0x80 || str[pos + 1] > 0xbf) {
                    578:                                                MB_FAILURE(pos);
                    579:                                        }
                    580:                                        if (str[pos + 2] < 0x80 || str[pos + 2] > 0xbf) {
                    581:                                                MB_FAILURE(pos);
                    582:                                        }
                    583:                                        if (str[pos + 3] < 0x80 || str[pos + 3] > 0xbf) {
                    584:                                                MB_FAILURE(pos);
                    585:                                        }
                    586:                                        this_char = ((c & 0x07) << 18) | ((str[pos + 1] & 0x3f) << 12) | ((str[pos + 2] & 0x3f) << 6) | (str[pos + 3] & 0x3f);
                    587:                                        if (this_char < 0x10000 || this_char > 0x10FFFF) {
                    588:                                                MB_FAILURE(pos);
                    589:                                        }
                    590:                                        MB_WRITE((unsigned char)c);
                    591:                                        MB_WRITE((unsigned char)str[pos + 1]);
                    592:                                        MB_WRITE((unsigned char)str[pos + 2]);
                    593:                                        MB_WRITE((unsigned char)str[pos + 3]);
                    594:                                        pos += 4;
                    595:                                } else {
                    596:                                        MB_FAILURE(pos);
                    597:                                }
                    598:                        }
                    599:                        break;
                    600:                case cs_big5:
                    601:                case cs_gb2312:
                    602:                case cs_big5hkscs:
                    603:                        {
                    604:                                CHECK_LEN(pos, 1);
                    605:                                this_char = str[pos++];
                    606:                                /* check if this is the first of a 2-byte sequence */
                    607:                                if (this_char >= 0x81 && this_char <= 0xfe) {
                    608:                                        /* peek at the next char */
                    609:                                        CHECK_LEN(pos, 1);
                    610:                                        next_char = str[pos++];
                    611:                                        if ((next_char >= 0x40 && next_char <= 0x7e) ||
                    612:                                                        (next_char >= 0xa1 && next_char <= 0xfe)) {
                    613:                                                /* yes, this a wide char */
                    614:                                                MB_WRITE(this_char);
                    615:                                                MB_WRITE(next_char);
                    616:                                                this_char = (this_char << 8) | next_char;
                    617:                                        } else {
                    618:                                                MB_FAILURE(pos);
                    619:                                        }
                    620:                                } else {
                    621:                                        MB_WRITE(this_char);
                    622:                                }
                    623:                        }
                    624:                        break;
                    625:                case cs_sjis:
                    626:                        {
                    627:                                CHECK_LEN(pos, 1);
                    628:                                this_char = str[pos++];
                    629:                                /* check if this is the first of a 2-byte sequence */
                    630:                                if ((this_char >= 0x81 && this_char <= 0x9f) ||
                    631:                                        (this_char >= 0xe0 && this_char <= 0xfc)) {
                    632:                                        /* peek at the next char */
                    633:                                        CHECK_LEN(pos, 1);
                    634:                                        next_char = str[pos++];
                    635:                                        if ((next_char >= 0x40 && next_char <= 0x7e) ||
                    636:                                                (next_char >= 0x80 && next_char <= 0xfc))
                    637:                                        {
                    638:                                                /* yes, this a wide char */
                    639:                                                MB_WRITE(this_char);
                    640:                                                MB_WRITE(next_char);
                    641:                                                this_char = (this_char << 8) | next_char;
                    642:                                        } else {
                    643:                                                MB_FAILURE(pos);
                    644:                                        }
                    645:                                } else {
                    646:                                        MB_WRITE(this_char);
                    647:                                }
                    648:                                break;
                    649:                        }
                    650:                case cs_eucjp:
                    651:                        {
                    652:                                CHECK_LEN(pos, 1);
                    653:                                this_char = str[pos++];
                    654:                                /* check if this is the first of a multi-byte sequence */
                    655:                                if (this_char >= 0xa1 && this_char <= 0xfe) {
                    656:                                        /* peek at the next char */
                    657:                                        CHECK_LEN(pos, 1);
                    658:                                        next_char = str[pos++];
                    659:                                        if (next_char >= 0xa1 && next_char <= 0xfe) {
                    660:                                                /* yes, this a jis kanji char */
                    661:                                                MB_WRITE(this_char);
                    662:                                                MB_WRITE(next_char);
                    663:                                                this_char = (this_char << 8) | next_char;
                    664:                                        } else {
                    665:                                                MB_FAILURE(pos);
                    666:                                        }
                    667:                                } else if (this_char == 0x8e) {
                    668:                                        /* peek at the next char */
                    669:                                        CHECK_LEN(pos, 1);
                    670:                                        next_char = str[pos++];
                    671:                                        if (next_char >= 0xa1 && next_char <= 0xdf) {
                    672:                                                /* JIS X 0201 kana */
                    673:                                                MB_WRITE(this_char);
                    674:                                                MB_WRITE(next_char);
                    675:                                                this_char = (this_char << 8) | next_char;
                    676:                                        } else {
                    677:                                                MB_FAILURE(pos);
                    678:                                        }
                    679:                                } else if (this_char == 0x8f) {
                    680:                                        /* peek at the next two char */
                    681:                                        unsigned char next2_char;
                    682:                                        CHECK_LEN(pos, 2);
                    683:                                        next_char = str[pos];
                    684:                                        next2_char = str[pos + 1];
                    685:                                        pos += 2;
                    686:                                        if ((next_char >= 0xa1 && next_char <= 0xfe) &&
                    687:                                                (next2_char >= 0xa1 && next2_char <= 0xfe)) {
                    688:                                                /* JIS X 0212 hojo-kanji */
                    689:                                                MB_WRITE(this_char);
                    690:                                                MB_WRITE(next_char);
                    691:                                                MB_WRITE(next2_char);
                    692:                                                this_char = (this_char << 16) | (next_char << 8) | next2_char;
                    693:                                        } else {
                    694:                                                MB_FAILURE(pos);
                    695:                                        }
                    696:                                } else {
                    697:                                        MB_WRITE(this_char);
                    698:                                }
                    699:                                break;
                    700:                        }
                    701:                default:
                    702:                        /* single-byte charsets */
                    703:                        CHECK_LEN(pos, 1);
                    704:                        this_char = str[pos++];
                    705:                        MB_WRITE(this_char);
                    706:                        break;
                    707:        }
                    708:        MB_RETURN;
                    709: }
                    710: /* }}} */
                    711: 
                    712: /* {{{ entity_charset determine_charset
                    713:  * returns the charset identifier based on current locale or a hint.
                    714:  * defaults to iso-8859-1 */
                    715: static enum entity_charset determine_charset(char *charset_hint TSRMLS_DC)
                    716: {
                    717:        int i;
                    718:        enum entity_charset charset = cs_8859_1;
                    719:        int len = 0;
                    720:        zval *uf_result = NULL;
                    721: 
                    722:        /* Guarantee default behaviour for backwards compatibility */
                    723:        if (charset_hint == NULL)
                    724:                return cs_8859_1;
                    725: 
                    726:        if ((len = strlen(charset_hint)) != 0) {
                    727:                goto det_charset;
                    728:        }
                    729: #if HAVE_MBSTRING
                    730: #if !defined(COMPILE_DL_MBSTRING)
                    731:        /* XXX: Ugly things. Why don't we look for a more sophisticated way? */
                    732:        switch (MBSTRG(current_internal_encoding)) {
                    733:                case mbfl_no_encoding_8859_1:
                    734:                        return cs_8859_1;
                    735: 
                    736:                case mbfl_no_encoding_utf8:
                    737:                        return cs_utf_8;
                    738: 
                    739:                case mbfl_no_encoding_euc_jp:
                    740:                case mbfl_no_encoding_eucjp_win:
                    741:                        return cs_eucjp;
                    742: 
                    743:                case mbfl_no_encoding_sjis:
                    744:                case mbfl_no_encoding_sjis_open:
                    745:                case mbfl_no_encoding_cp932:
                    746:                        return cs_sjis;
                    747: 
                    748:                case mbfl_no_encoding_cp1252:
                    749:                        return cs_cp1252;
                    750: 
                    751:                case mbfl_no_encoding_8859_15:
                    752:                        return cs_8859_15;
                    753: 
                    754:                case mbfl_no_encoding_big5:
                    755:                        return cs_big5;
                    756: 
                    757:                case mbfl_no_encoding_euc_cn:
                    758:                case mbfl_no_encoding_hz:
                    759:                case mbfl_no_encoding_cp936:
                    760:                        return cs_gb2312;
                    761: 
                    762:                case mbfl_no_encoding_koi8r:
                    763:                        return cs_koi8r;
                    764: 
                    765:                case mbfl_no_encoding_cp866:
                    766:                        return cs_cp866;
                    767: 
                    768:                case mbfl_no_encoding_cp1251:
                    769:                        return cs_cp1251;
                    770: 
                    771:                case mbfl_no_encoding_8859_5:
                    772:                        return cs_8859_5;
                    773: 
                    774:                default:
                    775:                        ;
                    776:        }
                    777: #else
                    778:        {
                    779:                zval nm_mb_internal_encoding;
                    780: 
                    781:                ZVAL_STRING(&nm_mb_internal_encoding, "mb_internal_encoding", 0);
                    782: 
                    783:                if (call_user_function_ex(CG(function_table), NULL, &nm_mb_internal_encoding, &uf_result, 0, NULL, 1, NULL TSRMLS_CC) != FAILURE) {
                    784: 
                    785:                        charset_hint = Z_STRVAL_P(uf_result);
                    786:                        len = Z_STRLEN_P(uf_result);
                    787:                        
                    788:                        if (len == 4) { /* sizeof(none|auto|pass)-1 */
                    789:                                if (!memcmp("pass", charset_hint, sizeof("pass") - 1) || 
                    790:                                    !memcmp("auto", charset_hint, sizeof("auto") - 1) || 
                    791:                                    !memcmp("none", charset_hint, sizeof("none") - 1)) {
                    792:                                        
                    793:                                        charset_hint = NULL;
                    794:                                        len = 0;
                    795:                                }
                    796:                        }
                    797:                        goto det_charset;
                    798:                }
                    799:        }
                    800: #endif
                    801: #endif
                    802: 
                    803:        charset_hint = SG(default_charset);
                    804:        if (charset_hint != NULL && (len=strlen(charset_hint)) != 0) {
                    805:                goto det_charset;
                    806:        }
                    807: 
                    808:        /* try to detect the charset for the locale */
                    809: #if HAVE_NL_LANGINFO && HAVE_LOCALE_H && defined(CODESET)
                    810:        charset_hint = nl_langinfo(CODESET);
                    811:        if (charset_hint != NULL && (len=strlen(charset_hint)) != 0) {
                    812:                goto det_charset;
                    813:        }
                    814: #endif
                    815: 
                    816: #if HAVE_LOCALE_H
                    817:        /* try to figure out the charset from the locale */
                    818:        {
                    819:                char *localename;
                    820:                char *dot, *at;
                    821: 
                    822:                /* lang[_territory][.codeset][@modifier] */
                    823:                localename = setlocale(LC_CTYPE, NULL);
                    824: 
                    825:                dot = strchr(localename, '.');
                    826:                if (dot) {
                    827:                        dot++;
                    828:                        /* locale specifies a codeset */
                    829:                        at = strchr(dot, '@');
                    830:                        if (at)
                    831:                                len = at - dot;
                    832:                        else
                    833:                                len = strlen(dot);
                    834:                        charset_hint = dot;
                    835:                } else {
                    836:                        /* no explicit name; see if the name itself
                    837:                         * is the charset */
                    838:                        charset_hint = localename;
                    839:                        len = strlen(charset_hint);
                    840:                }
                    841:        }
                    842: #endif
                    843: 
                    844: det_charset:
                    845: 
                    846:        if (charset_hint) {
                    847:                int found = 0;
                    848:                
                    849:                /* now walk the charset map and look for the codeset */
                    850:                for (i = 0; charset_map[i].codeset; i++) {
                    851:                        if (len == strlen(charset_map[i].codeset) && strncasecmp(charset_hint, charset_map[i].codeset, len) == 0) {
                    852:                                charset = charset_map[i].charset;
                    853:                                found = 1;
                    854:                                break;
                    855:                        }
                    856:                }
                    857:                if (!found) {
                    858:                        php_error_docref(NULL TSRMLS_CC, E_WARNING, "charset `%s' not supported, assuming iso-8859-1",
                    859:                                        charset_hint);
                    860:                }
                    861:        }
                    862:        if (uf_result != NULL) {
                    863:                zval_ptr_dtor(&uf_result);
                    864:        }
                    865:        return charset;
                    866: }
                    867: /* }}} */
                    868: 
                    869: /* {{{ php_utf32_utf8 */
                    870: size_t php_utf32_utf8(unsigned char *buf, unsigned k)
                    871: {
                    872:        size_t retval = 0;
                    873: 
                    874:        if (k < 0x80) {
                    875:                buf[0] = k;
                    876:                retval = 1;
                    877:        } else if (k < 0x800) {
                    878:                buf[0] = 0xc0 | (k >> 6);
                    879:                buf[1] = 0x80 | (k & 0x3f);
                    880:                retval = 2;
                    881:        } else if (k < 0x10000) {
                    882:                buf[0] = 0xe0 | (k >> 12);
                    883:                buf[1] = 0x80 | ((k >> 6) & 0x3f);
                    884:                buf[2] = 0x80 | (k & 0x3f);
                    885:                retval = 3;
                    886:        } else if (k < 0x200000) {
                    887:                buf[0] = 0xf0 | (k >> 18);
                    888:                buf[1] = 0x80 | ((k >> 12) & 0x3f);
                    889:                buf[2] = 0x80 | ((k >> 6) & 0x3f);
                    890:                buf[3] = 0x80 | (k & 0x3f);
                    891:                retval = 4;
                    892:        } else if (k < 0x4000000) {
                    893:                buf[0] = 0xf8 | (k >> 24);
                    894:                buf[1] = 0x80 | ((k >> 18) & 0x3f);
                    895:                buf[2] = 0x80 | ((k >> 12) & 0x3f);
                    896:                buf[3] = 0x80 | ((k >> 6) & 0x3f);
                    897:                buf[4] = 0x80 | (k & 0x3f);
                    898:                retval = 5;
                    899:        } else {
                    900:                buf[0] = 0xfc | (k >> 30);
                    901:                buf[1] = 0x80 | ((k >> 24) & 0x3f);
                    902:                buf[2] = 0x80 | ((k >> 18) & 0x3f);
                    903:                buf[3] = 0x80 | ((k >> 12) & 0x3f);
                    904:                buf[4] = 0x80 | ((k >> 6) & 0x3f);
                    905:                buf[5] = 0x80 | (k & 0x3f);
                    906:                retval = 6;
                    907:        }
                    908:        buf[retval] = '\0';
                    909: 
                    910:        return retval;
                    911: }
                    912: /* }}} */
                    913: 
                    914: /* {{{ php_unescape_html_entities
                    915:  */
                    916: PHPAPI char *php_unescape_html_entities(unsigned char *old, int oldlen, int *newlen, int all, int quote_style, char *hint_charset TSRMLS_DC)
                    917: {
                    918:        int retlen;
                    919:        int j, k;
                    920:        char *replaced, *ret, *p, *q, *lim, *next;
                    921:        enum entity_charset charset = determine_charset(hint_charset TSRMLS_CC);
                    922:        unsigned char replacement[15];
                    923:        int replacement_len;
                    924: 
                    925:        ret = estrndup(old, oldlen);
                    926:        retlen = oldlen;
                    927:        if (!retlen) {
                    928:                goto empty_source;
                    929:        }
                    930:        
                    931:        if (all) {
                    932:                /* look for a match in the maps for this charset */
                    933:                for (j = 0; entity_map[j].charset != cs_terminator; j++) {
                    934:                        if (entity_map[j].charset != charset)
                    935:                                continue;
                    936: 
                    937:                        for (k = entity_map[j].basechar; k <= entity_map[j].endchar; k++) {
                    938:                                unsigned char entity[32];
                    939:                                int entity_length = 0;
                    940: 
                    941:                                if (entity_map[j].table[k - entity_map[j].basechar] == NULL)
                    942:                                        continue;
                    943: 
                    944:                                entity_length = slprintf(entity, sizeof(entity), "&%s;", entity_map[j].table[k - entity_map[j].basechar]);
                    945:                                if (entity_length >= sizeof(entity)) {
                    946:                                        continue;
                    947:                                }
                    948: 
                    949:                                /* When we have MBCS entities in the tables above, this will need to handle it */
                    950:                                replacement_len = 0;
                    951:                                switch (charset) {
                    952:                                        case cs_8859_1:
                    953:                                        case cs_cp1252:
                    954:                                        case cs_8859_15:
                    955:                                        case cs_cp1251:
                    956:                                        case cs_8859_5:
                    957:                                        case cs_cp866:
                    958:                                        case cs_koi8r:
                    959:                                                replacement[0] = k;
                    960:                                                replacement[1] = '\0';
                    961:                                                replacement_len = 1;
                    962:                                                break;
                    963: 
                    964:                                        case cs_big5:
                    965:                                        case cs_gb2312:
                    966:                                        case cs_big5hkscs:
                    967:                                        case cs_sjis:
                    968:                                        case cs_eucjp:
                    969:                                                /* we cannot properly handle those multibyte encodings
                    970:                                                 * with php_str_to_str. skip it. */ 
                    971:                                                continue;
                    972: 
                    973:                                        case cs_utf_8:
                    974:                                                replacement_len = php_utf32_utf8(replacement, k);
                    975:                                                break;
                    976: 
                    977:                                        default:
                    978:                                                php_error_docref(NULL TSRMLS_CC, E_WARNING, "cannot yet handle MBCS!");
                    979:                                                efree(ret);
                    980:                                                return NULL;
                    981:                                }
                    982: 
                    983:                                if (php_memnstr(ret, entity, entity_length, ret+retlen)) {
                    984:                                        replaced = php_str_to_str(ret, retlen, entity, entity_length, replacement, replacement_len, &retlen);
                    985:                                        efree(ret);
                    986:                                        ret = replaced;
                    987:                                }
                    988:                        }
                    989:                }
                    990:        }
                    991: 
                    992:        for (j = 0; basic_entities[j].charcode != 0; j++) {
                    993: 
                    994:                if (basic_entities[j].flags && (quote_style & basic_entities[j].flags) == 0)
                    995:                        continue;
                    996:                
                    997:                replacement[0] = (unsigned char)basic_entities[j].charcode;
                    998:                replacement[1] = '\0';
                    999: 
                   1000:                if (php_memnstr(ret, basic_entities[j].entity, basic_entities[j].entitylen, ret+retlen)) {              
                   1001:                        replaced = php_str_to_str(ret, retlen, basic_entities[j].entity, basic_entities[j].entitylen, replacement, 1, &retlen);
                   1002:                        efree(ret);
                   1003:                        ret = replaced;
                   1004:                }
                   1005:        }
                   1006: 
                   1007:        /* replace numeric entities & "&amp;" */
                   1008:        lim = ret + retlen;
                   1009:        for (p = ret, q = ret; p < lim;) {
                   1010:                int code;
                   1011: 
                   1012:                if (p[0] == '&') {
                   1013:                        if (p + 2 < lim) {
                   1014:                                if (p[1] == '#') {
                   1015:                                        int invalid_code = 0;
                   1016: 
                   1017:                                        if (p[2] == 'x' || p[2] == 'X') {
                   1018:                                                code = strtol(p + 3, &next, 16);
                   1019:                                        } else {
                   1020:                                                code = strtol(p + 2, &next, 10);
                   1021:                                        }
                   1022: 
                   1023:                                        if ((code == '\'' && !(quote_style & ENT_HTML_QUOTE_SINGLE)) ||
                   1024:                                                (code == '"' && !(quote_style & ENT_HTML_QUOTE_DOUBLE))) {
                   1025:                                                invalid_code = 1;
                   1026:                                        }
                   1027: 
                   1028:                                        if (next != NULL && *next == ';' && !invalid_code) {
                   1029:                                                switch (charset) {
                   1030:                                                        case cs_utf_8:
                   1031:                                                                q += php_utf32_utf8(q, code);
                   1032:                                                                break;
                   1033: 
                   1034:                                                        case cs_8859_1:
                   1035:                                                        case cs_8859_5:
                   1036:                                                        case cs_8859_15:
                   1037:                                                                if ((code >= 0x80 && code < 0xa0) || code > 0xff) {
                   1038:                                                                        invalid_code = 1;
                   1039:                                                                } else {
                   1040:                                                                        *(q++) = code;
                   1041:                                                                }
                   1042:                                                                break;
                   1043: 
                   1044:                                                        case cs_cp1252:
                   1045:                                                                if (code > 0xff) {
                   1046:                                                                        invalid_code = 1;
                   1047:                                                                } else {
                   1048:                                                                        *(q++) = code;
                   1049:                                                                }
                   1050:                                                                break;
                   1051: 
                   1052:                                                        case cs_cp1251:
                   1053:                                                        case cs_cp866:
                   1054:                                                        case cs_big5:
                   1055:                                                        case cs_big5hkscs:
                   1056:                                                        case cs_sjis:
                   1057:                                                        case cs_eucjp:
                   1058:                                                                if (code >= 0x80) {
                   1059:                                                                        invalid_code = 1;
                   1060:                                                                } else {
                   1061:                                                                        *(q++) = code;
                   1062:                                                                }
                   1063:                                                                break;
                   1064: 
                   1065:                                                        case cs_gb2312:
                   1066:                                                                if (code >= 0x81) {
                   1067:                                                                        invalid_code = 1;
                   1068:                                                                } else {
                   1069:                                                                        *(q++) = code;
                   1070:                                                                }
                   1071:                                                                break;
                   1072: 
                   1073:                                                        default:
                   1074:                                                                /* for backwards compatilibity */
                   1075:                                                                invalid_code = 1;
                   1076:                                                                break;
                   1077:                                                }
                   1078:                                                if (invalid_code) {
                   1079:                                                        for (; p <= next; p++) {
                   1080:                                                                *(q++) = *p;
                   1081:                                                        }
                   1082:                                                }
                   1083:                                                p = next + 1;
                   1084:                                        } else {
                   1085:                                                *(q++) = *(p++);        
                   1086:                                                *(q++) = *(p++);        
                   1087:                                        }
                   1088:                                } else if (p + 4 < lim &&
                   1089:                                                        p[1] == 'a' && p[2] == 'm' &&p[3] == 'p' &&
                   1090:                                                        p[4] == ';') {
                   1091:                                        *(q++) = '&';
                   1092:                                        p += 5;
                   1093:                                } else {
                   1094:                                        *(q++) = *(p++);
                   1095:                                        *(q++) = *(p++);
                   1096:                                }
                   1097:                        } else {
                   1098:                                *(q++) = *(p++);        
                   1099:                        }
                   1100:                } else {
                   1101:                        *(q++) = *(p++);        
                   1102:                }
                   1103:        }
                   1104:        *q = '\0';
                   1105:        retlen = (size_t)(q - ret);
                   1106: empty_source:  
                   1107:        *newlen = retlen;
                   1108:        return ret;
                   1109: }
                   1110: /* }}} */
                   1111: 
                   1112: PHPAPI char *php_escape_html_entities(unsigned char *old, int oldlen, int *newlen, int all, int quote_style, char *hint_charset TSRMLS_DC)
                   1113: {
                   1114:        return php_escape_html_entities_ex(old, oldlen, newlen, all, quote_style, hint_charset, 1 TSRMLS_CC);
                   1115: }
                   1116: 
                   1117: 
                   1118: /* {{{ php_escape_html_entities
                   1119:  */
                   1120: PHPAPI char *php_escape_html_entities_ex(unsigned char *old, int oldlen, int *newlen, int all, int quote_style, char *hint_charset, zend_bool double_encode TSRMLS_DC)
                   1121: {
                   1122:        int i, j, maxlen, len;
                   1123:        char *replaced;
                   1124:        enum entity_charset charset = determine_charset(hint_charset TSRMLS_CC);
                   1125:        int matches_map;
                   1126: 
                   1127:        maxlen = 2 * oldlen;
                   1128:        if (maxlen < 128)
                   1129:                maxlen = 128;
                   1130:        replaced = emalloc (maxlen);
                   1131:        len = 0;
                   1132:        i = 0;
                   1133:        while (i < oldlen) {
                   1134:                unsigned char mbsequence[16];   /* allow up to 15 characters in a multibyte sequence */
                   1135:                int mbseqlen = sizeof(mbsequence);
                   1136:                int status = SUCCESS;
                   1137:                unsigned int this_char = get_next_char(charset, old, oldlen, &i, mbsequence, &mbseqlen, &status);
                   1138: 
                   1139:                if(status == FAILURE) {
                   1140:                        /* invalid MB sequence */
                   1141:                        if (quote_style & ENT_HTML_IGNORE_ERRORS) {
                   1142:                                continue;
                   1143:                        }
                   1144:                        efree(replaced);
                   1145:                        if(!PG(display_errors)) {
                   1146:                                php_error_docref(NULL TSRMLS_CC, E_WARNING, "Invalid multibyte sequence in argument");
                   1147:                        }
                   1148:                        *newlen = 0;
                   1149:                        return STR_EMPTY_ALLOC();
                   1150:                }
                   1151:                matches_map = 0;
                   1152: 
                   1153:                if (len + 16 > maxlen)
                   1154:                        replaced = erealloc (replaced, maxlen += 128);
                   1155: 
                   1156:                if (all) {
                   1157:                        /* look for a match in the maps for this charset */
                   1158:                        unsigned char *rep = NULL;
                   1159: 
                   1160: 
                   1161:                        for (j = 0; entity_map[j].charset != cs_terminator; j++) {
                   1162:                                if (entity_map[j].charset == charset
                   1163:                                                && this_char >= entity_map[j].basechar
                   1164:                                                && this_char <= entity_map[j].endchar) {
                   1165:                                        rep = (unsigned char*)entity_map[j].table[this_char - entity_map[j].basechar];
                   1166:                                        if (rep == NULL) {
                   1167:                                                /* there is no entity for this position; fall through and
                   1168:                                                 * just output the character itself */
                   1169:                                                break;
                   1170:                                        }
                   1171: 
                   1172:                                        matches_map = 1;
                   1173:                                        break;
                   1174:                                }
                   1175:                        }
                   1176: 
                   1177:                        if (matches_map) {
                   1178:                                int l = strlen(rep);
                   1179:                                /* increase the buffer size */
                   1180:                                if (len + 2 + l >= maxlen) {
                   1181:                                        replaced = erealloc(replaced, maxlen += 128);
                   1182:                                }
                   1183: 
                   1184:                                replaced[len++] = '&';
                   1185:                                strlcpy(replaced + len, rep, maxlen);
                   1186:                                len += l;
                   1187:                                replaced[len++] = ';';
                   1188:                        }
                   1189:                }
                   1190:                if (!matches_map) {     
                   1191:                        int is_basic = 0;
                   1192: 
                   1193:                        if (this_char == '&') {
                   1194:                                if (double_encode) {
                   1195: encode_amp:
                   1196:                                        memcpy(replaced + len, "&amp;", sizeof("&amp;") - 1);
                   1197:                                        len += sizeof("&amp;") - 1;
                   1198:                                } else {
                   1199:                                        char *e = memchr(old + i, ';', oldlen - i);
                   1200:                                        char *s = old + i;
                   1201: 
                   1202:                                        if (!e || (e - s) > 10) { /* minor optimization to avoid "entities" over 10 chars in length */
                   1203:                                                goto encode_amp;
                   1204:                                        } else {
                   1205:                                                if (*s == '#') { /* numeric entities */
                   1206:                                                        s++;
                   1207:                                                        /* Hex (&#x5A;) */
                   1208:                                                        if (*s == 'x' || *s == 'X') {
                   1209:                                                                s++;
                   1210:                                                                while (s < e) {
                   1211:                                                                        if (!isxdigit((int)*(unsigned char *)s++)) {
                   1212:                                                                                goto encode_amp;
                   1213:                                                                        }
                   1214:                                                                }
                   1215:                                                        /* Dec (&#90;)*/
                   1216:                                                        } else {
                   1217:                                                                while (s < e) {
                   1218:                                                                        if (!isdigit((int)*(unsigned char *)s++)) {
                   1219:                                                                                goto encode_amp;
                   1220:                                                                        }
                   1221:                                                                }
                   1222:                                                        }
                   1223:                                                } else { /* text entities */
                   1224:                                                        while (s < e) {
                   1225:                                                                if (!isalnum((int)*(unsigned char *)s++)) {
                   1226:                                                                        goto encode_amp;
                   1227:                                                                }
                   1228:                                                        }
                   1229:                                                }
                   1230:                                                replaced[len++] = '&';
                   1231:                                        }
                   1232:                                }
                   1233:                                is_basic = 1;
                   1234:                        } else {
                   1235:                                for (j = 0; basic_entities[j].charcode != 0; j++) {
                   1236:                                        if ((basic_entities[j].charcode != this_char) ||
                   1237:                                                        (basic_entities[j].flags &&
                   1238:                                                        (quote_style & basic_entities[j].flags) == 0)) {
                   1239:                                                continue;
                   1240:                                        }
                   1241: 
                   1242:                                        memcpy(replaced + len, basic_entities[j].entity, basic_entities[j].entitylen);
                   1243:                                        len += basic_entities[j].entitylen;
                   1244:                
                   1245:                                        is_basic = 1;
                   1246:                                        break;
                   1247:                                }
                   1248:                        }
                   1249: 
                   1250:                        if (!is_basic) {
                   1251:                                /* a wide char without a named entity; pass through the original sequence */
                   1252:                                if (mbseqlen > 1) {
                   1253:                                        memcpy(replaced + len, mbsequence, mbseqlen);
                   1254:                                        len += mbseqlen;
                   1255:                                } else {
                   1256:                                        replaced[len++] = (unsigned char)this_char;
                   1257:                                }
                   1258:                        }
                   1259:                }
                   1260:        }
                   1261:        replaced[len] = '\0';
                   1262:        *newlen = len;
                   1263: 
                   1264:        return replaced;
                   1265: 
                   1266: 
                   1267: }
                   1268: /* }}} */
                   1269: 
                   1270: /* {{{ php_html_entities
                   1271:  */
                   1272: static void php_html_entities(INTERNAL_FUNCTION_PARAMETERS, int all)
                   1273: {
                   1274:        char *str, *hint_charset = NULL;
                   1275:        int str_len, hint_charset_len = 0;
                   1276:        int len;
                   1277:        long quote_style = ENT_COMPAT;
                   1278:        char *replaced;
                   1279:        zend_bool double_encode = 1;
                   1280: 
                   1281:        if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "s|ls!b", &str, &str_len, &quote_style, &hint_charset, &hint_charset_len, &double_encode) == FAILURE) {
                   1282:                return;
                   1283:        }
                   1284: 
                   1285:        replaced = php_escape_html_entities_ex(str, str_len, &len, all, quote_style, hint_charset, double_encode TSRMLS_CC);
                   1286:        RETVAL_STRINGL(replaced, len, 0);
                   1287: }
                   1288: /* }}} */
                   1289: 
                   1290: #define HTML_SPECIALCHARS      0
                   1291: #define HTML_ENTITIES          1
                   1292: 
                   1293: /* {{{ register_html_constants
                   1294:  */
                   1295: void register_html_constants(INIT_FUNC_ARGS)
                   1296: {
                   1297:        REGISTER_LONG_CONSTANT("HTML_SPECIALCHARS", HTML_SPECIALCHARS, CONST_PERSISTENT|CONST_CS);
                   1298:        REGISTER_LONG_CONSTANT("HTML_ENTITIES", HTML_ENTITIES, CONST_PERSISTENT|CONST_CS);
                   1299:        REGISTER_LONG_CONSTANT("ENT_COMPAT", ENT_COMPAT, CONST_PERSISTENT|CONST_CS);
                   1300:        REGISTER_LONG_CONSTANT("ENT_QUOTES", ENT_QUOTES, CONST_PERSISTENT|CONST_CS);
                   1301:        REGISTER_LONG_CONSTANT("ENT_NOQUOTES", ENT_NOQUOTES, CONST_PERSISTENT|CONST_CS);
                   1302:        REGISTER_LONG_CONSTANT("ENT_IGNORE", ENT_IGNORE, CONST_PERSISTENT|CONST_CS);
                   1303: }
                   1304: /* }}} */
                   1305: 
                   1306: /* {{{ proto string htmlspecialchars(string string [, int quote_style[, string charset[, bool double_encode]]])
                   1307:    Convert special characters to HTML entities */
                   1308: PHP_FUNCTION(htmlspecialchars)
                   1309: {
                   1310:        php_html_entities(INTERNAL_FUNCTION_PARAM_PASSTHRU, 0);
                   1311: }
                   1312: /* }}} */
                   1313: 
                   1314: /* {{{ proto string htmlspecialchars_decode(string string [, int quote_style])
                   1315:    Convert special HTML entities back to characters */
                   1316: PHP_FUNCTION(htmlspecialchars_decode)
                   1317: {
                   1318:        char *str, *new_str, *e, *p;
                   1319:        int len, j, i, new_len;
                   1320:        long quote_style = ENT_COMPAT;
                   1321:        struct basic_entities_dec basic_entities_dec[8];
                   1322: 
                   1323:        if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "s|l", &str, &len, &quote_style) == FAILURE) {
                   1324:                return;
                   1325:        }
                   1326: 
                   1327:        new_str = estrndup(str, len);
                   1328:        new_len = len;
                   1329:        e = new_str + new_len;
                   1330: 
                   1331:        if (!(p = memchr(new_str, '&', new_len))) {
                   1332:                RETURN_STRINGL(new_str, new_len, 0);
                   1333:        }
                   1334: 
                   1335:        for (j = 0, i = 0; basic_entities[i].charcode != 0; i++) {
                   1336:                if (basic_entities[i].flags && !(quote_style & basic_entities[i].flags)) {
                   1337:                        continue;
                   1338:                }
                   1339:                basic_entities_dec[j].charcode = basic_entities[i].charcode;
                   1340:                memcpy(basic_entities_dec[j].entity, basic_entities[i].entity, basic_entities[i].entitylen + 1);
                   1341:                basic_entities_dec[j].entitylen = basic_entities[i].entitylen;
                   1342:                j++;
                   1343:        }
                   1344:        basic_entities_dec[j].charcode = '&';
                   1345:        basic_entities_dec[j].entitylen = sizeof("&amp;") - 1;
                   1346:        memcpy(basic_entities_dec[j].entity, "&amp;", sizeof("&amp;"));
                   1347:        i = j + 1;
                   1348:        
                   1349:        do {
                   1350:                int l = e - p;
                   1351:        
                   1352:                for (j = 0; j < i; j++) {
                   1353:                        if (basic_entities_dec[j].entitylen > l) {
                   1354:                                continue;
                   1355:                        }
                   1356:                        if (!memcmp(p, basic_entities_dec[j].entity, basic_entities_dec[j].entitylen)) {
                   1357:                                int e_len = basic_entities_dec[j].entitylen - 1;
                   1358:                
                   1359:                                *p++ = basic_entities_dec[j].charcode;
                   1360:                                memmove(p, p + e_len, (e - p - e_len));
                   1361:                                e -= e_len;
                   1362:                                goto done;
                   1363:                        }
                   1364:                }
                   1365:                p++;
                   1366: 
                   1367: done:
                   1368:                if (p >= e) {
                   1369:                        break;
                   1370:                }
                   1371:        } while ((p = memchr(p, '&', (e - p))));
                   1372: 
                   1373:        new_len = e - new_str;
                   1374: 
                   1375:        new_str[new_len] = '\0';
                   1376:        RETURN_STRINGL(new_str, new_len, 0);
                   1377: }
                   1378: /* }}} */
                   1379: 
                   1380: /* {{{ proto string html_entity_decode(string string [, int quote_style][, string charset])
                   1381:    Convert all HTML entities to their applicable characters */
                   1382: PHP_FUNCTION(html_entity_decode)
                   1383: {
                   1384:        char *str, *hint_charset = NULL;
                   1385:        int str_len, hint_charset_len = 0, len;
                   1386:        long quote_style = ENT_COMPAT;
                   1387:        char *replaced;
                   1388: 
                   1389:        if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "s|ls", &str, &str_len,
                   1390:                                                          &quote_style, &hint_charset, &hint_charset_len) == FAILURE) {
                   1391:                return;
                   1392:        }
                   1393: 
                   1394:        replaced = php_unescape_html_entities(str, str_len, &len, 1, quote_style, hint_charset TSRMLS_CC);
                   1395:        if (replaced) {
                   1396:                RETURN_STRINGL(replaced, len, 0);
                   1397:        }
                   1398:        RETURN_FALSE;
                   1399: }
                   1400: /* }}} */
                   1401: 
                   1402: 
                   1403: /* {{{ proto string htmlentities(string string [, int quote_style[, string charset[, bool double_encode]]])
                   1404:    Convert all applicable characters to HTML entities */
                   1405: PHP_FUNCTION(htmlentities)
                   1406: {
                   1407:        php_html_entities(INTERNAL_FUNCTION_PARAM_PASSTHRU, 1);
                   1408: }
                   1409: /* }}} */
                   1410: 
                   1411: /* {{{ proto array get_html_translation_table([int table [, int quote_style [, string charset_hint]]])
                   1412:    Returns the internal translation table used by htmlspecialchars and htmlentities */
                   1413: PHP_FUNCTION(get_html_translation_table)
                   1414: {
                   1415:        long which = HTML_SPECIALCHARS, quote_style = ENT_COMPAT;
                   1416:        unsigned int i;
                   1417:        int j;
                   1418:        unsigned char ind[5]; /* max # of 8-bit code units (4; for UTF-8) + 1 for \0 */
                   1419:        void *dummy;
                   1420:        char *charset_hint = NULL;
                   1421:        int charset_hint_len;
                   1422:        enum entity_charset charset;
                   1423: 
                   1424:        if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "|lls",
                   1425:                        &which, &quote_style, &charset_hint, &charset_hint_len) == FAILURE) {
                   1426:                return;
                   1427:        }
                   1428: 
                   1429:        charset = determine_charset(charset_hint TSRMLS_CC);
                   1430: 
                   1431:        array_init(return_value);
                   1432: 
                   1433:        switch (which) {
                   1434:        case HTML_ENTITIES:
                   1435:                for (j = 0; entity_map[j].charset != cs_terminator; j++) {
                   1436:                        if (entity_map[j].charset != charset)
                   1437:                                continue;
                   1438:                        for (i = 0; i <= entity_map[j].endchar - entity_map[j].basechar; i++) {
                   1439:                                char buffer[16];
                   1440:                                unsigned k;
                   1441:                                size_t written;
                   1442: 
                   1443:                                if (entity_map[j].table[i] == NULL)
                   1444:                                        continue;
                   1445:                                        
                   1446:                                k = i + entity_map[j].basechar;
                   1447: 
                   1448:                                switch (charset) {
                   1449:                                case cs_utf_8:
                   1450:                                        written = php_utf32_utf8(ind, k);
                   1451:                                        ind[written] = '\0';
                   1452:                                        break;
                   1453:                                case cs_big5:
                   1454:                                case cs_gb2312:
                   1455:                                case cs_big5hkscs:
                   1456:                                case cs_sjis:
                   1457:                                        /* we have no mappings for these, but if we had... */
                   1458:                                        /* break through */
                   1459:                                default: /* one byte */
                   1460:                                        written = 1;
                   1461:                                        ind[0] = (unsigned char)k;
                   1462:                                        ind[1] = '\0';
                   1463:                                        break;
                   1464:                                }
                   1465: 
                   1466:                                snprintf(buffer, sizeof(buffer), "&%s;", entity_map[j].table[i]);
                   1467:                                if (zend_hash_find(Z_ARRVAL_P(return_value), (const char*)ind, written+1, &dummy) == FAILURE) {
                   1468:                                        /* in case of the single quote, which is repeated, the first one wins,
                   1469:                                                * so don't replace the existint mapping */
                   1470:                                        add_assoc_string(return_value, (const char*)ind, buffer, 1);
                   1471:                                }
                   1472:                        }
                   1473:                }
                   1474:                /* break thru */
                   1475: 
                   1476:        case HTML_SPECIALCHARS:
                   1477:                add_assoc_stringl(return_value, "&", "&amp;", sizeof("&amp;") - 1, 1);
                   1478:                for (j = 0; basic_entities[j].charcode != 0; j++) {
                   1479:                        if (basic_entities[j].flags && (quote_style & basic_entities[j].flags) == 0)
                   1480:                                continue;
                   1481:                                
                   1482:                        ind[0] = (unsigned char)basic_entities[j].charcode;
                   1483:                        ind[1] = '\0';
                   1484:                        if (zend_hash_find(Z_ARRVAL_P(return_value), (const char*)ind, 2, &dummy) == FAILURE) {
                   1485:                                add_assoc_stringl(return_value, ind, basic_entities[j].entity,
                   1486:                                        basic_entities[j].entitylen, 1);
                   1487:                        }
                   1488:                }
                   1489: 
                   1490:                break;
                   1491:        }
                   1492: }
                   1493: /* }}} */
                   1494: 
                   1495: /*
                   1496:  * Local variables:
                   1497:  * tab-width: 4
                   1498:  * c-basic-offset: 4
                   1499:  * End:
                   1500:  * vim600: sw=4 ts=4 fdm=marker
                   1501:  * vim<600: sw=4 ts=4
                   1502:  */

FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>