Annotation of embedaddon/rsync/patches/md5p8.diff, revision 1.1.1.1

1.1       misho       1: From: Jorrit Jongma <git@jongma.org>
                      2: 
                      3: - MD5 optimization in block matching phase:
                      4: 
                      5: MD5 hashes computed during rsync's block matching phase are independent
                      6: and thus possible to process in parallel. This code processes 4 blocks
                      7: in parallel if SSE2 is available, or 8 if AVX2 is available. An increase
                      8: of performance (or decrease of CPU usage) of up to 6x has been measured.
                      9: 
                     10: A prefetching algorithm is used to predict and load upcoming blocks, as
                     11: this prevents the need for extensive modifications to other parts of
                     12: the rsync sources to get this working.
                     13: 
                     14: This remains compatible with existing rsync builds using MD5 checksums.
                     15: 
                     16: - MD5P8 whole-file checksum:
                     17: 
                     18: Splits the input up into 8 independent streams (64-byte interleave), and
                     19: produces a final checksum based on the end state of those 8 streams. If
                     20: parallelization of MD5 hashing is available, the performance gain (or
                     21: CPU usage decrease) is 2x to 6x compared to traditional MD5.
                     22: 
                     23: The rsync version on both ends of the connection need MD5P8 support
                     24: built-in for it to be used.
                     25: 
                     26: xxHash is still preferred (and faster), but this provides a reasonably
                     27: fast fallback for the case where xxHash libraries are not available at
                     28: build time.
                     29: 
                     30: based-on: e94bad1c156fc3910f24e2b3b71a81b0b0bdeb70
                     31: diff --git a/Makefile.in b/Makefile.in
                     32: --- a/Makefile.in
                     33: +++ b/Makefile.in
                     34: @@ -29,14 +29,14 @@ SHELL=/bin/sh
                     35:  .SUFFIXES:
                     36:  .SUFFIXES: .c .o
                     37:  
                     38: -SIMD_x86_64=simd-checksum-x86_64.o
                     39: +SIMD_x86_64=simd-checksum-x86_64.o simd-md5-parallel-x86_64.o
                     40:  ASM_x86_64=lib/md5-asm-x86_64.o
                     41:  
                     42:  GENFILES=configure.sh aclocal.m4 config.h.in rsync.1 rsync.1.html \
                     43:         rsync-ssl.1 rsync-ssl.1.html rsyncd.conf.5 rsyncd.conf.5.html
                     44:  HEADERS=byteorder.h config.h errcode.h proto.h rsync.h ifuncs.h itypes.h inums.h \
                     45:        lib/pool_alloc.h lib/mdigest.h lib/md-defines.h version.h
                     46: -LIBOBJ=lib/wildmatch.o lib/compat.o lib/snprintf.o lib/mdfour.o lib/md5.o \
                     47: +LIBOBJ=lib/wildmatch.o lib/compat.o lib/snprintf.o lib/mdfour.o lib/md5.o lib/md5p8.o \
                     48:        lib/permstring.o lib/pool_alloc.o lib/sysacls.o lib/sysxattrs.o @LIBOBJS@
                     49:  zlib_OBJS=zlib/deflate.o zlib/inffast.o zlib/inflate.o zlib/inftrees.o \
                     50:        zlib/trees.o zlib/zutil.o zlib/adler32.o zlib/compress.o zlib/crc32.o
                     51: @@ -140,6 +140,9 @@ git-version.h: mkgitver $(wildcard $(srcdir)/.git/logs/HEAD)
                     52:  simd-checksum-x86_64.o: simd-checksum-x86_64.cpp
                     53:        @$(srcdir)/cmdormsg disable-simd $(CXX) -I. $(CXXFLAGS) $(CPPFLAGS) -c -o $@ $(srcdir)/simd-checksum-x86_64.cpp
                     54:  
                     55: +simd-md5-parallel-x86_64.o: simd-md5-parallel-x86_64.cpp
                     56: +      @$(srcdir)/cmdormsg disable-simd $(CXX) -I. $(CXXFLAGS) $(CPPFLAGS) -c -o $@ $(srcdir)/simd-md5-parallel-x86_64.cpp
                     57: +
                     58:  lib/md5-asm-x86_64.o: lib/md5-asm-x86_64.S config.h lib/md-defines.h
                     59:        @$(srcdir)/cmdormsg disable-asm $(CC) -I. @NOEXECSTACK@ -c -o $@ $(srcdir)/lib/md5-asm-x86_64.S
                     60:  
                     61: diff --git a/checksum.c b/checksum.c
                     62: --- a/checksum.c
                     63: +++ b/checksum.c
                     64: @@ -52,6 +52,7 @@ struct name_num_obj valid_checksums = {
                     65:                { CSUM_XXH64, "xxh64", NULL },
                     66:                { CSUM_XXH64, "xxhash", NULL },
                     67:  #endif
                     68: +              { CSUM_MD5P8, "md5p8", NULL },
                     69:                { CSUM_MD5, "md5", NULL },
                     70:                { CSUM_MD4, "md4", NULL },
                     71:                { CSUM_NONE, "none", NULL },
                     72: @@ -141,6 +142,7 @@ int csum_len_for_type(int cst, BOOL flist_csum)
                     73:          case CSUM_MD4_OLD:
                     74:          case CSUM_MD4_BUSTED:
                     75:                return MD4_DIGEST_LEN;
                     76: +        case CSUM_MD5P8:
                     77:          case CSUM_MD5:
                     78:                return MD5_DIGEST_LEN;
                     79:          case CSUM_XXH64:
                     80: @@ -167,6 +169,7 @@ int canonical_checksum(int csum_type)
                     81:          case CSUM_MD4_BUSTED:
                     82:                break;
                     83:          case CSUM_MD4:
                     84: +        case CSUM_MD5P8:
                     85:          case CSUM_MD5:
                     86:                return -1;
                     87:          case CSUM_XXH64:
                     88: @@ -179,7 +182,9 @@ int canonical_checksum(int csum_type)
                     89:        return 0;
                     90:  }
                     91:  
                     92: -#ifndef HAVE_SIMD /* See simd-checksum-*.cpp. */
                     93: +#ifdef HAVE_SIMD /* See simd-checksum-*.cpp. */
                     94: +#define get_checksum2 get_checksum2_nosimd
                     95: +#else
                     96:  /*
                     97:    a simple 32 bit checksum that can be updated from either end
                     98:    (inspired by Mark Adler's Adler-32 checksum)
                     99: @@ -200,9 +205,18 @@ uint32 get_checksum1(char *buf1, int32 len)
                    100:        }
                    101:        return (s1 & 0xffff) + (s2 << 16);
                    102:  }
                    103: +
                    104: +void checksum2_enable_prefetch(UNUSED(struct map_struct *map), UNUSED(OFF_T len), UNUSED(int32 blocklen))
                    105: +{
                    106: +}
                    107: +
                    108: +void checksum2_disable_prefetch()
                    109: +{
                    110: +}
                    111:  #endif
                    112:  
                    113: -void get_checksum2(char *buf, int32 len, char *sum)
                    114: +/* Renamed to get_checksum2_nosimd() with HAVE_SIMD */
                    115: +void get_checksum2(char *buf, int32 len, char *sum, UNUSED(OFF_T prefetch_offset))
                    116:  {
                    117:        switch (xfersum_type) {
                    118:  #ifdef SUPPORT_XXHASH
                    119: @@ -221,6 +235,7 @@ void get_checksum2(char *buf, int32 len, char *sum)
                    120:                break;
                    121:          }
                    122:  #endif
                    123: +        case CSUM_MD5P8:  /* == CSUM_MD5 for checksum2 */
                    124:          case CSUM_MD5: {
                    125:                MD5_CTX m5;
                    126:                uchar seedbuf[4];
                    127: @@ -373,6 +388,21 @@ void file_checksum(const char *fname, const STRUCT_STAT *st_p, char *sum)
                    128:                break;
                    129:          }
                    130:  #endif
                    131: +        case CSUM_MD5P8: {
                    132: +              MD5P8_CTX m5p8;
                    133: +
                    134: +              MD5P8_Init(&m5p8);
                    135: +
                    136: +              for (i = 0; i + CHUNK_SIZE <= len; i += CHUNK_SIZE)
                    137: +                      MD5P8_Update(&m5p8, (uchar *)map_ptr(buf, i, CHUNK_SIZE), CHUNK_SIZE);
                    138: +
                    139: +              remainder = (int32)(len - i);
                    140: +              if (remainder > 0)
                    141: +                      MD5P8_Update(&m5p8, (uchar *)map_ptr(buf, i, remainder), remainder);
                    142: +
                    143: +              MD5P8_Final((uchar *)sum, &m5p8);
                    144: +              break;
                    145: +        }
                    146:          case CSUM_MD5: {
                    147:                MD5_CTX m5;
                    148:  
                    149: @@ -445,6 +475,7 @@ static union {
                    150:  #endif
                    151:        MD5_CTX m5;
                    152:  } ctx;
                    153: +static MD5P8_CTX m5p8;
                    154:  #ifdef SUPPORT_XXHASH
                    155:  static XXH64_state_t* xxh64_state;
                    156:  #endif
                    157: @@ -481,6 +512,9 @@ void sum_init(int csum_type, int seed)
                    158:                XXH3_128bits_reset(xxh3_state);
                    159:                break;
                    160:  #endif
                    161: +        case CSUM_MD5P8:
                    162: +              MD5P8_Init(&m5p8);
                    163: +              break;
                    164:          case CSUM_MD5:
                    165:                MD5_Init(&ctx.m5);
                    166:                break;
                    167: @@ -531,6 +565,9 @@ void sum_update(const char *p, int32 len)
                    168:                XXH3_128bits_update(xxh3_state, p, len);
                    169:                break;
                    170:  #endif
                    171: +        case CSUM_MD5P8:
                    172: +              MD5P8_Update(&m5p8, (uchar *)p, len);
                    173: +              break;
                    174:          case CSUM_MD5:
                    175:                MD5_Update(&ctx.m5, (uchar *)p, len);
                    176:                break;
                    177: @@ -596,6 +633,9 @@ int sum_end(char *sum)
                    178:                break;
                    179:          }
                    180:  #endif
                    181: +        case CSUM_MD5P8:
                    182: +              MD5P8_Final((uchar *)sum, &m5p8);
                    183: +              break;
                    184:          case CSUM_MD5:
                    185:                MD5_Final((uchar *)sum, &ctx.m5);
                    186:                break;
                    187: diff --git a/generator.c b/generator.c
                    188: --- a/generator.c
                    189: +++ b/generator.c
                    190: @@ -729,10 +729,12 @@ static int generate_and_send_sums(int fd, OFF_T len, int f_out, int f_copy)
                    191:        if (append_mode > 0 && f_copy < 0)
                    192:                return 0;
                    193:  
                    194: -      if (len > 0)
                    195: +      if (len > 0) {
                    196:                mapbuf = map_file(fd, len, MAX_MAP_SIZE, sum.blength);
                    197: -      else
                    198: +              checksum2_enable_prefetch(mapbuf, len, sum.blength);
                    199: +      } else {
                    200:                mapbuf = NULL;
                    201: +      }
                    202:  
                    203:        for (i = 0; i < sum.count; i++) {
                    204:                int32 n1 = (int32)MIN(len, (OFF_T)sum.blength);
                    205: @@ -750,7 +752,7 @@ static int generate_and_send_sums(int fd, OFF_T len, int f_out, int f_copy)
                    206:                }
                    207:  
                    208:                sum1 = get_checksum1(map, n1);
                    209: -              get_checksum2(map, n1, sum2);
                    210: +              get_checksum2(map, n1, sum2, offset - n1);
                    211:  
                    212:                if (DEBUG_GTE(DELTASUM, 3)) {
                    213:                        rprintf(FINFO,
                    214: @@ -762,8 +764,10 @@ static int generate_and_send_sums(int fd, OFF_T len, int f_out, int f_copy)
                    215:                write_buf(f_out, sum2, sum.s2length);
                    216:        }
                    217:  
                    218: -      if (mapbuf)
                    219: +      if (mapbuf) {
                    220:                unmap_file(mapbuf);
                    221: +              checksum2_disable_prefetch();
                    222: +      }
                    223:  
                    224:        return 0;
                    225:  }
                    226: diff --git a/lib/md-defines.h b/lib/md-defines.h
                    227: --- a/lib/md-defines.h
                    228: +++ b/lib/md-defines.h
                    229: @@ -15,3 +15,4 @@
                    230:  #define CSUM_XXH64 6
                    231:  #define CSUM_XXH3_64 7
                    232:  #define CSUM_XXH3_128 8
                    233: +#define CSUM_MD5P8 9
                    234: diff --git a/lib/md5p8.c b/lib/md5p8.c
                    235: new file mode 100644
                    236: --- /dev/null
                    237: +++ b/lib/md5p8.c
                    238: @@ -0,0 +1,128 @@
                    239: +/*
                    240: + * MD5-based hash friendly to parallel processing, reference implementation
                    241: + *
                    242: + * Author: Jorrit Jongma, 2020
                    243: + *
                    244: + * Released in the public domain falling back to the MIT license
                    245: + * ( http://www.opensource.org/licenses/MIT ) in case public domain does not
                    246: + * apply in your country.
                    247: + */
                    248: +/*
                    249: + * MD5P8 is an MD5-based hash friendly to parallel processing. The input
                    250: + * stream is divided into 8 independent streams. For each 512 bytes of input,
                    251: + * the first 64 bytes are send to the first stream, the second 64 bytes to
                    252: + * the second stream, etc. The input stream is padded with zeros to the next
                    253: + * multiple of 512 bytes, then a normal MD5 hash is computed on a buffer
                    254: + * containing the A, B, C, and D states of the 8 individual streams, followed
                    255: + * by the (unpadded) length of the input.
                    256: + *
                    257: + * On non-SIMD accelerated CPUs the performance of MD5P8 is slightly lower
                    258: + * than normal MD5 (particularly on files smaller than 10 kB), but with
                    259: + * SIMD-based parallel processing it can be two to six times as fast. Even in
                    260: + * the best-case scenario, xxHash is still at least twice as fast and should
                    261: + * be preferred when available.
                    262: + */
                    263: +
                    264: +#include "rsync.h"
                    265: +
                    266: +#ifdef HAVE_SIMD
                    267: +#define MD5P8_Init MD5P8_Init_c
                    268: +#define MD5P8_Update MD5P8_Update_c
                    269: +#define MD5P8_Final MD5P8_Final_c
                    270: +#endif
                    271: +
                    272: +/* each MD5_CTX needs to be 8-byte aligned */
                    273: +#define MD5P8_Contexts_c(ctx, index) ((MD5_CTX*)((((uintptr_t)((ctx)->context_storage) + 7) & ~7) + (index)*((sizeof(MD5_CTX) + 7) & ~7)))
                    274: +
                    275: +void MD5P8_Init(MD5P8_CTX *ctx)
                    276: +{
                    277: +    int i;
                    278: +    for (i = 0; i < 8; i++) {
                    279: +        MD5_Init(MD5P8_Contexts_c(ctx, i));
                    280: +    }
                    281: +    ctx->used = 0;
                    282: +    ctx->next = 0;
                    283: +}
                    284: +
                    285: +void MD5P8_Update(MD5P8_CTX *ctx, const uchar *input, uint32 length)
                    286: +{
                    287: +    uint32 pos = 0;
                    288: +
                    289: +    if ((ctx->used) || (length < 64)) {
                    290: +        int cpy = MIN(length, 64 - ctx->used);
                    291: +        memmove(&ctx->buffer[ctx->used], input, cpy);
                    292: +        ctx->used += cpy;
                    293: +        length -= cpy;
                    294: +        pos += cpy;
                    295: +
                    296: +        if (ctx->used == 64) {
                    297: +            MD5_Update(MD5P8_Contexts_c(ctx, ctx->next), ctx->buffer, 64);
                    298: +            ctx->used = 0;
                    299: +            ctx->next = (ctx->next + 1) % 8;
                    300: +        }
                    301: +    }
                    302: +
                    303: +    while (length >= 64) {
                    304: +        MD5_Update(MD5P8_Contexts_c(ctx, ctx->next), &input[pos], 64);
                    305: +        ctx->next = (ctx->next + 1) % 8;
                    306: +        pos += 64;
                    307: +        length -= 64;
                    308: +    }
                    309: +
                    310: +    if (length) {
                    311: +        memcpy(ctx->buffer, &input[pos], length);
                    312: +        ctx->used = length;
                    313: +    }
                    314: +}
                    315: +
                    316: +void MD5P8_Final(uchar digest[MD5_DIGEST_LEN], MD5P8_CTX *ctx)
                    317: +{
                    318: +    int i;
                    319: +    uint32 low = 0, high = 0, sub = ctx->used ? 64 - ctx->used : 0;
                    320: +    if (ctx->used) {
                    321: +        uchar tmp[64];
                    322: +        memset(tmp, 0, 64);
                    323: +        MD5P8_Update(ctx, tmp, 64 - ctx->used);
                    324: +    }
                    325: +    memset(ctx->buffer, 0, 64);
                    326: +    while (ctx->next != 0) {
                    327: +        MD5P8_Update(ctx, ctx->buffer, 64);
                    328: +        sub += 64;
                    329: +    }
                    330: +
                    331: +    uchar state[34*4] = {0};
                    332: +
                    333: +    for (i = 0; i < 8; i++) {
                    334: +        MD5_CTX* md = MD5P8_Contexts_c(ctx, i);
                    335: +#ifdef USE_OPENSSL
                    336: +        if (low + md->Nl < low) high++;
                    337: +        low += md->Nl;
                    338: +        high += md->Nh;
                    339: +#else
                    340: +        if (low + md->totalN < low) high++;
                    341: +        low += md->totalN;
                    342: +        high += md->totalN2;
                    343: +#endif
                    344: +        SIVALu(state, i*16, md->A);
                    345: +        SIVALu(state, i*16 + 4, md->B);
                    346: +        SIVALu(state, i*16 + 8, md->C);
                    347: +        SIVALu(state, i*16 + 12, md->D);
                    348: +    }
                    349: +
                    350: +#ifndef USE_OPENSSL
                    351: +      high = (low >> 29) | (high << 3);
                    352: +      low = (low << 3);
                    353: +#endif
                    354: +
                    355: +    sub <<= 3;
                    356: +    if (low - sub > low) high--;
                    357: +    low -= sub;
                    358: +
                    359: +    SIVALu(state, 32*4, low);
                    360: +    SIVALu(state, 33*4, high);
                    361: +
                    362: +    MD5_CTX md;
                    363: +    MD5_Init(&md);
                    364: +    MD5_Update(&md, state, 34*4);
                    365: +    MD5_Final(digest, &md);
                    366: +}
                    367: diff --git a/lib/mdigest.h b/lib/mdigest.h
                    368: --- a/lib/mdigest.h
                    369: +++ b/lib/mdigest.h
                    370: @@ -27,3 +27,14 @@ void md5_begin(md_context *ctx);
                    371:  void md5_update(md_context *ctx, const uchar *input, uint32 length);
                    372:  void md5_result(md_context *ctx, uchar digest[MD5_DIGEST_LEN]);
                    373:  #endif
                    374: +
                    375: +typedef struct {
                    376: +    uchar context_storage[1024];
                    377: +    uchar buffer[512];
                    378: +    unsigned int used;
                    379: +    unsigned int next;
                    380: +} MD5P8_CTX;
                    381: +
                    382: +void MD5P8_Init(MD5P8_CTX *ctx);
                    383: +void MD5P8_Update(MD5P8_CTX *ctx, const uchar *input, uint32 length);
                    384: +void MD5P8_Final(uchar digest[MD5_DIGEST_LEN], MD5P8_CTX *ctx);
                    385: diff --git a/match.c b/match.c
                    386: --- a/match.c
                    387: +++ b/match.c
                    388: @@ -164,6 +164,8 @@ static void hash_search(int f,struct sum_struct *s,
                    389:        if (DEBUG_GTE(DELTASUM, 3))
                    390:                rprintf(FINFO, "sum=%.8x k=%ld\n", sum, (long)k);
                    391:  
                    392: +      checksum2_enable_prefetch(buf, len, s->blength);
                    393: +
                    394:        offset = aligned_offset = aligned_i = 0;
                    395:  
                    396:        end = len + 1 - s->sums[s->count-1].len;
                    397: @@ -226,7 +228,7 @@ static void hash_search(int f,struct sum_struct *s,
                    398:  
                    399:                        if (!done_csum2) {
                    400:                                map = (schar *)map_ptr(buf,offset,l);
                    401: -                              get_checksum2((char *)map,l,sum2);
                    402: +                              get_checksum2((char *)map, l, sum2, offset);
                    403:                                done_csum2 = 1;
                    404:                        }
                    405:  
                    406: @@ -268,7 +270,7 @@ static void hash_search(int f,struct sum_struct *s,
                    407:                                                sum = get_checksum1((char *)map, l);
                    408:                                                if (sum != s->sums[i].sum1)
                    409:                                                        goto check_want_i;
                    410: -                                              get_checksum2((char *)map, l, sum2);
                    411: +                                              get_checksum2((char *)map, l, sum2, aligned_offset);
                    412:                                                if (memcmp(sum2, s->sums[i].sum2, s->s2length) != 0)
                    413:                                                        goto check_want_i;
                    414:                                                /* OK, we have a re-alignment match.  Bump the offset
                    415: @@ -335,6 +337,8 @@ static void hash_search(int f,struct sum_struct *s,
                    416:                        matched(f, s, buf, offset - s->blength, -2);
                    417:        } while (++offset < end);
                    418:  
                    419: +      checksum2_disable_prefetch();
                    420: +
                    421:        matched(f, s, buf, len, -1);
                    422:        map_ptr(buf, len-1, 1);
                    423:  }
                    424: diff --git a/simd-checksum-x86_64.cpp b/simd-checksum-x86_64.cpp
                    425: --- a/simd-checksum-x86_64.cpp
                    426: +++ b/simd-checksum-x86_64.cpp
                    427: @@ -49,13 +49,33 @@
                    428:   * use of the target attribute, selecting the fastest code path based on
                    429:   * dispatch priority (GCC 5) or runtime detection of CPU capabilities (GCC 6+).
                    430:   * GCC 4.x are not supported to ease configure.ac logic.
                    431: + *
                    432: + * ----
                    433: + *
                    434: + * get_checksum2() is optimized for the case where the selected transfer
                    435: + * checksum is MD5. MD5 can't be made significantly faster with SIMD
                    436: + * instructions than the assembly version already included but SIMD
                    437: + * instructions can be used to hash multiple streams in parallel (see
                    438: + * simd-md5-parallel-x86_64.cpp for details and benchmarks). As rsync's
                    439: + * block-matching algorithm hashes the blocks independently (in contrast to
                    440: + * the whole-file checksum) this method can be employed here.
                    441: + *
                    442: + * To prevent needing to modify the core rsync sources significantly, a
                    443: + * prefetching strategy is used. When a checksum2 is requested, the code
                    444: + * reads ahead several blocks, creates the MD5 hashes for each block in
                    445: + * parallel, returns the hash for the first block, and caches the results
                    446: + * for the other blocks to return in future calls to get_checksum2().
                    447:   */
                    448:  
                    449:  #ifdef __x86_64__
                    450:  #ifdef __cplusplus
                    451:  
                    452: +extern "C" {
                    453: +
                    454:  #include "rsync.h"
                    455:  
                    456: +}
                    457: +
                    458:  #ifdef HAVE_SIMD
                    459:  
                    460:  #include <immintrin.h>
                    461: @@ -480,9 +500,235 @@ uint32 get_checksum1(char *buf1, int32 len)
                    462:      return get_checksum1_cpp(buf1, len);
                    463:  }
                    464:  
                    465: -} // extern "C"
                    466: +#if !defined(BENCHMARK_SIMD_CHECKSUM1)
                    467:  
                    468: -#ifdef BENCHMARK_SIMD_CHECKSUM1
                    469: +// see simd-md5-parallel-x86_64.cpp
                    470: +extern int md5_parallel_slots();
                    471: +extern int md5_parallel(int streams, char** buf, int* len, char** sum, char* pre4, char* post4);
                    472: +
                    473: +#endif /* !BENCHMARK_SIMD_CHECKSUM1 */
                    474: +
                    475: +#if !defined(BENCHMARK_SIMD_CHECKSUM1) && !defined(BENCHMARK_SIMD_CHECKSUM2)
                    476: +
                    477: +#define PREFETCH_ENABLE 1 // debugging
                    478: +
                    479: +#if 0 // debugging
                    480: +#define PREFETCH_PRINTF(f_, ...) printf((f_), ##__VA_ARGS__)
                    481: +#else
                    482: +#define PREFETCH_PRINTF(f_, ...) (void)0;
                    483: +#endif
                    484: +
                    485: +#define PREFETCH_MIN_LEN 1024 // the overhead is unlikely to be worth the gain for small blocks
                    486: +#define PREFETCH_MAX_BLOCKS 8
                    487: +
                    488: +typedef struct {
                    489: +    int in_use;
                    490: +    OFF_T offset;
                    491: +    int32 len;
                    492: +    char sum[SUM_LENGTH];
                    493: +} prefetch_sum_t;
                    494: +
                    495: +typedef struct {
                    496: +    struct map_struct *map;
                    497: +    OFF_T len;
                    498: +    OFF_T last;
                    499: +    int32 blocklen;
                    500: +    int blocks;
                    501: +    prefetch_sum_t sums[PREFETCH_MAX_BLOCKS];
                    502: +} prefetch_t;
                    503: +
                    504: +prefetch_t *prefetch;
                    505: +
                    506: +extern int xfersum_type;
                    507: +extern int checksum_seed;
                    508: +extern int proper_seed_order;
                    509: +extern void get_checksum2_nosimd(char *buf, int32 len, char *sum, OFF_T prefetch_offset);
                    510: +
                    511: +extern char *map_ptr(struct map_struct *map, OFF_T offset, int32 len);
                    512: +
                    513: +void checksum2_disable_prefetch()
                    514: +{
                    515: +    if (prefetch) {
                    516: +        PREFETCH_PRINTF("checksum2_disable_prefetch\n");
                    517: +        free(prefetch);
                    518: +        prefetch = NULL;
                    519: +    }
                    520: +}
                    521: +
                    522: +void checksum2_enable_prefetch(UNUSED(struct map_struct *map), UNUSED(OFF_T len), UNUSED(int32 blocklen))
                    523: +{
                    524: +#ifdef PREFETCH_ENABLE
                    525: +    checksum2_disable_prefetch();
                    526: +    int slots = md5_parallel_slots();
                    527: +    if ((xfersum_type == CSUM_MD5 || xfersum_type == CSUM_MD5P8) && slots > 1 && len >= blocklen * PREFETCH_MAX_BLOCKS && blocklen >= PREFETCH_MIN_LEN) {
                    528: +        prefetch = (prefetch_t*)malloc(sizeof(prefetch_t));
                    529: +        memset(prefetch, 0, sizeof(prefetch_t));
                    530: +        prefetch->map = map;
                    531: +        prefetch->len = len;
                    532: +        prefetch->last = 0;
                    533: +        prefetch->blocklen = blocklen;
                    534: +        prefetch->blocks = MIN(PREFETCH_MAX_BLOCKS, slots);
                    535: +        PREFETCH_PRINTF("checksum2_enable_prefetch len:%ld blocklen:%d blocks:%d\n", prefetch->len, prefetch->blocklen, prefetch->blocks);
                    536: +    }
                    537: +#endif
                    538: +}
                    539: +
                    540: +static inline void checksum2_reset_prefetch()
                    541: +{
                    542: +    for (int i = 0; i < PREFETCH_MAX_BLOCKS; i++) {
                    543: +        prefetch->sums[i].in_use = 0;
                    544: +    }
                    545: +}
                    546: +
                    547: +static int get_checksum2_prefetched(int32 len, char* sum, OFF_T prefetch_offset)
                    548: +{
                    549: +    if (prefetch->sums[0].in_use) {
                    550: +        if ((prefetch->sums[0].offset == prefetch_offset) && (prefetch->sums[0].len == len)) {
                    551: +            memcpy(sum, prefetch->sums[0].sum, SUM_LENGTH);
                    552: +            for (int i = 0; i < PREFETCH_MAX_BLOCKS - 1; i++) {
                    553: +                prefetch->sums[i] = prefetch->sums[i + 1];
                    554: +            }
                    555: +            prefetch->sums[PREFETCH_MAX_BLOCKS - 1].in_use = 0;
                    556: +            PREFETCH_PRINTF("checksum2_prefetch HIT len:%d offset:%ld\n", len, prefetch_offset);
                    557: +            return 1;
                    558: +        } else {
                    559: +            // unexpected access, reset cache
                    560: +            PREFETCH_PRINTF("checksum2_prefetch MISS len:%d offset:%ld\n", len, prefetch_offset);
                    561: +            checksum2_reset_prefetch();
                    562: +        }
                    563: +    }
                    564: +    return 0;
                    565: +}
                    566: +
                    567: +static int checksum2_perform_prefetch(OFF_T prefetch_offset)
                    568: +{
                    569: +    int blocks = MIN(MAX(1, (prefetch->len + prefetch->blocklen - 1) / prefetch->blocklen), prefetch->blocks);
                    570: +    if (blocks < 2) return 0; // fall through to non-simd, probably faster
                    571: +
                    572: +    int32 total = 0;
                    573: +    int i;
                    574: +    for (i = 0; i < blocks; i++) {
                    575: +        prefetch->sums[i].offset = prefetch_offset + total;
                    576: +        prefetch->sums[i].len = MIN(prefetch->blocklen, prefetch->len - prefetch_offset - total);
                    577: +        prefetch->sums[i].in_use = 0;
                    578: +        total += prefetch->sums[i].len;
                    579: +    }
                    580: +    for (; i < PREFETCH_MAX_BLOCKS; i++) {
                    581: +        prefetch->sums[i].in_use = 0;
                    582: +    }
                    583: +
                    584: +    uchar seedbuf[4];
                    585: +    SIVALu(seedbuf, 0, checksum_seed);
                    586: +
                    587: +    PREFETCH_PRINTF("checksum2_perform_prefetch pos:%ld len:%d blocks:%d\n", prefetch_offset, total, blocks);
                    588: +    char* mapbuf = map_ptr(prefetch->map, prefetch_offset, total);
                    589: +    char* bufs[PREFETCH_MAX_BLOCKS] = {0};
                    590: +    int lens[PREFETCH_MAX_BLOCKS] = {0};
                    591: +    char* sums[PREFETCH_MAX_BLOCKS] = {0};
                    592: +    for (i = 0; i < blocks; i++) {
                    593: +        bufs[i] = mapbuf + prefetch->sums[i].offset - prefetch_offset;
                    594: +        lens[i] = prefetch->sums[i].len;
                    595: +        sums[i] = prefetch->sums[i].sum;
                    596: +    }
                    597: +    if (md5_parallel(blocks, bufs, lens, sums, (proper_seed_order && checksum_seed) ? (char*)seedbuf : NULL, (!proper_seed_order && checksum_seed) ? (char*)seedbuf : NULL)) {
                    598: +        for (i = 0; i < blocks; i++) {
                    599: +            prefetch->sums[i].in_use = 1;
                    600: +        }
                    601: +        return 1;
                    602: +    } else {
                    603: +        // this should never be, abort
                    604: +        PREFETCH_PRINTF("checksum2_perform_prefetch PMD5 ABORT\n");
                    605: +        checksum2_disable_prefetch();
                    606: +    }
                    607: +    return 0;
                    608: +}
                    609: +
                    610: +void get_checksum2(char *buf, int32 len, char *sum, OFF_T prefetch_offset)
                    611: +{
                    612: +    if (prefetch) {
                    613: +        PREFETCH_PRINTF("get_checksum2 %d @ %ld\n", len, prefetch_offset);
                    614: +        OFF_T last = prefetch->last;
                    615: +        prefetch->last = prefetch_offset;
                    616: +        if ((prefetch_offset != 0) && (prefetch_offset != last + prefetch->blocklen)) {
                    617: +            // we're looking around trying to align blocks, prefetching will slow things down
                    618: +            PREFETCH_PRINTF("get_checksum2 SEEK\n");
                    619: +            checksum2_reset_prefetch();
                    620: +        } else if (get_checksum2_prefetched(len, sum, prefetch_offset)) {
                    621: +            // hit
                    622: +            return;
                    623: +        } else if (checksum2_perform_prefetch(prefetch_offset)) {
                    624: +            if (get_checksum2_prefetched(len, sum, prefetch_offset)) {
                    625: +                // hit; should always be as we just fetched this data
                    626: +                return;
                    627: +            } else {
                    628: +                // this should never be, abort
                    629: +                PREFETCH_PRINTF("get_checksum2 MISSING DATA ABORT\n");
                    630: +                checksum2_disable_prefetch();
                    631: +            }
                    632: +        }
                    633: +    }
                    634: +    get_checksum2_nosimd(buf, len, sum, prefetch_offset);
                    635: +}
                    636: +#endif /* !BENCHMARK_SIMD_CHECKSUM1 && !BENCHMARK_SIMD_CHECKSUM2 */
                    637: +
                    638: +} // "C"
                    639: +
                    640: +/* Benchmark compilation
                    641: +
                    642: +  The get_checksum1() benchmark runs through all available code paths in a
                    643: +  single execution, the get_checksum2()/MD5 and MD5P8 benchmark needs to be
                    644: +  recompiled for each code path (it always uses the fastest path available
                    645: +  on the current CPU otherwise). Note that SSE2/AVX2 MD5 optimizations will
                    646: +  be used when applicable regardless of rsync being built with OpenSSL.
                    647: +
                    648: +  Something like the following should compile and run the benchmarks:
                    649: +
                    650: +  # if gcc
                    651: +  export CC=gcc
                    652: +  export CXX=g++
                    653: +  export CXX_BASE="-g -O3 -fno-exceptions -fno-rtti"
                    654: +
                    655: +  # else if clang
                    656: +  export CC=clang
                    657: +  export CXX=clang++
                    658: +  export CXX_BASE="-g -O3 -fno-exceptions -fno-rtti -fno-slp-vectorize"
                    659: +
                    660: +  # /if
                    661: +
                    662: +  export CONF_EXTRA="--disable-md2man --disable-zstd --disable-lz4 --disable-xxhash"
                    663: +  export CXX_CSUM1="$CXX_BASE simd-checksum-x86_64.cpp"
                    664: +  export CXX_MD5P="$CXX_BASE -c -o simd-md5-parallel-x86_64.o simd-md5-parallel-x86_64.cpp"
                    665: +  export CXX_CSUM2="$CXX_BASE simd-checksum-x86_64.cpp simd-md5-parallel-x86_64.o lib/md5.o lib/md5p8.o lib/md5-asm-x86_64.o"
                    666: +
                    667: +  rm bench_csum*
                    668: +
                    669: +  ./configure --disable-openssl --enable-simd $CONF_EXTRA && make clean && make -j4
                    670: +
                    671: +  $CXX -DBENCHMARK_SIMD_CHECKSUM1 $CXX_CSUM1 -o bench_csum1.all
                    672: +
                    673: +  $CXX -DBENCHMARK_SIMD_CHECKSUM2 $CXX_MD5P
                    674: +  $CXX -DBENCHMARK_SIMD_CHECKSUM2 $CXX_CSUM2 -o bench_csum2.asm
                    675: +
                    676: +  $CXX -DBENCHMARK_SIMD_CHECKSUM2 -DPMD5_ALLOW_SSE2 $CXX_MD5P
                    677: +  $CXX -DBENCHMARK_SIMD_CHECKSUM2 $CXX_CSUM2 -o bench_csum2.sse2
                    678: +
                    679: +  $CXX -DBENCHMARK_SIMD_CHECKSUM2 -DPMD5_ALLOW_AVX2 $CXX_MD5P
                    680: +  $CXX -DBENCHMARK_SIMD_CHECKSUM2 $CXX_CSUM2 -o bench_csum2.avx2
                    681: +
                    682: +  ./configure --enable-openssl --enable-simd $CONF_EXTRA && make clean && make -j4
                    683: +
                    684: +  $CXX -DBENCHMARK_SIMD_CHECKSUM2 $CXX_MD5P
                    685: +  $CXX -DBENCHMARK_SIMD_CHECKSUM2 $CXX_CSUM2 -o bench_csum2.openssl -lcrypto
                    686: +
                    687: +  ./bench_csum1.all
                    688: +  ./bench_csum2.asm
                    689: +  ./bench_csum2.openssl
                    690: +  ./bench_csum2.sse2
                    691: +  ./bench_csum2.avx2
                    692: +
                    693: + */
                    694: +
                    695: +#if defined(BENCHMARK_SIMD_CHECKSUM1) || defined(BENCHMARK_SIMD_CHECKSUM2)
                    696:  #pragma clang optimize off
                    697:  #pragma GCC push_options
                    698:  #pragma GCC optimize ("O0")
                    699: @@ -493,7 +739,9 @@ uint32 get_checksum1(char *buf1, int32 len)
                    700:  #ifndef CLOCK_MONOTONIC_RAW
                    701:  #define CLOCK_MONOTONIC_RAW CLOCK_MONOTONIC
                    702:  #endif
                    703: +#endif /* BENCHMARK_SIMD_CHECKSUM1 || BENCHMARK_SIMD_CHECKSUM2 */
                    704:  
                    705: +#ifdef BENCHMARK_SIMD_CHECKSUM1
                    706:  static void benchmark(const char* desc, int32 (*func)(schar* buf, int32 len, int32 i, uint32* ps1, uint32* ps2), schar* buf, int32 len) {
                    707:      struct timespec start, end;
                    708:      uint64_t us;
                    709: @@ -509,7 +757,7 @@ static void benchmark(const char* desc, int32 (*func)(schar* buf, int32 len, int
                    710:      clock_gettime(CLOCK_MONOTONIC_RAW, &end);
                    711:      us = next == 0 ? 0 : (end.tv_sec - start.tv_sec) * 1000000 + (end.tv_nsec - start.tv_nsec) / 1000;
                    712:      cs = next == 0 ? 0 : (s1 & 0xffff) + (s2 << 16);
                    713: -    printf("%-5s :: %5.0f MB/s :: %08x\n", desc, us ? (float)(len / (1024 * 1024) * ROUNDS) / ((float)us / 1000000.0f) : 0, cs);
                    714: +    printf("CSUM1 :: %-5s :: %5.0f MB/s :: %08x\n", desc, us ? (float)(len / (1024 * 1024) * ROUNDS) / ((float)us / 1000000.0f) : 0, cs);
                    715:  }
                    716:  
                    717:  static int32 get_checksum1_auto(schar* buf, int32 len, int32 i, uint32* ps1, uint32* ps2) {
                    718: @@ -533,10 +781,108 @@ int main() {
                    719:      free(buf);
                    720:      return 0;
                    721:  }
                    722: +#endif /* BENCHMARK_SIMD_CHECKSUM1 */
                    723:  
                    724: +#ifdef BENCHMARK_SIMD_CHECKSUM2
                    725: +static void benchmark(const char* desc, void (*func)(char* buf, int32 len, char* sum_out), void (*func2)(char* buf, int32 len, char* sum_out), char* buf, int32 len, int streams) {
                    726: +    struct timespec start, end;
                    727: +    uint64_t us;
                    728: +    unsigned char cs1[16];
                    729: +    unsigned char cs2[16];
                    730: +    int i;
                    731: +
                    732: +    clock_gettime(CLOCK_MONOTONIC_RAW, &start);
                    733: +    for (i = 0; i < ROUNDS; i++) {
                    734: +        func(buf, len, (char*)cs1);
                    735: +    }
                    736: +    clock_gettime(CLOCK_MONOTONIC_RAW, &end);
                    737: +    us = (end.tv_sec - start.tv_sec) * 1000000 + (end.tv_nsec - start.tv_nsec) / 1000;
                    738: +
                    739: +    func2(buf, len, (char*)cs2);
                    740: +
                    741: +    float perf = us ? (float)(len / (1024 * 1024) * ROUNDS) / ((float)us / 1000000.0f) : 0;
                    742: +    printf("CSUM2 :: %-7s :: %5.0f to %5.0f MB/s :: ", desc, perf, perf * streams);
                    743: +    for (i = 0; i < 16; i++) {
                    744: +        printf("%02x", cs1[i] & 0xFF);
                    745: +    }
                    746: +    printf(" :: ");
                    747: +    for (i = 0; i < 16; i++) {
                    748: +        printf("%02x", cs2[i] & 0xFF);
                    749: +    }
                    750: +    printf("\n");
                    751: +}
                    752: +
                    753: +static void benchmark_inner(char* buf, int32 len, char* sum_out) {
                    754: +    // This should produce the same output for different optimizations
                    755: +    // levels, not the same as sanity_check()
                    756: +
                    757: +    char* bufs[8] = {0};
                    758: +    int lens[8] = {0};
                    759: +    char* sums[8] = {0};
                    760: +
                    761: +    bufs[0] = buf;
                    762: +    lens[0] = len;
                    763: +    sums[0] = sum_out;
                    764: +    md5_parallel(1, bufs, lens, sums, NULL, NULL);
                    765: +}
                    766: +
                    767: +extern "C" {
                    768: +extern void MD5P8_Init_c(MD5P8_CTX *ctx);
                    769: +extern void MD5P8_Update_c(MD5P8_CTX *ctx, const uchar *input, uint32 length);
                    770: +extern void MD5P8_Final_c(uchar digest[MD5_DIGEST_LEN], MD5P8_CTX *ctx);
                    771: +}
                    772: +
                    773: +static void sanity_check(char* buf, int32 len, char* sum_out) {
                    774: +    // This should produce the same output for different optimizations
                    775: +    // levels, not the same as benchmark_inner()
                    776: +    if (md5_parallel_slots() <= 1) {
                    777: +        MD5P8_CTX m5p8;
                    778: +        MD5P8_Init_c(&m5p8);
                    779: +        MD5P8_Update_c(&m5p8, (uchar *)buf, len);
                    780: +        MD5P8_Final_c((uchar *)sum_out, &m5p8);
                    781: +    } else {
                    782: +        MD5P8_CTX m5p8;
                    783: +        MD5P8_Init(&m5p8);
                    784: +        MD5P8_Update(&m5p8, (uchar *)buf, len);
                    785: +        MD5P8_Final((uchar *)sum_out, &m5p8);
                    786: +    }
                    787: +}
                    788: +
                    789: +int main() {
                    790: +    // This benchmarks the parallel MD5 checksum rather than get_checksum2()
                    791: +    // as the latter would require compiling in a lot of rsync's code, but
                    792: +    // it touches all the same internals so the performance should be nearly
                    793: +    // identical.
                    794: +
                    795: +    int i;
                    796: +    char* buf = (char*)malloc(BLOCK_LEN);
                    797: +    for (i = 0; i < BLOCK_LEN; i++) buf[i] = (i + (i % 3) + (i % 11)) % 256;
                    798: +
                    799: +    const char* method = "?";
                    800: +    switch (md5_parallel_slots()) {
                    801: +        case 8: method = "AVX2"; break;
                    802: +        case 4: method = "SSE2"; break;
                    803: +#ifdef USE_OPENSSL
                    804: +        case 1: method = "OpenSSL"; break;
                    805: +#elif (CSUM_CHUNK == 64)
                    806: +        case 1: method = "ASM"; break;
                    807: +#else
                    808: +        // this won't happen unless you modified code somewhere
                    809: +        case 1: method = "Raw-C"; break;
                    810: +#endif
                    811: +    }
                    812: +
                    813: +    benchmark(method, benchmark_inner, sanity_check, buf, BLOCK_LEN, md5_parallel_slots());
                    814: +
                    815: +    free(buf);
                    816: +    return 0;
                    817: +}
                    818: +#endif /* BENCHMARK_SIMD_CHECKSUM2 */
                    819: +
                    820: +#if defined(BENCHMARK_SIMD_CHECKSUM1) || defined(BENCHMARK_SIMD_CHECKSUM2)
                    821:  #pragma GCC pop_options
                    822:  #pragma clang optimize on
                    823: -#endif /* BENCHMARK_SIMD_CHECKSUM1 */
                    824: +#endif /* BENCHMARK_SIMD_CHECKSUM1 || BENCHMARK_SIMD_CHECKSUM2 */
                    825:  
                    826:  #endif /* HAVE_SIMD */
                    827:  #endif /* __cplusplus */
                    828: diff --git a/simd-md5-parallel-x86_64.cpp b/simd-md5-parallel-x86_64.cpp
                    829: new file mode 100644
                    830: --- /dev/null
                    831: +++ b/simd-md5-parallel-x86_64.cpp
                    832: @@ -0,0 +1,1138 @@
                    833: +/*
                    834: + * SSE2/AVX2-optimized routines to process multiple MD5 streams in parallel.
                    835: + *
                    836: + * Original author: Nicolas Noble, 2017
                    837: + * Modifications:   Jorrit Jongma, 2020
                    838: + *
                    839: + * The original code was released in the public domain by the original author,
                    840: + * falling back to the MIT license ( http://www.opensource.org/licenses/MIT )
                    841: + * in case public domain does not apply in your country. These modifications
                    842: + * are likewise released in the public domain, with the same MIT license
                    843: + * fallback.
                    844: + *
                    845: + * The original publication can be found at:
                    846: + *
                    847: + * https://github.com/nicolasnoble/sse-hash
                    848: + */
                    849: +/*
                    850: + * Nicolas' original code has been extended to add AVX2 support, all non-SIMD
                    851: + * MD5 code has been removed and those code paths rerouted to use the MD5
                    852: + * code already present in rsync, and wrapper functions have been added. The
                    853: + * MD5P8 code is also new, and is the reason for the new stride parameter.
                    854: + *
                    855: + * This code allows multiple independent MD5 streams to be processed in
                    856: + * parallel, 4 with SSE2, 8 with AVX2. While single-stream performance is
                    857: + * lower than that of the original C routines for MD5, the processing of
                    858: + * additional streams is "for free".
                    859: + *
                    860: + * Single streams are rerouted to rsync's normal MD5 code as that is faster
                    861: + * for that case. A further optimization is possible by using SSE2 code on
                    862: + * AVX2-supporting CPUs when the number of streams is 2, 3, or 4. This is not
                    863: + * implemented here as it would require some restructuring, and in practise
                    864: + * the code here is only rarely called with less than the maximum amount of
                    865: + * streams (typically once at the end of each checksum2'd file).
                    866: + *
                    867: + * Benchmarks (in MB/s)            C     ASM  SSE2*1  SSE2*4  AVX2*1  AVX2*8
                    868: + * - Intel Atom D2700            302     334     166     664     N/A     N/A
                    869: + * - Intel i7-7700hq             351     376     289    1156     273    2184
                    870: + * - AMD ThreadRipper 2950x      728     784     568    2272     430    3440
                    871: + */
                    872: +
                    873: +#ifdef __x86_64__
                    874: +#ifdef __cplusplus
                    875: +
                    876: +extern "C" {
                    877: +
                    878: +#include "rsync.h"
                    879: +
                    880: +}
                    881: +
                    882: +#ifdef HAVE_SIMD
                    883: +
                    884: +#ifndef BENCHMARK_SIMD_CHECKSUM2
                    885: +#define PMD5_ALLOW_SSE2 // debugging
                    886: +#define PMD5_ALLOW_AVX2 // debugging
                    887: +#endif
                    888: +
                    889: +#ifdef PMD5_ALLOW_AVX2
                    890: +#ifndef PMD5_ALLOW_SSE2
                    891: +#define PMD5_ALLOW_SSE2
                    892: +#endif
                    893: +#endif
                    894: +
                    895: +#include <stdint.h>
                    896: +#include <string.h>
                    897: +
                    898: +#include <immintrin.h>
                    899: +
                    900: +/* Some clang versions don't like it when you use static with multi-versioned functions: linker errors */
                    901: +#ifdef __clang__
                    902: +#define MVSTATIC
                    903: +#else
                    904: +#define MVSTATIC static
                    905: +#endif
                    906: +
                    907: +// Missing from the headers on gcc 6 and older, clang 8 and older
                    908: +typedef long long __m128i_u __attribute__((__vector_size__(16), __may_alias__, __aligned__(1)));
                    909: +typedef long long __m256i_u __attribute__((__vector_size__(32), __may_alias__, __aligned__(1)));
                    910: +
                    911: +#define PMD5_SLOTS_DEFAULT 0
                    912: +#define PMD5_SLOTS_SSE2 4
                    913: +#define PMD5_SLOTS_AVX2 8
                    914: +#define PMD5_SLOTS_MAX PMD5_SLOTS_AVX2
                    915: +
                    916: +#ifdef PMD5_ALLOW_SSE2
                    917: +__attribute__ ((target("sse2"))) MVSTATIC int pmd5_slots()
                    918: +{
                    919: +    return PMD5_SLOTS_SSE2;
                    920: +}
                    921: +#endif
                    922: +
                    923: +#ifdef PMD5_ALLOW_AVX2
                    924: +__attribute__ ((target("avx2"))) MVSTATIC int pmd5_slots()
                    925: +{
                    926: +    return PMD5_SLOTS_AVX2;
                    927: +}
                    928: +#endif
                    929: +
                    930: +__attribute__ ((target("default"))) MVSTATIC int pmd5_slots()
                    931: +{
                    932: +    return PMD5_SLOTS_DEFAULT;
                    933: +}
                    934: +
                    935: +/* The parallel MD5 context structure. */
                    936: +typedef struct {
                    937: +    __m128i state_sse2[4];
                    938: +    __m256i state_avx2[4];
                    939: +    uint64_t len[PMD5_SLOTS_MAX];
                    940: +} pmd5_context;
                    941: +
                    942: +/* The status returned by the various functions below. */
                    943: +typedef enum {
                    944: +    PMD5_SUCCESS,
                    945: +    PMD5_INVALID_SLOT,
                    946: +    PMD5_UNALIGNED_UPDATE,
                    947: +} pmd5_status;
                    948: +
                    949: +/* Initializes all slots in the given pmd5 context. */
                    950: +__attribute__ ((target("default"))) MVSTATIC pmd5_status pmd5_init_all(pmd5_context * ctx);
                    951: +
                    952: +/* Initializes a single slot out in the given pmd5 context. */
                    953: +static pmd5_status pmd5_init_slot(pmd5_context * ctx, int slot);
                    954: +
                    955: +/* Makes an MD5 update on all slots in parallel, given the same exact length on all streams.
                    956: +   The stream pointers will be incremented accordingly.
                    957: +   It is valid for a stream pointer to be NULL. Garbage will then be hashed into its corresponding slot.
                    958: +   The argument length NEEDS to be a multiple of 64. If not, an error is returned, and the context is corrupted.
                    959: +   Stride defaults to 64 if 0 is passed. */
                    960: +static pmd5_status pmd5_update_all_simple(pmd5_context * ctx, const uint8_t * data[PMD5_SLOTS_MAX], uint64_t length, uint64_t stride);
                    961: +
                    962: +/* Makes an MD5 update on all slots in parallel, given different lengths.
                    963: +   The stream pointers will be incremented accordingly.
                    964: +   The lengths will be decreased accordingly. Not all data might be consumed.
                    965: +   It is valid for a stream pointer to be NULL. Garbage will then be hashed into its corresponding slot.
                    966: +   The argument lengths NEEDS to contain only multiples of 64. If not, an error is returned, and the context is corrupted. */
                    967: +static pmd5_status pmd5_update_all(pmd5_context * ctx, const uint8_t * data[PMD5_SLOTS_MAX], uint64_t lengths[PMD5_SLOTS_MAX]);
                    968: +
                    969: +/* Finishes all slots at once. Fills in all digests. */
                    970: +static pmd5_status pmd5_finish_all(pmd5_context * ctx, uint8_t digests[PMD5_SLOTS_MAX][MD5_DIGEST_LEN]);
                    971: +
                    972: +/* Finishes one slot. The other slots will be unnaffected. The finished slot can then continue to hash garbage using
                    973: +   a NULL pointer as its stream argument, or needs to be reinitialized using pmd5_init_slot before being usable again. */
                    974: +static pmd5_status pmd5_finish_slot(pmd5_context * ctx, uint8_t digest[MD5_DIGEST_LEN], int slot);
                    975: +
                    976: +/* Finishes one slot. Extra data is allowed to be passed on as an argument. Length DOESN'T need to be a
                    977: +   multiple of 64. The other slots will be unaffected. The finished slot can then continue to hash garbage using
                    978: +   a NULL pointer as its stream argument, or needs to be reinitialized using pmd5_init_slot before being usable again. */
                    979: +static pmd5_status pmd5_finish_slot_with_extra(pmd5_context * ctx, uint8_t digest[MD5_DIGEST_LEN], int slot, const uint8_t * data, uint64_t length);
                    980: +
                    981: +/* Insert a normal MD5 context into a given slot of a given parallel MD5 context. */
                    982: +static pmd5_status md5_to_pmd5(const MD5_CTX * ctx, pmd5_context * pctx, int slot);
                    983: +
                    984: +/* Extract a normal MD5 context from a given slot of a given parallel MD5 context. */
                    985: +static pmd5_status pmd5_to_md5(const pmd5_context * pctx, MD5_CTX * ctx, int slot);
                    986: +
                    987: +#define S11  7
                    988: +#define S12 12
                    989: +#define S13 17
                    990: +#define S14 22
                    991: +#define S21  5
                    992: +#define S22  9
                    993: +#define S23 14
                    994: +#define S24 20
                    995: +#define S31  4
                    996: +#define S32 11
                    997: +#define S33 16
                    998: +#define S34 23
                    999: +#define S41  6
                   1000: +#define S42 10
                   1001: +#define S43 15
                   1002: +#define S44 21
                   1003: +
                   1004: +#define T1  0xD76AA478
                   1005: +#define T2  0xE8C7B756
                   1006: +#define T3  0x242070DB
                   1007: +#define T4  0xC1BDCEEE
                   1008: +#define T5  0xF57C0FAF
                   1009: +#define T6  0x4787C62A
                   1010: +#define T7  0xA8304613
                   1011: +#define T8  0xFD469501
                   1012: +#define T9  0x698098D8
                   1013: +#define T10 0x8B44F7AF
                   1014: +#define T11 0xFFFF5BB1
                   1015: +#define T12 0x895CD7BE
                   1016: +#define T13 0x6B901122
                   1017: +#define T14 0xFD987193
                   1018: +#define T15 0xA679438E
                   1019: +#define T16 0x49B40821
                   1020: +#define T17 0xF61E2562
                   1021: +#define T18 0xC040B340
                   1022: +#define T19 0x265E5A51
                   1023: +#define T20 0xE9B6C7AA
                   1024: +#define T21 0xD62F105D
                   1025: +#define T22 0x02441453
                   1026: +#define T23 0xD8A1E681
                   1027: +#define T24 0xE7D3FBC8
                   1028: +#define T25 0x21E1CDE6
                   1029: +#define T26 0xC33707D6
                   1030: +#define T27 0xF4D50D87
                   1031: +#define T28 0x455A14ED
                   1032: +#define T29 0xA9E3E905
                   1033: +#define T30 0xFCEFA3F8
                   1034: +#define T31 0x676F02D9
                   1035: +#define T32 0x8D2A4C8A
                   1036: +#define T33 0xFFFA3942
                   1037: +#define T34 0x8771F681
                   1038: +#define T35 0x6D9D6122
                   1039: +#define T36 0xFDE5380C
                   1040: +#define T37 0xA4BEEA44
                   1041: +#define T38 0x4BDECFA9
                   1042: +#define T39 0xF6BB4B60
                   1043: +#define T40 0xBEBFBC70
                   1044: +#define T41 0x289B7EC6
                   1045: +#define T42 0xEAA127FA
                   1046: +#define T43 0xD4EF3085
                   1047: +#define T44 0x04881D05
                   1048: +#define T45 0xD9D4D039
                   1049: +#define T46 0xE6DB99E5
                   1050: +#define T47 0x1FA27CF8
                   1051: +#define T48 0xC4AC5665
                   1052: +#define T49 0xF4292244
                   1053: +#define T50 0x432AFF97
                   1054: +#define T51 0xAB9423A7
                   1055: +#define T52 0xFC93A039
                   1056: +#define T53 0x655B59C3
                   1057: +#define T54 0x8F0CCC92
                   1058: +#define T55 0xFFEFF47D
                   1059: +#define T56 0x85845DD1
                   1060: +#define T57 0x6FA87E4F
                   1061: +#define T58 0xFE2CE6E0
                   1062: +#define T59 0xA3014314
                   1063: +#define T60 0x4E0811A1
                   1064: +#define T61 0xF7537E82
                   1065: +#define T62 0xBD3AF235
                   1066: +#define T63 0x2AD7D2BB
                   1067: +#define T64 0xEB86D391
                   1068: +
                   1069: +#define ROTL_SSE2(x, n) { \
                   1070: +    __m128i s; \
                   1071: +    s = _mm_srli_epi32(x, 32 - n); \
                   1072: +    x = _mm_slli_epi32(x, n); \
                   1073: +    x = _mm_or_si128(x, s); \
                   1074: +};
                   1075: +
                   1076: +#define ROTL_AVX2(x, n) { \
                   1077: +    __m256i s; \
                   1078: +    s = _mm256_srli_epi32(x, 32 - n); \
                   1079: +    x = _mm256_slli_epi32(x, n); \
                   1080: +    x = _mm256_or_si256(x, s); \
                   1081: +};
                   1082: +
                   1083: +#define F_SSE2(x, y, z) _mm_or_si128(_mm_and_si128(x, y), _mm_andnot_si128(x, z))
                   1084: +#define G_SSE2(x, y, z) _mm_or_si128(_mm_and_si128(x, z), _mm_andnot_si128(z, y))
                   1085: +#define H_SSE2(x, y, z) _mm_xor_si128(_mm_xor_si128(x, y), z)
                   1086: +#define I_SSE2(x, y, z) _mm_xor_si128(y, _mm_or_si128(x, _mm_andnot_si128(z, _mm_set1_epi32(0xffffffff))))
                   1087: +
                   1088: +#define F_AVX2(x, y, z) _mm256_or_si256(_mm256_and_si256(x, y), _mm256_andnot_si256(x, z))
                   1089: +#define G_AVX2(x, y, z) _mm256_or_si256(_mm256_and_si256(x, z), _mm256_andnot_si256(z, y))
                   1090: +#define H_AVX2(x, y, z) _mm256_xor_si256(_mm256_xor_si256(x, y), z)
                   1091: +#define I_AVX2(x, y, z) _mm256_xor_si256(y, _mm256_or_si256(x, _mm256_andnot_si256(z, _mm256_set1_epi32(0xffffffff))))
                   1092: +
                   1093: +#define SET_SSE2(step, a, b, c, d, x, s, ac) { \
                   1094: +    a = _mm_add_epi32(_mm_add_epi32(a, _mm_add_epi32(x, _mm_set1_epi32(T##ac))), step##_SSE2(b, c, d)); \
                   1095: +    ROTL_SSE2(a, s); \
                   1096: +    a = _mm_add_epi32(a, b); \
                   1097: +}
                   1098: +
                   1099: +#define SET_AVX2(step, a, b, c, d, x, s, ac) { \
                   1100: +    a = _mm256_add_epi32(_mm256_add_epi32(a, _mm256_add_epi32(x, _mm256_set1_epi32(T##ac))), step##_AVX2(b, c, d)); \
                   1101: +    ROTL_AVX2(a, s); \
                   1102: +    a = _mm256_add_epi32(a, b); \
                   1103: +}
                   1104: +
                   1105: +#define IA 0x67452301
                   1106: +#define IB 0xefcdab89
                   1107: +#define IC 0x98badcfe
                   1108: +#define ID 0x10325476
                   1109: +
                   1110: +#define GET_MD5_DATA(dest, src, pos)         \
                   1111: +    dest =                                   \
                   1112: +        ((uint32_t) src[pos + 0]) <<  0 |    \
                   1113: +        ((uint32_t) src[pos + 1]) <<  8 |    \
                   1114: +        ((uint32_t) src[pos + 2]) << 16 |    \
                   1115: +        ((uint32_t) src[pos + 3]) << 24
                   1116: +
                   1117: +#define GET_PMD5_DATA_SSE2(dest, src, pos) { \
                   1118: +    uint32_t v0, v1, v2, v3;                 \
                   1119: +    GET_MD5_DATA(v0, src[0], pos);           \
                   1120: +    GET_MD5_DATA(v1, src[1], pos);           \
                   1121: +    GET_MD5_DATA(v2, src[2], pos);           \
                   1122: +    GET_MD5_DATA(v3, src[3], pos);           \
                   1123: +    dest = _mm_setr_epi32(v0, v1, v2, v3);   \
                   1124: +}
                   1125: +
                   1126: +#define GET_PMD5_DATA_AVX2(dest, src, pos) { \
                   1127: +    uint32_t v0, v1, v2, v3;                 \
                   1128: +    uint32_t v4, v5, v6, v7;                 \
                   1129: +    GET_MD5_DATA(v0, src[0], pos);           \
                   1130: +    GET_MD5_DATA(v1, src[1], pos);           \
                   1131: +    GET_MD5_DATA(v2, src[2], pos);           \
                   1132: +    GET_MD5_DATA(v3, src[3], pos);           \
                   1133: +    GET_MD5_DATA(v4, src[4], pos);           \
                   1134: +    GET_MD5_DATA(v5, src[5], pos);           \
                   1135: +    GET_MD5_DATA(v6, src[6], pos);           \
                   1136: +    GET_MD5_DATA(v7, src[7], pos);           \
                   1137: +    dest = _mm256_setr_epi32(v0, v1, v2, v3, \
                   1138: +                          v4, v5, v6, v7);   \
                   1139: +}
                   1140: +
                   1141: +#define PUT_MD5_DATA(dest, val, pos) {       \
                   1142: +    dest[pos + 0] = (val >>  0) & 0xff;      \
                   1143: +    dest[pos + 1] = (val >>  8) & 0xff;      \
                   1144: +    dest[pos + 2] = (val >> 16) & 0xff;      \
                   1145: +    dest[pos + 3] = (val >> 24) & 0xff;      \
                   1146: +}
                   1147: +
                   1148: +const static uint8_t md5_padding[64] = {
                   1149: +    0x80, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
                   1150: +    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
                   1151: +    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
                   1152: +    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
                   1153: +    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
                   1154: +    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
                   1155: +    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
                   1156: +    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
                   1157: +};
                   1158: +
                   1159: +#ifdef PMD5_ALLOW_SSE2
                   1160: +__attribute__ ((target("sse2"))) MVSTATIC pmd5_status pmd5_init_all(pmd5_context * ctx)
                   1161: +{
                   1162: +    int i;
                   1163: +    for (i = 0; i < PMD5_SLOTS_MAX; i++) {
                   1164: +        ctx->len[i] = 0;
                   1165: +    }
                   1166: +
                   1167: +    ctx->state_sse2[0] = _mm_set1_epi32(IA);
                   1168: +    ctx->state_sse2[1] = _mm_set1_epi32(IB);
                   1169: +    ctx->state_sse2[2] = _mm_set1_epi32(IC);
                   1170: +    ctx->state_sse2[3] = _mm_set1_epi32(ID);
                   1171: +
                   1172: +    return PMD5_SUCCESS;
                   1173: +}
                   1174: +#endif
                   1175: +
                   1176: +#ifdef PMD5_ALLOW_AVX2
                   1177: +__attribute__ ((target("avx2"))) MVSTATIC pmd5_status pmd5_init_all(pmd5_context * ctx)
                   1178: +{
                   1179: +    int i;
                   1180: +    for (i = 0; i < PMD5_SLOTS_MAX; i++) {
                   1181: +        ctx->len[i] = 0;
                   1182: +    }
                   1183: +
                   1184: +    ctx->state_avx2[0] = _mm256_set1_epi32(IA);
                   1185: +    ctx->state_avx2[1] = _mm256_set1_epi32(IB);
                   1186: +    ctx->state_avx2[2] = _mm256_set1_epi32(IC);
                   1187: +    ctx->state_avx2[3] = _mm256_set1_epi32(ID);
                   1188: +
                   1189: +    return PMD5_SUCCESS;
                   1190: +}
                   1191: +#endif
                   1192: +
                   1193: +__attribute__ ((target("default"))) MVSTATIC pmd5_status pmd5_init_all(pmd5_context * ctx)
                   1194: +{
                   1195: +    return PMD5_INVALID_SLOT;
                   1196: +}
                   1197: +
                   1198: +#ifdef PMD5_ALLOW_SSE2
                   1199: +__attribute__ ((target("sse2"))) MVSTATIC pmd5_status pmd5_set_slot(pmd5_context * ctx, int slot, uint32_t a, uint32_t b, uint32_t c, uint32_t d)
                   1200: +{
                   1201: +    if ((slot >= PMD5_SLOTS_SSE2) || (slot < 0))
                   1202: +        return PMD5_INVALID_SLOT;
                   1203: +
                   1204: +    __attribute__ ((aligned(32))) uint32_t v[4][PMD5_SLOTS_SSE2];
                   1205: +    int i;
                   1206: +
                   1207: +    for (i = 0; i < 4; i++) {
                   1208: +        _mm_store_si128((__m128i_u*)v[i], ctx->state_sse2[i]);
                   1209: +    }
                   1210: +
                   1211: +    v[0][slot] = a;
                   1212: +    v[1][slot] = b;
                   1213: +    v[2][slot] = c;
                   1214: +    v[3][slot] = d;
                   1215: +
                   1216: +    for (i = 0; i < 4; i++) {
                   1217: +        ctx->state_sse2[i] = _mm_loadu_si128((__m128i_u*)v[i]);
                   1218: +    }
                   1219: +
                   1220: +    return PMD5_SUCCESS;
                   1221: +}
                   1222: +#endif
                   1223: +
                   1224: +#ifdef PMD5_ALLOW_AVX2
                   1225: +__attribute__ ((target("avx2"))) MVSTATIC pmd5_status pmd5_set_slot(pmd5_context * ctx, int slot, uint32_t a, uint32_t b, uint32_t c, uint32_t d)
                   1226: +{
                   1227: +    if ((slot >= PMD5_SLOTS_AVX2) || (slot < 0))
                   1228: +        return PMD5_INVALID_SLOT;
                   1229: +
                   1230: +    __attribute__ ((aligned(32))) uint32_t v[4][PMD5_SLOTS_AVX2];
                   1231: +    int i;
                   1232: +
                   1233: +    for (i = 0; i < 4; i++) {
                   1234: +        _mm256_store_si256((__m256i_u*)v[i], ctx->state_avx2[i]);
                   1235: +    }
                   1236: +
                   1237: +    v[0][slot] = a;
                   1238: +    v[1][slot] = b;
                   1239: +    v[2][slot] = c;
                   1240: +    v[3][slot] = d;
                   1241: +
                   1242: +    for (i = 0; i < 4; i++) {
                   1243: +        ctx->state_avx2[i] = _mm256_lddqu_si256((__m256i_u*)v[i]);
                   1244: +    }
                   1245: +
                   1246: +    return PMD5_SUCCESS;
                   1247: +}
                   1248: +#endif
                   1249: +
                   1250: +__attribute__ ((target("default"))) MVSTATIC pmd5_status pmd5_set_slot(pmd5_context * ctx, int slot, uint32_t a, uint32_t b, uint32_t c, uint32_t d)
                   1251: +{
                   1252: +    return PMD5_INVALID_SLOT;
                   1253: +}
                   1254: +
                   1255: +#ifdef PMD5_ALLOW_SSE2
                   1256: +__attribute__ ((target("sse2"))) MVSTATIC pmd5_status pmd5_get_slot(const pmd5_context * ctx, int slot, uint32_t* a, uint32_t* b, uint32_t* c, uint32_t* d)
                   1257: +{
                   1258: +    if ((slot >= PMD5_SLOTS_SSE2) || (slot < 0))
                   1259: +        return PMD5_INVALID_SLOT;
                   1260: +
                   1261: +    __attribute__ ((aligned(32))) uint32_t v[4][PMD5_SLOTS_SSE2];
                   1262: +    int i;
                   1263: +
                   1264: +    for (i = 0; i < 4; i++) {
                   1265: +        _mm_store_si128((__m128i_u*)v[i], ctx->state_sse2[i]);
                   1266: +    }
                   1267: +
                   1268: +    *a = v[0][slot];
                   1269: +    *b = v[1][slot];
                   1270: +    *c = v[2][slot];
                   1271: +    *d = v[3][slot];
                   1272: +
                   1273: +    return PMD5_SUCCESS;
                   1274: +}
                   1275: +#endif
                   1276: +
                   1277: +#ifdef PMD5_ALLOW_AVX2
                   1278: +__attribute__ ((target("avx2"))) MVSTATIC pmd5_status pmd5_get_slot(const pmd5_context * ctx, int slot, uint32_t* a, uint32_t* b, uint32_t* c, uint32_t* d)
                   1279: +{
                   1280: +    if ((slot >= PMD5_SLOTS_AVX2) || (slot < 0))
                   1281: +        return PMD5_INVALID_SLOT;
                   1282: +
                   1283: +    __attribute__ ((aligned(32))) uint32_t v[4][PMD5_SLOTS_AVX2];
                   1284: +    int i;
                   1285: +
                   1286: +    for (i = 0; i < 4; i++) {
                   1287: +        _mm256_store_si256((__m256i_u*)v[i], ctx->state_avx2[i]);
                   1288: +    }
                   1289: +
                   1290: +    *a = v[0][slot];
                   1291: +    *b = v[1][slot];
                   1292: +    *c = v[2][slot];
                   1293: +    *d = v[3][slot];
                   1294: +
                   1295: +    return PMD5_SUCCESS;
                   1296: +}
                   1297: +#endif
                   1298: +
                   1299: +__attribute__ ((target("default"))) MVSTATIC pmd5_status pmd5_get_slot(const pmd5_context * ctx, int slot, uint32_t* a, uint32_t* b, uint32_t* c, uint32_t* d)
                   1300: +{
                   1301: +    return PMD5_INVALID_SLOT;
                   1302: +}
                   1303: +
                   1304: +static pmd5_status pmd5_init_slot(pmd5_context * ctx, int slot)
                   1305: +{
                   1306: +    return pmd5_set_slot(ctx, slot, IA, IB, IC, ID);
                   1307: +}
                   1308: +
                   1309: +#ifdef PMD5_ALLOW_SSE2
                   1310: +__attribute__ ((target("sse2"))) MVSTATIC void pmd5_process(pmd5_context * ctx, const uint8_t * data[PMD5_SLOTS_MAX])
                   1311: +{
                   1312: +    __m128i W[MD5_DIGEST_LEN], a, b, c, d;
                   1313: +
                   1314: +    GET_PMD5_DATA_SSE2(W[ 0], data,  0);
                   1315: +    GET_PMD5_DATA_SSE2(W[ 1], data,  4);
                   1316: +    GET_PMD5_DATA_SSE2(W[ 2], data,  8);
                   1317: +    GET_PMD5_DATA_SSE2(W[ 3], data, 12);
                   1318: +    GET_PMD5_DATA_SSE2(W[ 4], data, 16);
                   1319: +    GET_PMD5_DATA_SSE2(W[ 5], data, 20);
                   1320: +    GET_PMD5_DATA_SSE2(W[ 6], data, 24);
                   1321: +    GET_PMD5_DATA_SSE2(W[ 7], data, 28);
                   1322: +    GET_PMD5_DATA_SSE2(W[ 8], data, 32);
                   1323: +    GET_PMD5_DATA_SSE2(W[ 9], data, 36);
                   1324: +    GET_PMD5_DATA_SSE2(W[10], data, 40);
                   1325: +    GET_PMD5_DATA_SSE2(W[11], data, 44);
                   1326: +    GET_PMD5_DATA_SSE2(W[12], data, 48);
                   1327: +    GET_PMD5_DATA_SSE2(W[13], data, 52);
                   1328: +    GET_PMD5_DATA_SSE2(W[14], data, 56);
                   1329: +    GET_PMD5_DATA_SSE2(W[15], data, 60);
                   1330: +
                   1331: +    a = ctx->state_sse2[0];
                   1332: +    b = ctx->state_sse2[1];
                   1333: +    c = ctx->state_sse2[2];
                   1334: +    d = ctx->state_sse2[3];
                   1335: +
                   1336: +    SET_SSE2(F, a, b, c, d, W[ 0], S11,  1);
                   1337: +    SET_SSE2(F, d, a, b, c, W[ 1], S12,  2);
                   1338: +    SET_SSE2(F, c, d, a, b, W[ 2], S13,  3);
                   1339: +    SET_SSE2(F, b, c, d, a, W[ 3], S14,  4);
                   1340: +    SET_SSE2(F, a, b, c, d, W[ 4], S11,  5);
                   1341: +    SET_SSE2(F, d, a, b, c, W[ 5], S12,  6);
                   1342: +    SET_SSE2(F, c, d, a, b, W[ 6], S13,  7);
                   1343: +    SET_SSE2(F, b, c, d, a, W[ 7], S14,  8);
                   1344: +    SET_SSE2(F, a, b, c, d, W[ 8], S11,  9);
                   1345: +    SET_SSE2(F, d, a, b, c, W[ 9], S12, 10);
                   1346: +    SET_SSE2(F, c, d, a, b, W[10], S13, 11);
                   1347: +    SET_SSE2(F, b, c, d, a, W[11], S14, 12);
                   1348: +    SET_SSE2(F, a, b, c, d, W[12], S11, 13);
                   1349: +    SET_SSE2(F, d, a, b, c, W[13], S12, 14);
                   1350: +    SET_SSE2(F, c, d, a, b, W[14], S13, 15);
                   1351: +    SET_SSE2(F, b, c, d, a, W[15], S14, 16);
                   1352: +
                   1353: +    SET_SSE2(G, a, b, c, d, W[ 1], S21, 17);
                   1354: +    SET_SSE2(G, d, a, b, c, W[ 6], S22, 18);
                   1355: +    SET_SSE2(G, c, d, a, b, W[11], S23, 19);
                   1356: +    SET_SSE2(G, b, c, d, a, W[ 0], S24, 20);
                   1357: +    SET_SSE2(G, a, b, c, d, W[ 5], S21, 21);
                   1358: +    SET_SSE2(G, d, a, b, c, W[10], S22, 22);
                   1359: +    SET_SSE2(G, c, d, a, b, W[15], S23, 23);
                   1360: +    SET_SSE2(G, b, c, d, a, W[ 4], S24, 24);
                   1361: +    SET_SSE2(G, a, b, c, d, W[ 9], S21, 25);
                   1362: +    SET_SSE2(G, d, a, b, c, W[14], S22, 26);
                   1363: +    SET_SSE2(G, c, d, a, b, W[ 3], S23, 27);
                   1364: +    SET_SSE2(G, b, c, d, a, W[ 8], S24, 28);
                   1365: +    SET_SSE2(G, a, b, c, d, W[13], S21, 29);
                   1366: +    SET_SSE2(G, d, a, b, c, W[ 2], S22, 30);
                   1367: +    SET_SSE2(G, c, d, a, b, W[ 7], S23, 31);
                   1368: +    SET_SSE2(G, b, c, d, a, W[12], S24, 32);
                   1369: +
                   1370: +    SET_SSE2(H, a, b, c, d, W[ 5], S31, 33);
                   1371: +    SET_SSE2(H, d, a, b, c, W[ 8], S32, 34);
                   1372: +    SET_SSE2(H, c, d, a, b, W[11], S33, 35);
                   1373: +    SET_SSE2(H, b, c, d, a, W[14], S34, 36);
                   1374: +    SET_SSE2(H, a, b, c, d, W[ 1], S31, 37);
                   1375: +    SET_SSE2(H, d, a, b, c, W[ 4], S32, 38);
                   1376: +    SET_SSE2(H, c, d, a, b, W[ 7], S33, 39);
                   1377: +    SET_SSE2(H, b, c, d, a, W[10], S34, 40);
                   1378: +    SET_SSE2(H, a, b, c, d, W[13], S31, 41);
                   1379: +    SET_SSE2(H, d, a, b, c, W[ 0], S32, 42);
                   1380: +    SET_SSE2(H, c, d, a, b, W[ 3], S33, 43);
                   1381: +    SET_SSE2(H, b, c, d, a, W[ 6], S34, 44);
                   1382: +    SET_SSE2(H, a, b, c, d, W[ 9], S31, 45);
                   1383: +    SET_SSE2(H, d, a, b, c, W[12], S32, 46);
                   1384: +    SET_SSE2(H, c, d, a, b, W[15], S33, 47);
                   1385: +    SET_SSE2(H, b, c, d, a, W[ 2], S34, 48);
                   1386: +
                   1387: +    SET_SSE2(I, a, b, c, d, W[ 0], S41, 49);
                   1388: +    SET_SSE2(I, d, a, b, c, W[ 7], S42, 50);
                   1389: +    SET_SSE2(I, c, d, a, b, W[14], S43, 51);
                   1390: +    SET_SSE2(I, b, c, d, a, W[ 5], S44, 52);
                   1391: +    SET_SSE2(I, a, b, c, d, W[12], S41, 53);
                   1392: +    SET_SSE2(I, d, a, b, c, W[ 3], S42, 54);
                   1393: +    SET_SSE2(I, c, d, a, b, W[10], S43, 55);
                   1394: +    SET_SSE2(I, b, c, d, a, W[ 1], S44, 56);
                   1395: +    SET_SSE2(I, a, b, c, d, W[ 8], S41, 57);
                   1396: +    SET_SSE2(I, d, a, b, c, W[15], S42, 58);
                   1397: +    SET_SSE2(I, c, d, a, b, W[ 6], S43, 59);
                   1398: +    SET_SSE2(I, b, c, d, a, W[13], S44, 60);
                   1399: +    SET_SSE2(I, a, b, c, d, W[ 4], S41, 61);
                   1400: +    SET_SSE2(I, d, a, b, c, W[11], S42, 62);
                   1401: +    SET_SSE2(I, c, d, a, b, W[ 2], S43, 63);
                   1402: +    SET_SSE2(I, b, c, d, a, W[ 9], S44, 64);
                   1403: +
                   1404: +    ctx->state_sse2[0] = _mm_add_epi32(ctx->state_sse2[0], a);
                   1405: +    ctx->state_sse2[1] = _mm_add_epi32(ctx->state_sse2[1], b);
                   1406: +    ctx->state_sse2[2] = _mm_add_epi32(ctx->state_sse2[2], c);
                   1407: +    ctx->state_sse2[3] = _mm_add_epi32(ctx->state_sse2[3], d);
                   1408: +}
                   1409: +#endif
                   1410: +
                   1411: +#ifdef PMD5_ALLOW_AVX2
                   1412: +__attribute__ ((target("avx2"))) MVSTATIC void pmd5_process(pmd5_context * ctx, const uint8_t * data[PMD5_SLOTS_MAX])
                   1413: +{
                   1414: +    __m256i W[MD5_DIGEST_LEN], a, b, c, d;
                   1415: +
                   1416: +    GET_PMD5_DATA_AVX2(W[ 0], data,  0);
                   1417: +    GET_PMD5_DATA_AVX2(W[ 1], data,  4);
                   1418: +    GET_PMD5_DATA_AVX2(W[ 2], data,  8);
                   1419: +    GET_PMD5_DATA_AVX2(W[ 3], data, 12);
                   1420: +    GET_PMD5_DATA_AVX2(W[ 4], data, 16);
                   1421: +    GET_PMD5_DATA_AVX2(W[ 5], data, 20);
                   1422: +    GET_PMD5_DATA_AVX2(W[ 6], data, 24);
                   1423: +    GET_PMD5_DATA_AVX2(W[ 7], data, 28);
                   1424: +    GET_PMD5_DATA_AVX2(W[ 8], data, 32);
                   1425: +    GET_PMD5_DATA_AVX2(W[ 9], data, 36);
                   1426: +    GET_PMD5_DATA_AVX2(W[10], data, 40);
                   1427: +    GET_PMD5_DATA_AVX2(W[11], data, 44);
                   1428: +    GET_PMD5_DATA_AVX2(W[12], data, 48);
                   1429: +    GET_PMD5_DATA_AVX2(W[13], data, 52);
                   1430: +    GET_PMD5_DATA_AVX2(W[14], data, 56);
                   1431: +    GET_PMD5_DATA_AVX2(W[15], data, 60);
                   1432: +
                   1433: +    a = ctx->state_avx2[0];
                   1434: +    b = ctx->state_avx2[1];
                   1435: +    c = ctx->state_avx2[2];
                   1436: +    d = ctx->state_avx2[3];
                   1437: +
                   1438: +    SET_AVX2(F, a, b, c, d, W[ 0], S11,  1);
                   1439: +    SET_AVX2(F, d, a, b, c, W[ 1], S12,  2);
                   1440: +    SET_AVX2(F, c, d, a, b, W[ 2], S13,  3);
                   1441: +    SET_AVX2(F, b, c, d, a, W[ 3], S14,  4);
                   1442: +    SET_AVX2(F, a, b, c, d, W[ 4], S11,  5);
                   1443: +    SET_AVX2(F, d, a, b, c, W[ 5], S12,  6);
                   1444: +    SET_AVX2(F, c, d, a, b, W[ 6], S13,  7);
                   1445: +    SET_AVX2(F, b, c, d, a, W[ 7], S14,  8);
                   1446: +    SET_AVX2(F, a, b, c, d, W[ 8], S11,  9);
                   1447: +    SET_AVX2(F, d, a, b, c, W[ 9], S12, 10);
                   1448: +    SET_AVX2(F, c, d, a, b, W[10], S13, 11);
                   1449: +    SET_AVX2(F, b, c, d, a, W[11], S14, 12);
                   1450: +    SET_AVX2(F, a, b, c, d, W[12], S11, 13);
                   1451: +    SET_AVX2(F, d, a, b, c, W[13], S12, 14);
                   1452: +    SET_AVX2(F, c, d, a, b, W[14], S13, 15);
                   1453: +    SET_AVX2(F, b, c, d, a, W[15], S14, 16);
                   1454: +
                   1455: +    SET_AVX2(G, a, b, c, d, W[ 1], S21, 17);
                   1456: +    SET_AVX2(G, d, a, b, c, W[ 6], S22, 18);
                   1457: +    SET_AVX2(G, c, d, a, b, W[11], S23, 19);
                   1458: +    SET_AVX2(G, b, c, d, a, W[ 0], S24, 20);
                   1459: +    SET_AVX2(G, a, b, c, d, W[ 5], S21, 21);
                   1460: +    SET_AVX2(G, d, a, b, c, W[10], S22, 22);
                   1461: +    SET_AVX2(G, c, d, a, b, W[15], S23, 23);
                   1462: +    SET_AVX2(G, b, c, d, a, W[ 4], S24, 24);
                   1463: +    SET_AVX2(G, a, b, c, d, W[ 9], S21, 25);
                   1464: +    SET_AVX2(G, d, a, b, c, W[14], S22, 26);
                   1465: +    SET_AVX2(G, c, d, a, b, W[ 3], S23, 27);
                   1466: +    SET_AVX2(G, b, c, d, a, W[ 8], S24, 28);
                   1467: +    SET_AVX2(G, a, b, c, d, W[13], S21, 29);
                   1468: +    SET_AVX2(G, d, a, b, c, W[ 2], S22, 30);
                   1469: +    SET_AVX2(G, c, d, a, b, W[ 7], S23, 31);
                   1470: +    SET_AVX2(G, b, c, d, a, W[12], S24, 32);
                   1471: +
                   1472: +    SET_AVX2(H, a, b, c, d, W[ 5], S31, 33);
                   1473: +    SET_AVX2(H, d, a, b, c, W[ 8], S32, 34);
                   1474: +    SET_AVX2(H, c, d, a, b, W[11], S33, 35);
                   1475: +    SET_AVX2(H, b, c, d, a, W[14], S34, 36);
                   1476: +    SET_AVX2(H, a, b, c, d, W[ 1], S31, 37);
                   1477: +    SET_AVX2(H, d, a, b, c, W[ 4], S32, 38);
                   1478: +    SET_AVX2(H, c, d, a, b, W[ 7], S33, 39);
                   1479: +    SET_AVX2(H, b, c, d, a, W[10], S34, 40);
                   1480: +    SET_AVX2(H, a, b, c, d, W[13], S31, 41);
                   1481: +    SET_AVX2(H, d, a, b, c, W[ 0], S32, 42);
                   1482: +    SET_AVX2(H, c, d, a, b, W[ 3], S33, 43);
                   1483: +    SET_AVX2(H, b, c, d, a, W[ 6], S34, 44);
                   1484: +    SET_AVX2(H, a, b, c, d, W[ 9], S31, 45);
                   1485: +    SET_AVX2(H, d, a, b, c, W[12], S32, 46);
                   1486: +    SET_AVX2(H, c, d, a, b, W[15], S33, 47);
                   1487: +    SET_AVX2(H, b, c, d, a, W[ 2], S34, 48);
                   1488: +
                   1489: +    SET_AVX2(I, a, b, c, d, W[ 0], S41, 49);
                   1490: +    SET_AVX2(I, d, a, b, c, W[ 7], S42, 50);
                   1491: +    SET_AVX2(I, c, d, a, b, W[14], S43, 51);
                   1492: +    SET_AVX2(I, b, c, d, a, W[ 5], S44, 52);
                   1493: +    SET_AVX2(I, a, b, c, d, W[12], S41, 53);
                   1494: +    SET_AVX2(I, d, a, b, c, W[ 3], S42, 54);
                   1495: +    SET_AVX2(I, c, d, a, b, W[10], S43, 55);
                   1496: +    SET_AVX2(I, b, c, d, a, W[ 1], S44, 56);
                   1497: +    SET_AVX2(I, a, b, c, d, W[ 8], S41, 57);
                   1498: +    SET_AVX2(I, d, a, b, c, W[15], S42, 58);
                   1499: +    SET_AVX2(I, c, d, a, b, W[ 6], S43, 59);
                   1500: +    SET_AVX2(I, b, c, d, a, W[13], S44, 60);
                   1501: +    SET_AVX2(I, a, b, c, d, W[ 4], S41, 61);
                   1502: +    SET_AVX2(I, d, a, b, c, W[11], S42, 62);
                   1503: +    SET_AVX2(I, c, d, a, b, W[ 2], S43, 63);
                   1504: +    SET_AVX2(I, b, c, d, a, W[ 9], S44, 64);
                   1505: +
                   1506: +    ctx->state_avx2[0] = _mm256_add_epi32(ctx->state_avx2[0], a);
                   1507: +    ctx->state_avx2[1] = _mm256_add_epi32(ctx->state_avx2[1], b);
                   1508: +    ctx->state_avx2[2] = _mm256_add_epi32(ctx->state_avx2[2], c);
                   1509: +    ctx->state_avx2[3] = _mm256_add_epi32(ctx->state_avx2[3], d);
                   1510: +}
                   1511: +#endif
                   1512: +
                   1513: +__attribute__ ((target("default"))) MVSTATIC void pmd5_process(pmd5_context * ctx, const uint8_t * data[PMD5_SLOTS_MAX])
                   1514: +{
                   1515: +}
                   1516: +
                   1517: +static pmd5_status pmd5_update_all_simple(pmd5_context * ctx, const uint8_t * data[PMD5_SLOTS_MAX], uint64_t length, uint64_t stride)
                   1518: +{
                   1519: +    const uint8_t * ptrs[PMD5_SLOTS_MAX];
                   1520: +
                   1521: +    if (!length) return PMD5_SUCCESS;
                   1522: +
                   1523: +    int slots = pmd5_slots();
                   1524: +
                   1525: +    if (!stride) stride = 64;
                   1526: +
                   1527: +    int i;
                   1528: +    for (i = 0; i < slots; i++) {
                   1529: +        ptrs[i] = data[i];
                   1530: +        ctx->len[i] += length;
                   1531: +        if (!ptrs[i]) ptrs[i] = md5_padding;
                   1532: +    }
                   1533: +
                   1534: +    while (length >= 64) {
                   1535: +        pmd5_process(ctx, ptrs);
                   1536: +        length -= 64;
                   1537: +        for (i = 0; i < slots; i++) {
                   1538: +            if (data[i]) ptrs[i] += stride;
                   1539: +        }
                   1540: +    }
                   1541: +
                   1542: +    if (length) return PMD5_UNALIGNED_UPDATE;
                   1543: +
                   1544: +    for (i = 0; i < slots; i++) {
                   1545: +        if (data[i]) data[i] = ptrs[i];
                   1546: +    }
                   1547: +
                   1548: +    return PMD5_SUCCESS;
                   1549: +}
                   1550: +
                   1551: +static pmd5_status pmd5_update_all(pmd5_context * ctx, const uint8_t * data[PMD5_SLOTS_MAX], uint64_t lengths[PMD5_SLOTS_MAX])
                   1552: +{
                   1553: +    uint64_t length = 0;
                   1554: +    int slots = pmd5_slots();
                   1555: +
                   1556: +    int i;
                   1557: +    for (i = 0; i < slots; i++) {
                   1558: +        if ((length == 0) || (lengths[i] < length)) length = lengths[i];
                   1559: +    }
                   1560: +
                   1561: +    for (i = 0; i < slots; i++) {
                   1562: +        lengths[i] -= length;
                   1563: +    }
                   1564: +
                   1565: +    return pmd5_update_all_simple(ctx, data, length, 0);
                   1566: +}
                   1567: +
                   1568: +static pmd5_status pmd5_finish_slot_with_extra(pmd5_context * pctx, uint8_t digest[MD5_DIGEST_LEN], int slot, const uint8_t * data, uint64_t length)
                   1569: +{
                   1570: +    MD5_CTX ctx;
                   1571: +
                   1572: +    if ((slot >= pmd5_slots()) || (slot < 0))
                   1573: +        return PMD5_INVALID_SLOT;
                   1574: +
                   1575: +    pmd5_to_md5(pctx, &ctx, slot);
                   1576: +    if (data && length) {
                   1577: +        MD5_Update(&ctx, data, length);
                   1578: +    }
                   1579: +    MD5_Final(digest, &ctx);
                   1580: +
                   1581: +    return PMD5_SUCCESS;
                   1582: +}
                   1583: +
                   1584: +static pmd5_status pmd5_finish_slot(pmd5_context * pctx, uint8_t digest[MD5_DIGEST_LEN], int slot)
                   1585: +{
                   1586: +    return pmd5_finish_slot_with_extra(pctx, digest, slot, NULL, 0);
                   1587: +}
                   1588: +
                   1589: +static pmd5_status pmd5_finish_all(pmd5_context * ctx, uint8_t digests[PMD5_SLOTS_MAX][MD5_DIGEST_LEN])
                   1590: +{
                   1591: +    int i;
                   1592: +    for (i = 0; i < pmd5_slots(); i++) {
                   1593: +        pmd5_finish_slot_with_extra(ctx, digests[i], i, NULL, 0);
                   1594: +    }
                   1595: +    return PMD5_SUCCESS;
                   1596: +}
                   1597: +
                   1598: +static pmd5_status md5_to_pmd5(const MD5_CTX * ctx, pmd5_context * pctx, int slot)
                   1599: +{
                   1600: +    if ((slot >= pmd5_slots()) || (slot < 0))
                   1601: +        return PMD5_INVALID_SLOT;
                   1602: +
                   1603: +    // TODO This function ignores buffered but as of yet unhashed data. We're not using this function, just noting.
                   1604: +
                   1605: +#ifdef USE_OPENSSL
                   1606: +    pctx->len[slot] = (ctx->Nl >> 3) + ((uint64_t)ctx->Nh << 29);
                   1607: +#else
                   1608: +    pctx->len[slot] = ctx->totalN + ((uint64_t)ctx->totalN2 << 32);
                   1609: +#endif
                   1610: +    return pmd5_set_slot(pctx, slot, (uint32_t)ctx->A, (uint32_t)ctx->B, (uint32_t)ctx->C, (uint32_t)ctx->D);
                   1611: +}
                   1612: +
                   1613: +static pmd5_status pmd5_to_md5(const pmd5_context * pctx, MD5_CTX * ctx, int slot)
                   1614: +{
                   1615: +    if ((slot >= pmd5_slots()) || (slot < 0))
                   1616: +        return PMD5_INVALID_SLOT;
                   1617: +
                   1618: +    MD5_Init(ctx);
                   1619: +
                   1620: +#ifdef USE_OPENSSL
                   1621: +    ctx->Nl = (pctx->len[slot] << 3) & 0xFFFFFFFF;
                   1622: +    ctx->Nh = pctx->len[slot] >> 29;
                   1623: +
                   1624: +    uint32_t a, b, c, d;
                   1625: +    pmd5_status ret = pmd5_get_slot(pctx, slot, &a, &b, &c, &d);
                   1626: +    if (ret == PMD5_SUCCESS) {
                   1627: +        ctx->A = a;
                   1628: +        ctx->B = b;
                   1629: +        ctx->C = c;
                   1630: +        ctx->D = d;
                   1631: +    }
                   1632: +    return ret;
                   1633: +#else
                   1634: +    ctx->totalN = pctx->len[slot] & 0xFFFFFFFF;
                   1635: +    ctx->totalN2 = pctx->len[slot] >> 32;
                   1636: +    return pmd5_get_slot(pctx, slot, &ctx->A, &ctx->B, &ctx->C, &ctx->D);
                   1637: +#endif
                   1638: +}
                   1639: +
                   1640: +/* With GCC 10 putting these implementations inside 'extern "C"' causes an
                   1641: +   assembler error. That worked fine on GCC 5-9 and clang 6-10...
                   1642: +  */
                   1643: +
                   1644: +static inline int md5_parallel_slots_cpp()
                   1645: +{
                   1646: +    int slots = pmd5_slots();
                   1647: +    if (slots == 0) return 1;
                   1648: +    return slots;
                   1649: +}
                   1650: +
                   1651: +static inline int md5_parallel_cpp(int streams, char** buf, int* len, char** sum, char* pre4, char* post4)
                   1652: +{
                   1653: +    int slots = md5_parallel_slots_cpp();
                   1654: +    if ((streams < 1) || (streams > slots)) return 0;
                   1655: +    if (pre4 && post4) return 0;
                   1656: +
                   1657: +    if (slots == 1) {
                   1658: +        MD5_CTX ctx;
                   1659: +        MD5_Init(&ctx);
                   1660: +        if (pre4) {
                   1661: +            MD5_Update(&ctx, (const unsigned char*)pre4, 4);
                   1662: +        }
                   1663: +        MD5_Update(&ctx, (const unsigned char*)buf[0], len[0]);
                   1664: +        if (post4) {
                   1665: +            MD5_Update(&ctx, (const unsigned char*)post4, 4);
                   1666: +        }
                   1667: +        if (sum[0]) {
                   1668: +            MD5_Final((uint8_t*)sum[0], &ctx);
                   1669: +        }
                   1670: +        return 0;
                   1671: +    }
                   1672: +
                   1673: +    int i;
                   1674: +    int active[PMD5_SLOTS_MAX];
                   1675: +    char* buffers[PMD5_SLOTS_MAX];
                   1676: +    uint64_t left[PMD5_SLOTS_MAX];
                   1677: +    for (i = 0; i < PMD5_SLOTS_MAX; i++) {
                   1678: +        active[i] = streams > i;
                   1679: +        if (i < streams) {
                   1680: +            buffers[i] = buf[i];
                   1681: +            left[i] = (uint64_t)len[i];
                   1682: +        } else {
                   1683: +            buffers[i] = NULL;
                   1684: +            left[i] = 0;
                   1685: +        }
                   1686: +    }
                   1687: +    MD5_CTX results[PMD5_SLOTS_MAX];
                   1688: +
                   1689: +    pmd5_context ctx_simd;
                   1690: +    if (pmd5_init_all(&ctx_simd) != PMD5_SUCCESS) return 0;
                   1691: +
                   1692: +    if (pre4) {
                   1693: +        char temp_buffers[PMD5_SLOTS_MAX][64];
                   1694: +        int have_any = 0;
                   1695: +        for (i = 0; i < slots; i++) {
                   1696: +            if (active[i]) {
                   1697: +                if (left[i] < 60) {
                   1698: +                    MD5_Init(&results[i]);
                   1699: +                    MD5_Update(&results[i], (const unsigned char*)pre4, 4);
                   1700: +                    MD5_Update(&results[i], (const unsigned char*)buf[i], left[i]);
                   1701: +                    active[i] = 0;
                   1702: +                    left[i] = 0;
                   1703: +                } else {
                   1704: +                    memcpy(temp_buffers[i], pre4, 4);
                   1705: +                    memcpy(temp_buffers[i] + 4, buffers[i], 60);
                   1706: +                    buffers[i] += 60;
                   1707: +                    left[i] -= 60;
                   1708: +                    have_any = 1;
                   1709: +                }
                   1710: +            }
                   1711: +        }
                   1712: +
                   1713: +        if (have_any) {
                   1714: +            char* ptrs[PMD5_SLOTS_MAX];
                   1715: +            for (i = 0; i < PMD5_SLOTS_MAX; i++) {
                   1716: +                ptrs[i] = &temp_buffers[i][0];
                   1717: +            }
                   1718: +            if (pmd5_update_all_simple(&ctx_simd, (const uint8_t**)ptrs, 64, 0) != PMD5_SUCCESS) {
                   1719: +                return 0;
                   1720: +            }
                   1721: +        }
                   1722: +    }
                   1723: +
                   1724: +    int failed = 0;
                   1725: +    while (true) {
                   1726: +        for (i = 0; i < slots; i++) {
                   1727: +            if (active[i] && (left[i] < 64)) {
                   1728: +                if (pmd5_to_md5(&ctx_simd, &results[i], i) != PMD5_SUCCESS) {
                   1729: +                    failed = 1;
                   1730: +                }
                   1731: +                active[i] = 0;
                   1732: +            }
                   1733: +        }
                   1734: +
                   1735: +        uint64_t shortest = 0;
                   1736: +        for (i = 0; i < slots; i++) {
                   1737: +            if (!active[i]) {
                   1738: +                buffers[i] = NULL;
                   1739: +            } else if ((shortest == 0) || (left[i] < shortest)) {
                   1740: +                shortest = left[i];
                   1741: +            }
                   1742: +        }
                   1743: +
                   1744: +        if (shortest > 0) {
                   1745: +            shortest = shortest & ~63;
                   1746: +            if (pmd5_update_all_simple(&ctx_simd, (const uint8_t**)buffers, shortest, 0) != PMD5_SUCCESS) {
                   1747: +                failed = 1;
                   1748: +            }
                   1749: +            for (i = 0; i < slots; i++) {
                   1750: +                if (active[i]) {
                   1751: +                    left[i] -= shortest;
                   1752: +                }
                   1753: +            }
                   1754: +        }
                   1755: +
                   1756: +        if (failed) {
                   1757: +            return 0;
                   1758: +        } else {
                   1759: +            int have_any = 0;
                   1760: +            for (i = 0; i < slots; i++) {
                   1761: +                have_any |= active[i];
                   1762: +            }
                   1763: +            if (!have_any) {
                   1764: +                break;
                   1765: +            }
                   1766: +        }
                   1767: +    }
                   1768: +
                   1769: +    for (i = 0; i < slots; i++) {
                   1770: +        if (i < streams) {
                   1771: +            if (left[i] > 0) {
                   1772: +                // buffer[i] == NULL here
                   1773: +                MD5_Update(&results[i], (const unsigned char*)buf[i] + len[i] - left[i], left[i]);
                   1774: +            }
                   1775: +            if (post4) {
                   1776: +                MD5_Update(&results[i], (const unsigned char*)post4, 4);
                   1777: +            }
                   1778: +            if (sum[i]) {
                   1779: +                MD5_Final((uint8_t*)sum[i], &results[i]);
                   1780: +            }
                   1781: +        }
                   1782: +    }
                   1783: +
                   1784: +    return 1;
                   1785: +}
                   1786: +
                   1787: +// each pmd5_context needs to be 32-byte aligned
                   1788: +#define MD5P8_Contexts_simd(ctx, index) ((pmd5_context*)((((uintptr_t)((ctx)->context_storage) + 31) & ~31) + (index)*((sizeof(pmd5_context) + 31) & ~31)))
                   1789: +
                   1790: +static inline void MD5P8_Init_cpp(MD5P8_CTX *ctx)
                   1791: +{
                   1792: +    int i;
                   1793: +    for (i = 0; i < (pmd5_slots() == PMD5_SLOTS_AVX2 ? 1 : 2); i++) {
                   1794: +        pmd5_init_all(MD5P8_Contexts_simd(ctx, i));
                   1795: +    }
                   1796: +    ctx->used = 0;
                   1797: +    ctx->next = 0;
                   1798: +}
                   1799: +
                   1800: +static inline void MD5P8_Update_cpp(MD5P8_CTX *ctx, const uchar *input, uint32 length)
                   1801: +{
                   1802: +    int slots = pmd5_slots();
                   1803: +    uint32 pos = 0;
                   1804: +
                   1805: +    if ((ctx->used) || (length < 512)) {
                   1806: +        int cpy = MIN(length, 512 - ctx->used);
                   1807: +        memcpy(&ctx->buffer[ctx->used], input, cpy);
                   1808: +        ctx->used += cpy;
                   1809: +        length -= cpy;
                   1810: +        pos += cpy;
                   1811: +
                   1812: +        if (ctx->used == 512) {
                   1813: +            if (slots == PMD5_SLOTS_AVX2) {
                   1814: +                const uint8_t* ptrs[PMD5_SLOTS_MAX] = {
                   1815: +                    (uint8_t*)ctx->buffer,
                   1816: +                    (uint8_t*)(ctx->buffer + 64),
                   1817: +                    (uint8_t*)(ctx->buffer + 128),
                   1818: +                    (uint8_t*)(ctx->buffer + 192),
                   1819: +                    (uint8_t*)(ctx->buffer + 256),
                   1820: +                    (uint8_t*)(ctx->buffer + 320),
                   1821: +                    (uint8_t*)(ctx->buffer + 384),
                   1822: +                    (uint8_t*)(ctx->buffer + 448)
                   1823: +                };
                   1824: +                pmd5_update_all_simple(MD5P8_Contexts_simd(ctx, 0), ptrs, 64, 0);
                   1825: +            } else {
                   1826: +                const uint8_t* ptrs1[PMD5_SLOTS_MAX] = {
                   1827: +                    (uint8_t*)ctx->buffer,
                   1828: +                    (uint8_t*)(ctx->buffer + 64),
                   1829: +                    (uint8_t*)(ctx->buffer + 128),
                   1830: +                    (uint8_t*)(ctx->buffer + 192)
                   1831: +                };
                   1832: +                const uint8_t* ptrs2[PMD5_SLOTS_MAX] = {
                   1833: +                    (uint8_t*)(ctx->buffer + 256),
                   1834: +                    (uint8_t*)(ctx->buffer + 320),
                   1835: +                    (uint8_t*)(ctx->buffer + 384),
                   1836: +                    (uint8_t*)(ctx->buffer + 448)
                   1837: +                };
                   1838: +                pmd5_update_all_simple(MD5P8_Contexts_simd(ctx, 0), ptrs1, 64, 0);
                   1839: +                pmd5_update_all_simple(MD5P8_Contexts_simd(ctx, 1), ptrs2, 64, 0);
                   1840: +            }
                   1841: +            ctx->used = 0;
                   1842: +        }
                   1843: +    }
                   1844: +
                   1845: +    if (length >= 512) {
                   1846: +        uint32 blocks = length / 512;
                   1847: +        if (slots == PMD5_SLOTS_AVX2) {
                   1848: +            const uint8_t* ptrs[8] = {
                   1849: +                (uint8_t*)(input + pos),
                   1850: +                (uint8_t*)(input + pos + 64),
                   1851: +                (uint8_t*)(input + pos + 128),
                   1852: +                (uint8_t*)(input + pos + 192),
                   1853: +                (uint8_t*)(input + pos + 256),
                   1854: +                (uint8_t*)(input + pos + 320),
                   1855: +                (uint8_t*)(input + pos + 384),
                   1856: +                (uint8_t*)(input + pos + 448)
                   1857: +            };
                   1858: +            pmd5_update_all_simple(MD5P8_Contexts_simd(ctx, 0), ptrs, blocks * 64, 512);
                   1859: +        } else {
                   1860: +            const uint8_t* ptrs1[4] = {
                   1861: +                (uint8_t*)(input + pos),
                   1862: +                (uint8_t*)(input + pos + 64),
                   1863: +                (uint8_t*)(input + pos + 128),
                   1864: +                (uint8_t*)(input + pos + 192)
                   1865: +            };
                   1866: +            const uint8_t* ptrs2[4] = {
                   1867: +                (uint8_t*)(input + pos + 256),
                   1868: +                (uint8_t*)(input + pos + 320),
                   1869: +                (uint8_t*)(input + pos + 384),
                   1870: +                (uint8_t*)(input + pos + 448)
                   1871: +            };
                   1872: +            pmd5_update_all_simple(MD5P8_Contexts_simd(ctx, 0), ptrs1, blocks * 64, 512);
                   1873: +            pmd5_update_all_simple(MD5P8_Contexts_simd(ctx, 1), ptrs2, blocks * 64, 512);
                   1874: +        }
                   1875: +        pos += blocks * 512;
                   1876: +        length -= blocks * 512;
                   1877: +    }
                   1878: +
                   1879: +    if (length) {
                   1880: +        memcpy(ctx->buffer, &input[pos], length);
                   1881: +        ctx->used = length;
                   1882: +    }
                   1883: +}
                   1884: +
                   1885: +static inline void MD5P8_Final_cpp(uchar digest[MD5_DIGEST_LEN], MD5P8_CTX *ctx)
                   1886: +{
                   1887: +    int i;
                   1888: +    uint32 low = 0, high = 0, sub = ctx->used ? 512 - ctx->used : 0;
                   1889: +    if (ctx->used) {
                   1890: +        uchar tmp[512];
                   1891: +        memset(tmp, 0, 512);
                   1892: +        MD5P8_Update(ctx, tmp, 512 - ctx->used);
                   1893: +    }
                   1894: +
                   1895: +    uchar state[34*4] = {0};
                   1896: +
                   1897: +    MD5_CTX tmp;
                   1898: +    for (i = 0; i < 8; i++) {
                   1899: +        if (pmd5_slots() == PMD5_SLOTS_AVX2) {
                   1900: +            pmd5_to_md5(MD5P8_Contexts_simd(ctx, 0), &tmp, i);
                   1901: +        } else if (i < 4) {
                   1902: +            pmd5_to_md5(MD5P8_Contexts_simd(ctx, 0), &tmp, i);
                   1903: +        } else {
                   1904: +            pmd5_to_md5(MD5P8_Contexts_simd(ctx, 1), &tmp, i - 4);
                   1905: +        }
                   1906: +#ifdef USE_OPENSSL
                   1907: +        if (low + tmp.Nl < low) high++;
                   1908: +        low += tmp.Nl;
                   1909: +        high += tmp.Nh;
                   1910: +#else
                   1911: +        if (low + tmp.totalN < low) high++;
                   1912: +        low += tmp.totalN;
                   1913: +        high += tmp.totalN2;
                   1914: +#endif
                   1915: +        SIVALu(state, i*16, tmp.A);
                   1916: +        SIVALu(state, i*16 + 4, tmp.B);
                   1917: +        SIVALu(state, i*16 + 8, tmp.C);
                   1918: +        SIVALu(state, i*16 + 12, tmp.D);
                   1919: +    }
                   1920: +
                   1921: +#ifndef USE_OPENSSL
                   1922: +    high = (low >> 29) | (high << 3);
                   1923: +    low = (low << 3);
                   1924: +#endif
                   1925: +
                   1926: +    sub <<= 3;
                   1927: +    if (low - sub > low) high--;
                   1928: +    low -= sub;
                   1929: +
                   1930: +    SIVALu(state, 32*4, low);
                   1931: +    SIVALu(state, 33*4, high);
                   1932: +
                   1933: +    MD5_CTX md;
                   1934: +    MD5_Init(&md);
                   1935: +    MD5_Update(&md, state, 34*4);
                   1936: +    MD5_Final(digest, &md);
                   1937: +}
                   1938: +
                   1939: +extern "C" {
                   1940: +
                   1941: +int md5_parallel_slots()
                   1942: +{
                   1943: +    return md5_parallel_slots_cpp();
                   1944: +}
                   1945: +
                   1946: +int md5_parallel(int streams, char** buf, int* len, char** sum, char* pre4, char* post4)
                   1947: +{
                   1948: +    return md5_parallel_cpp(streams, buf, len, sum, pre4, post4);
                   1949: +}
                   1950: +
                   1951: +void MD5P8_Init(MD5P8_CTX *ctx)
                   1952: +{
                   1953: +    MD5P8_Init_cpp(ctx);
                   1954: +}
                   1955: +
                   1956: +void MD5P8_Update(MD5P8_CTX *ctx, const uchar *input, uint32 length)
                   1957: +{
                   1958: +    MD5P8_Update_cpp(ctx, input, length);
                   1959: +}
                   1960: +
                   1961: +void MD5P8_Final(uchar digest[MD5_DIGEST_LEN], MD5P8_CTX *ctx)
                   1962: +{
                   1963: +    MD5P8_Final_cpp(digest, ctx);
                   1964: +}
                   1965: +
                   1966: +} // "C"
                   1967: +
                   1968: +#endif /* HAVE_SIMD */
                   1969: +#endif /* __cplusplus */
                   1970: +#endif /* __x86_64__ */

FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>