new makefile and modified build process

[avr-crypto-lib.git] / shabal / shabal-asm.S
diff --git a/shabal/shabal-asm.S b/shabal/shabal-asm.S

new file mode 100644 (file)

index 0000000..31879b3
--- /dev/null
+++ b/shabal/shabal-asm.S
@@ -0,0 +1,739 @@
+/* shabal-asm.S */
+/*
+    This file is part of the AVR-Crypto-Lib.
+    Copyright (C) 2009  Daniel Otte (daniel.otte@rub.de)
+
+    This program is free software: you can redistribute it and/or modify
+    it under the terms of the GNU General Public License as published by
+    the Free Software Foundation, either version 3 of the License, or
+    (at your option) any later version.
+
+    This program is distributed in the hope that it will be useful,
+    but WITHOUT ANY WARRANTY; without even the implied warranty of
+    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+    GNU General Public License for more details.
+
+    You should have received a copy of the GNU General Public License
+    along with this program.  If not, see <http://www.gnu.org/licenses/>.
+*/
+/*
+ * \file    shabal-asm.S
+ * \author  Daniel Otte
+ * \email   daniel.otte@rub.de
+ * \date    2009-04-27
+ * \license GPLv3 or later
+ */ 
+
+#include "avr-asm-macros.S"
+
+/******************************************************************************/
+/*
+void shabal_p(shabal_ctx_t* ctx, const void* m){
+       uint8_t i,j;
+       for(i=0;i<16;++i){
+               ctx->b[i] = ROTL32(ctx->b[i],17);
+       }
+       for(j=0;j<SHABAL_P;++j){
+               for(i=0;i<16;++i){
+                       ctx->a[(i+16*j)%SHABAL_R] =
+                               shabal_u(ctx->a[(i+16*j)%SHABAL_R] 
+                                       ^ shabal_v(ROTL32(ctx->a[(i+16*j+SHABAL_R-1)%SHABAL_R],15))
+                                   ^ ctx->c[(8-i+16)%16])
+                               ^ ctx->b[(i+SHABAL_O1)%16]
+                               ^ ((ctx->b[(i+SHABAL_O2)%16]) & ~(ctx->b[(i+SHABAL_O3)%16]))
+                               ^ ((uint32_t*)m)[i];
+                       ctx->b[i] = ROTL32(ctx->b[i], 1) ^ ~(ctx->a[(i+16*j)%SHABAL_R]);
+               }
+       }
+       
+       for(j=0;j<36;++j){
+               ctx->a[j%SHABAL_R] += ctx->c[(j+3)%16];
+       }
+}
+*/
+MB0 =  2
+MB1 =  3
+AB0 =  4
+AB1 =  5
+BB0 =  6
+BB1 =  7
+CB0 =  8
+CB1 =  9
+AL0 = 10
+AL1 = 11
+AL2 = 12
+AL3 = 13
+A0  = 14
+A1  = 15
+A2  = 16
+A3  = 17
+B0  = 18
+B1  = 19
+B2  = 20
+B3  = 21
+I   = 22
+J   = 23
+T0  = 26
+T1  = 27
+T2  = 28
+T3  = 29
+/*
+ * param ctx: r24:r25
+ * param m:   r22:r23 
+ */
+; .global shabal_p
+shabal_p:
+       push_range 2, 17
+       push r28
+       push r29
+       movw MB0, r22
+       movw r30, r24
+       adiw r30, 8
+       ld BB0, Z+
+       ld BB1, Z+
+       ld CB0, Z+
+       ld CB1, Z+
+       movw AB0, r30
+       movw r30, BB0
+       adiw r30, 16*4-1
+       adiw r30, 1
+       ldi r24, 16
+1:
+       ld A3, -Z
+       ld A2, -Z
+       ld A1, -Z
+       ld A0, -Z       
+       mov r0, A3
+       rol r0
+       rol A0
+       rol A1
+       rol A2
+       rol A3
+       std Z+0, A2
+       std Z+1, A3
+       std Z+2, A0
+       std Z+3, A1
+       dec r24
+       brne 1b
+       movw B0, A2
+       movw B2, A0
+       /* load ctx->a[(i+16*j-1)%12]*/
+       movw r26, AB0
+       adiw r26, 4*11
+       ld AL0, X+
+       ld AL1, X+
+       ld AL2, X+
+       ld AL3, X+
+       clr I
+       clr J
+1:
+       /* ROTL32(AL, 15)*/
+       movw T0, AL2
+       movw T2, AL0
+       mov r0, T0
+       ror r0
+       ror T3
+       ror T2
+       ror T1
+       ror T0
+       movw AL0, T0
+       movw AL2, T2
+       /* apply V to AL */
+       movw A0, AL0
+       movw A2, AL2
+       lsl A0
+       rol A1
+       rol A2
+       rol A3
+       lsl A0
+       rol A1
+       rol A2
+       rol A3
+       add A0, AL0
+       adc A1, AL1     
+       adc A2, AL2
+       adc A3, AL3
+       /* xor in ctx->c[(8-i+16)%16] */
+       ldi T0, 24
+       sub T0, I
+       andi T0, 0x0f
+       lsl T0
+       lsl T0
+       movw r30, CB0
+       add r30, T0
+       adc r31, r1
+       ld r0, Z+
+       eor A0, r0
+       ld r0, Z+
+       eor A1, r0
+       ld r0, Z+
+       eor A2, r0
+       ld r0, Z+
+       eor A3, r0
+       /* xor in ctx->a[(i+16*j)%12] */
+       mov T0, J
+       swap T0 /* *=16 */
+       add T0, I
+       ldi r30, lo8(mod12table)
+       ldi r31, hi8(mod12table)
+       add r30, T0
+       adc r31, r1
+       lpm T0, Z
+       movw r30, AB0
+       add r30, T0
+       adc r31, r1
+       movw T2, r30
+       ld r0, Z+
+       eor A0, r0
+       ld r0, Z+
+       eor A1, r0
+       ld r0, Z+
+       eor A2, r0
+       ld r0, Z+
+       eor A3, r0
+       /* AL = 3*A */
+       movw AL0, A0
+       movw AL2, A2
+       lsl AL0
+       rol AL1
+       rol AL2
+       rol AL3
+       add AL0, A0
+       adc AL1, A1
+       adc AL2, A2
+       adc AL3, A3
+       /* xor in ctx->b[(i+13)%16] */
+       ldi T0, 13
+       add T0, I
+       andi T0, 0x0f
+       lsl T0
+       lsl T0
+       movw r30, BB0
+       add r30, T0
+       adc r31, r1
+       ld r0, Z+
+       eor AL0, r0
+       ld r0, Z+
+       eor AL1, r0
+       ld r0, Z+
+       eor AL2, r0
+       ld r0, Z+
+       eor AL3, r0
+       /* load ctx->b[(i+9)%16] into A */
+       ldi T0, 9
+       add T0, I
+       andi T0, 0x0f
+       lsl T0
+       lsl T0
+       movw r30, BB0
+       add r30, T0
+       adc r31, r1
+       ld A0, Z+
+       ld A1, Z+
+       ld A2, Z+
+       ld A3, Z+
+       /* and in ~(ctx->b[(i+6)%16]) */
+       ldi T0, 6
+       add T0, I
+       andi T0, 0x0f
+       lsl T0
+       lsl T0
+       movw r30, BB0
+       add r30, T0
+       adc r31, r1
+       ld r0, Z+
+       com r0
+       and A0, r0
+       ld r0, Z+
+       com r0
+       and A1, r0
+       ld r0, Z+
+       com r0
+       and A2, r0
+       ld r0, Z+
+       com r0
+       and A3, r0
+       /* xor A into AL */
+       eor AL0, A0
+       eor AL1, A1
+       eor AL2, A2
+       eor AL3, A3
+       /* xor m[i] into AL */
+       mov T0, I
+       lsl T0
+       lsl T0
+       movw r30, MB0
+       add r30, T0
+       adc r31, r1
+       ld r0, Z+
+       eor AL0, r0
+       ld r0, Z+
+       eor AL1, r0
+       ld r0, Z+
+       eor AL2, r0
+       ld r0, Z+
+       eor AL3, r0
+       /* A (AL) is done, now store it */
+       movw r30, T2
+       st Z+, AL0
+       st Z+, AL1
+       st Z+, AL2
+       st Z+, AL3
+       /* process ctx->b[i] */
+       /* ROTL32(b, 1)*/
+       mov r0, B3
+       rol r0
+       rol B0
+       rol B1
+       rol B2
+       rol B3
+       /* xor in ~(ctx->a[(i+16*j)%SHABAL_R]) */
+       movw A0, AL0
+       movw A2, AL2
+       com A0
+       com A1
+       com A2
+       com A3
+       eor B0, A0
+       eor B1, A1
+       eor B2, A2
+       eor B3, A3
+       /* store B */
+       movw r30, BB0
+       mov T0, I
+       lsl T0
+       lsl T0
+       add r30, T0
+       adc r31, r1
+       st Z+, B0
+       st Z+, B1
+       st Z+, B2
+       st Z+, B3
+       inc I
+       cpi I, 16
+       brne local_reload
+       inc J
+       cpi J, 3
+       brne global_reload
+       rjmp addition
+global_reload:
+       clr I
+local_reload:  
+       mov T0, I
+       lsl T0
+       lsl T0
+       movw r30, BB0 
+       add r30, T0
+       adc r31, r1
+       ld B0, Z+
+       ld B1, Z+
+       ld B2, Z+
+       ld B3, Z+
+       
+       rjmp 1b
+addition:
+       clr J
+       movw r30, AB0
+       movw r26, CB0
+       adiw r26, 3*4
+1:
+       /* J = 0..11 */
+       ld AL0, X+
+       ld A0, Z
+       add A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       inc J
+       cpi J, 12
+       brne 1b
+       /* J = 12 */
+       movw r30, AB0
+       ld AL0, X+
+       ld A0, Z
+       add A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       inc J
+       /* J= 13..23*/
+       movw r26, CB0
+1:     
+       ld AL0, X+
+       ld A0, Z
+       add A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       inc J
+       cpi J, 24
+       brne 1b
+       /* J= 24..28*/
+       movw r30, AB0
+1:     
+       ld AL0, X+
+       ld A0, Z
+       add A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       inc J
+       cpi J, 29
+       brne 1b
+
+       /* J= 29..35*/
+       movw r26, CB0
+1:     
+       ld AL0, X+
+       ld A0, Z
+       add A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       ld AL0, X+
+       ld A0, Z
+       adc A0, AL0
+       st Z+, A0
+       inc J
+       cpi J, 36
+       brne 1b 
+exit:  
+       pop r29
+       pop r28
+       pop_range 2, 17
+       ret
+
+mod12table:
+       .byte  0,  4,  8, 12, 16, 20, 24, 28
+       .byte 32, 36, 40, 44,  0,  4,  8, 12
+       .byte 16, 20, 24, 28, 32, 36, 40, 44
+       .byte  0,  4,  8, 12, 16, 20, 24, 28
+       .byte 32, 36, 40, 44,  0,  4,  8, 12
+       .byte 16, 20, 24, 28, 32, 36, 40, 44
+       
+/******************************************************************************/
+/*
+void shabal_nextBlock(shabal_ctx_t* ctx, const void* block){
+       uint8_t i;
+       uint32_t* t;
+       for(i=0;i<16;++i){
+               ctx->b[i] += ((uint32_t*)block)[i];
+       }
+       ctx->a[0] ^= ctx->w.w32[0];
+       ctx->a[1] ^= ctx->w.w32[1];
+       shabal_p(ctx, block);
+       for(i=0;i<16;++i){
+               ctx->c[i] -= ((uint32_t*)block)[i];
+       }
+       ctx->w.w64++;
+       t = ctx->c;
+       ctx->c = ctx->b;
+       ctx->b = t;
+}
+*/
+/*
+ * param ctx:    r24:r25
+ * param block:  r22:r23
+ */
+MB0  = 14
+MB1  = 15
+CTX0 = 16
+CTX1 = 17
+.global shabal_nextBlock
+shabal_nextBlock:
+       push_range 14, 17
+       movw CTX0, r24
+       movw MB0, r22
+       /* xor W into A and increment W */
+       movw r30, CTX0
+       ldi r19, 8
+       sec
+1:     
+       ld r20, Z
+       ldd r21, Z+(8+4)
+       eor r21, r20
+       std Z+(8+4), r21
+       adc r20, r1
+       st Z+, r20 
+       dec r19
+       brne 1b
+       /* add block to ctx->b */
+       ld r26, Z+
+       ld r27, Z
+       movw r30, MB0
+       ldi r19, 16
+1:     
+       ld r0, X
+       ld r18, Z+
+       add r0, r18
+       st X+, r0
+       ld r0, X
+       ld r18, Z+
+       adc r0, r18
+       st X+, r0
+       ld r0, X
+       ld r18, Z+
+       adc r0, r18
+       st X+, r0
+       ld r0, X
+       ld r18, Z+
+       adc r0, r18
+       st X+, r0
+       dec r19
+       brne 1b
+       /* call shbal_p */
+       rcall shabal_p
+       /* sub block from ctx->c */
+       movw r30, CTX0
+       adiw r30, 8+2
+       ld r26, Z+
+       ld r27, Z
+       movw r30, MB0
+       ldi r19, 16
+1:     
+       ld r0, X
+       ld r18, Z+
+       sub r0, r18
+       st X+, r0
+       ld r0, X
+       ld r18, Z+
+       sbc r0, r18
+       st X+, r0
+       ld r0, X
+       ld r18, Z+
+       sbc r0, r18
+       st X+, r0
+       ld r0, X
+       ld r18, Z+
+       sbc r0, r18
+       st X+, r0
+       dec r19
+       brne 1b
+       /* xchange ctx->b with ctx->c*/
+       movw r30, CTX0
+       ldd r22, Z+8
+       ldd r23, Z+9
+       ldd r24, Z+10
+       ldd r25, Z+11
+       std Z+10, r22
+       std Z+11, r23
+       std Z+8,  r24
+       std Z+9,  r25
+       pop_range 14, 17
+       ret
+
+/******************************************************************************/
+/*
+void shabal_lastBlock(shabal_ctx_t* ctx, const void* block, uint16_t length_b){
+       uint8_t i,j;
+       uint32_t* t;
+       uint8_t buffer[64];
+       while(length_b>=SHABAL_BLOCKSIZE){
+               shabal_nextBlock(ctx, block);
+               block = (uint8_t*)block + SHABAL_BLOCKSIZE_B;
+               length_b -= SHABAL_BLOCKSIZE;
+       }
+       memset(buffer, 0, 64);
+       memcpy(buffer, block, (length_b+7)/8);
+       buffer[length_b/8] |= 0x80>>(length_b%8);
+       for(i=0;i<16;++i){
+               ctx->b[i] += ((uint32_t*)buffer)[i];
+       }
+       for(j=0; j<4;++j){
+               ctx->a[0] ^= ctx->w.w32[0];
+               ctx->a[1] ^= ctx->w.w32[1];
+               shabal_p(ctx, buffer);
+               t = ctx->c;
+               ctx->c = ctx->b;
+               ctx->b = t;
+       }        
+}
+*/
+I    = 16
+LEN0 = 16
+LEN1 = 17
+CTX0 = 14
+CTX1 = 15
+MB0  = 12
+MB1  = 13
+/*
+ * param ctx:       r24:r25
+ * param block:     r22:r23
+ * param length_b:  r20:r21
+ */
+.global shabal_lastBlock
+shabal_lastBlock:
+       push_range 12, 17
+       movw CTX0, r24
+       movw MB0,  r22
+       movw LEN0, r20
+1:
+       cpi LEN1, 0x02
+       brlo 2f
+       movw r24, CTX0
+       movw r22, MB0
+       rcall shabal_nextBlock
+       subi LEN1, 0x02
+       ldi r18, 64
+       add     MB0, r18
+       adc MB1, r1
+       rjmp 1b
+2:     
+       stack_alloc_large 64
+       adiw r30, 1 /* Z points at buffer */
+       movw r26, MB0
+       /* r24 = LEN/8*/
+       movw r24, LEN0
+       lsr r25
+       ror r24
+       lsr r24
+       lsr r24
+       ldi r25, 64-1
+       sub r25, r24
+       tst r24
+       breq 32f
+31:
+       ld r0, X+
+       st Z+, r0
+       dec r24
+       brne 31b
+32:
+       ldi r18, 0x80
+       andi LEN0, 0x07
+       breq append_0x80
+       ld r0, X+
+33:
+       lsr r18
+       dec LEN0
+       brne 33b
+       or r0, r18
+       st Z+, r0
+       rjmp append_zeros
+append_0x80:
+       st Z+, r18
+append_zeros:
+       tst r25
+       breq 4f
+34: st Z+, r1
+       dec r25
+       brne 34b
+4:             
+       sbiw r30, 63
+       sbiw r30,  1
+       movw MB0, r30
+       movw r26, CTX0
+       adiw r26, 8
+       ld r24, X+
+       ld r25, X
+       movw r26, r24
+       ldi r18, 16
+41: 
+       ld r24, X
+       ld r25, Z+
+       add r24, r25
+       st X+, r24
+       ld r24, X
+       ld r25, Z+
+       adc r24, r25
+       st X+, r24      
+       ld r24, X
+       ld r25, Z+
+       adc r24, r25
+       st X+, r24      
+       ld r24, X
+       ld r25, Z+
+       adc r24, r25
+       st X+, r24      
+       dec r18
+       brne 41b
+       /* final loop */
+       ldi I, 4
+5:
+       /* xor W into A */
+       movw r30, CTX0
+       ldi r19, 8
+51:    
+       ld  r24, Z+
+       ldd r25, Z+(8+4-1)
+       eor r24, r25
+       std Z+(8+4-1), r24      
+       dec r19
+       brne 51b
+       movw r24, CTX0
+       movw r22, MB0
+       rcall shabal_p
+       movw r30, CTX0
+       ldd r22, Z+8
+       ldd r23, Z+9
+       ldd r24, Z+10
+       ldd r25, Z+11
+       std Z+10, r22
+       std Z+11, r23
+       std Z+8,  r24
+       std Z+9,  r25
+       dec I
+       brne 5b
+       
+       stack_free_large 64
+       pop_range 12, 17
+       ret
+
+       
+
+       
+       
+       
+       
+       
+       
+       
+       
+       
+       
+