1@ SPDX-License-Identifier: GPL-2.0
2
3@ This code is taken from the OpenSSL project but the author (Andy Polyakov)
4@ has relicensed it under the GPLv2. Therefore this program is free software;
5@ you can redistribute it and/or modify it under the terms of the GNU General
6@ Public License version 2 as published by the Free Software Foundation.
7@
8@ The original headers, including the original license headers, are
9@ included below for completeness.
10
11@ ====================================================================
12@ Written by Andy Polyakov <appro@openssl.org> for the OpenSSL
13@ project. The module is, however, dual licensed under OpenSSL and
14@ CRYPTOGAMS licenses depending on where you obtain it. For further
15@ details see https://www.openssl.org/~appro/cryptogams/.
16@ ====================================================================
17
18@ SHA512 block procedure for ARMv4. September 2007.
19
20@ This code is ~4.5 (four and a half) times faster than code generated
21@ by gcc 3.4 and it spends ~72 clock cycles per byte [on single-issue
22@ Xscale PXA250 core].
23@
24@ July 2010.
25@
26@ Rescheduling for dual-issue pipeline resulted in 6% improvement on
27@ Cortex A8 core and ~40 cycles per processed byte.
28
29@ February 2011.
30@
31@ Profiler-assisted and platform-specific optimization resulted in 7%
32@ improvement on Coxtex A8 core and ~38 cycles per byte.
33
34@ March 2011.
35@
36@ Add NEON implementation. On Cortex A8 it was measured to process
37@ one byte in 23.3 cycles or ~60% faster than integer-only code.
38
39@ August 2012.
40@
41@ Improve NEON performance by 12% on Snapdragon S4. In absolute
42@ terms it's 22.6 cycles per byte, which is disappointing result.
43@ Technical writers asserted that 3-way S4 pipeline can sustain
44@ multiple NEON instructions per cycle, but dual NEON issue could
45@ not be observed, see https://www.openssl.org/~appro/Snapdragon-S4.html
46@ for further details. On side note Cortex-A15 processes one byte in
47@ 16 cycles.
48
49@ Byte order [in]dependence. =========================================
50@
51@ Originally caller was expected to maintain specific *dword* order in
52@ h[0-7], namely with most significant dword at *lower* address, which
53@ was reflected in below two parameters as 0 and 4. Now caller is
54@ expected to maintain native byte order for whole 64-bit values.
55#ifndef __KERNEL__
56# include "arm_arch.h"
57# define VFP_ABI_PUSH	vstmdb	sp!,{d8-d15}
58# define VFP_ABI_POP	vldmia	sp!,{d8-d15}
59#else
60# define __ARM_ARCH__ __LINUX_ARM_ARCH__
61# define __ARM_MAX_ARCH__ 7
62# define VFP_ABI_PUSH
63# define VFP_ABI_POP
64#endif
65
66#ifdef __ARMEL__
67# define LO 0
68# define HI 4
69# define WORD64(hi0,lo0,hi1,lo1)	.word	lo0,hi0, lo1,hi1
70#else
71# define HI 0
72# define LO 4
73# define WORD64(hi0,lo0,hi1,lo1)	.word	hi0,lo0, hi1,lo1
74#endif
75
76.text
77#if __ARM_ARCH__<7
78.code	32
79#else
80.syntax unified
81# ifdef __thumb2__
82.thumb
83# else
84.code   32
85# endif
86#endif
87
88.type	K512,%object
89.align	5
90K512:
91WORD64(0x428a2f98,0xd728ae22, 0x71374491,0x23ef65cd)
92WORD64(0xb5c0fbcf,0xec4d3b2f, 0xe9b5dba5,0x8189dbbc)
93WORD64(0x3956c25b,0xf348b538, 0x59f111f1,0xb605d019)
94WORD64(0x923f82a4,0xaf194f9b, 0xab1c5ed5,0xda6d8118)
95WORD64(0xd807aa98,0xa3030242, 0x12835b01,0x45706fbe)
96WORD64(0x243185be,0x4ee4b28c, 0x550c7dc3,0xd5ffb4e2)
97WORD64(0x72be5d74,0xf27b896f, 0x80deb1fe,0x3b1696b1)
98WORD64(0x9bdc06a7,0x25c71235, 0xc19bf174,0xcf692694)
99WORD64(0xe49b69c1,0x9ef14ad2, 0xefbe4786,0x384f25e3)
100WORD64(0x0fc19dc6,0x8b8cd5b5, 0x240ca1cc,0x77ac9c65)
101WORD64(0x2de92c6f,0x592b0275, 0x4a7484aa,0x6ea6e483)
102WORD64(0x5cb0a9dc,0xbd41fbd4, 0x76f988da,0x831153b5)
103WORD64(0x983e5152,0xee66dfab, 0xa831c66d,0x2db43210)
104WORD64(0xb00327c8,0x98fb213f, 0xbf597fc7,0xbeef0ee4)
105WORD64(0xc6e00bf3,0x3da88fc2, 0xd5a79147,0x930aa725)
106WORD64(0x06ca6351,0xe003826f, 0x14292967,0x0a0e6e70)
107WORD64(0x27b70a85,0x46d22ffc, 0x2e1b2138,0x5c26c926)
108WORD64(0x4d2c6dfc,0x5ac42aed, 0x53380d13,0x9d95b3df)
109WORD64(0x650a7354,0x8baf63de, 0x766a0abb,0x3c77b2a8)
110WORD64(0x81c2c92e,0x47edaee6, 0x92722c85,0x1482353b)
111WORD64(0xa2bfe8a1,0x4cf10364, 0xa81a664b,0xbc423001)
112WORD64(0xc24b8b70,0xd0f89791, 0xc76c51a3,0x0654be30)
113WORD64(0xd192e819,0xd6ef5218, 0xd6990624,0x5565a910)
114WORD64(0xf40e3585,0x5771202a, 0x106aa070,0x32bbd1b8)
115WORD64(0x19a4c116,0xb8d2d0c8, 0x1e376c08,0x5141ab53)
116WORD64(0x2748774c,0xdf8eeb99, 0x34b0bcb5,0xe19b48a8)
117WORD64(0x391c0cb3,0xc5c95a63, 0x4ed8aa4a,0xe3418acb)
118WORD64(0x5b9cca4f,0x7763e373, 0x682e6ff3,0xd6b2b8a3)
119WORD64(0x748f82ee,0x5defb2fc, 0x78a5636f,0x43172f60)
120WORD64(0x84c87814,0xa1f0ab72, 0x8cc70208,0x1a6439ec)
121WORD64(0x90befffa,0x23631e28, 0xa4506ceb,0xde82bde9)
122WORD64(0xbef9a3f7,0xb2c67915, 0xc67178f2,0xe372532b)
123WORD64(0xca273ece,0xea26619c, 0xd186b8c7,0x21c0c207)
124WORD64(0xeada7dd6,0xcde0eb1e, 0xf57d4f7f,0xee6ed178)
125WORD64(0x06f067aa,0x72176fba, 0x0a637dc5,0xa2c898a6)
126WORD64(0x113f9804,0xbef90dae, 0x1b710b35,0x131c471b)
127WORD64(0x28db77f5,0x23047d84, 0x32caab7b,0x40c72493)
128WORD64(0x3c9ebe0a,0x15c9bebc, 0x431d67c4,0x9c100d4c)
129WORD64(0x4cc5d4be,0xcb3e42b6, 0x597f299c,0xfc657e2a)
130WORD64(0x5fcb6fab,0x3ad6faec, 0x6c44198c,0x4a475817)
131.size	K512,.-K512
132#if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
133.LOPENSSL_armcap:
134.word	OPENSSL_armcap_P-sha512_block_data_order
135.skip	32-4
136#else
137.skip	32
138#endif
139
140.global	sha512_block_data_order
141.type	sha512_block_data_order,%function
142sha512_block_data_order:
143.Lsha512_block_data_order:
144#if __ARM_ARCH__<7
145	sub	r3,pc,#8		@ sha512_block_data_order
146#else
147	adr	r3,.Lsha512_block_data_order
148#endif
149#if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
150	ldr	r12,.LOPENSSL_armcap
151	ldr	r12,[r3,r12]		@ OPENSSL_armcap_P
152	tst	r12,#1
153	bne	.LNEON
154#endif
155	add	r2,r1,r2,lsl#7	@ len to point at the end of inp
156	stmdb	sp!,{r4-r12,lr}
157	sub	r14,r3,#672		@ K512
158	sub	sp,sp,#9*8
159
160	ldr	r7,[r0,#32+LO]
161	ldr	r8,[r0,#32+HI]
162	ldr	r9, [r0,#48+LO]
163	ldr	r10, [r0,#48+HI]
164	ldr	r11, [r0,#56+LO]
165	ldr	r12, [r0,#56+HI]
166.Loop:
167	str	r9, [sp,#48+0]
168	str	r10, [sp,#48+4]
169	str	r11, [sp,#56+0]
170	str	r12, [sp,#56+4]
171	ldr	r5,[r0,#0+LO]
172	ldr	r6,[r0,#0+HI]
173	ldr	r3,[r0,#8+LO]
174	ldr	r4,[r0,#8+HI]
175	ldr	r9, [r0,#16+LO]
176	ldr	r10, [r0,#16+HI]
177	ldr	r11, [r0,#24+LO]
178	ldr	r12, [r0,#24+HI]
179	str	r3,[sp,#8+0]
180	str	r4,[sp,#8+4]
181	str	r9, [sp,#16+0]
182	str	r10, [sp,#16+4]
183	str	r11, [sp,#24+0]
184	str	r12, [sp,#24+4]
185	ldr	r3,[r0,#40+LO]
186	ldr	r4,[r0,#40+HI]
187	str	r3,[sp,#40+0]
188	str	r4,[sp,#40+4]
189
190.L00_15:
191#if __ARM_ARCH__<7
192	ldrb	r3,[r1,#7]
193	ldrb	r9, [r1,#6]
194	ldrb	r10, [r1,#5]
195	ldrb	r11, [r1,#4]
196	ldrb	r4,[r1,#3]
197	ldrb	r12, [r1,#2]
198	orr	r3,r3,r9,lsl#8
199	ldrb	r9, [r1,#1]
200	orr	r3,r3,r10,lsl#16
201	ldrb	r10, [r1],#8
202	orr	r3,r3,r11,lsl#24
203	orr	r4,r4,r12,lsl#8
204	orr	r4,r4,r9,lsl#16
205	orr	r4,r4,r10,lsl#24
206#else
207	ldr	r3,[r1,#4]
208	ldr	r4,[r1],#8
209#ifdef __ARMEL__
210	rev	r3,r3
211	rev	r4,r4
212#endif
213#endif
214	@ Sigma1(x)	(ROTR((x),14) ^ ROTR((x),18)  ^ ROTR((x),41))
215	@ LO		lo>>14^hi<<18 ^ lo>>18^hi<<14 ^ hi>>9^lo<<23
216	@ HI		hi>>14^lo<<18 ^ hi>>18^lo<<14 ^ lo>>9^hi<<23
217	mov	r9,r7,lsr#14
218	str	r3,[sp,#64+0]
219	mov	r10,r8,lsr#14
220	str	r4,[sp,#64+4]
221	eor	r9,r9,r8,lsl#18
222	ldr	r11,[sp,#56+0]	@ h.lo
223	eor	r10,r10,r7,lsl#18
224	ldr	r12,[sp,#56+4]	@ h.hi
225	eor	r9,r9,r7,lsr#18
226	eor	r10,r10,r8,lsr#18
227	eor	r9,r9,r8,lsl#14
228	eor	r10,r10,r7,lsl#14
229	eor	r9,r9,r8,lsr#9
230	eor	r10,r10,r7,lsr#9
231	eor	r9,r9,r7,lsl#23
232	eor	r10,r10,r8,lsl#23	@ Sigma1(e)
233	adds	r3,r3,r9
234	ldr	r9,[sp,#40+0]	@ f.lo
235	adc	r4,r4,r10		@ T += Sigma1(e)
236	ldr	r10,[sp,#40+4]	@ f.hi
237	adds	r3,r3,r11
238	ldr	r11,[sp,#48+0]	@ g.lo
239	adc	r4,r4,r12		@ T += h
240	ldr	r12,[sp,#48+4]	@ g.hi
241
242	eor	r9,r9,r11
243	str	r7,[sp,#32+0]
244	eor	r10,r10,r12
245	str	r8,[sp,#32+4]
246	and	r9,r9,r7
247	str	r5,[sp,#0+0]
248	and	r10,r10,r8
249	str	r6,[sp,#0+4]
250	eor	r9,r9,r11
251	ldr	r11,[r14,#LO]	@ K[i].lo
252	eor	r10,r10,r12		@ Ch(e,f,g)
253	ldr	r12,[r14,#HI]	@ K[i].hi
254
255	adds	r3,r3,r9
256	ldr	r7,[sp,#24+0]	@ d.lo
257	adc	r4,r4,r10		@ T += Ch(e,f,g)
258	ldr	r8,[sp,#24+4]	@ d.hi
259	adds	r3,r3,r11
260	and	r9,r11,#0xff
261	adc	r4,r4,r12		@ T += K[i]
262	adds	r7,r7,r3
263	ldr	r11,[sp,#8+0]	@ b.lo
264	adc	r8,r8,r4		@ d += T
265	teq	r9,#148
266
267	ldr	r12,[sp,#16+0]	@ c.lo
268#if __ARM_ARCH__>=7
269	it	eq			@ Thumb2 thing, sanity check in ARM
270#endif
271	orreq	r14,r14,#1
272	@ Sigma0(x)	(ROTR((x),28) ^ ROTR((x),34) ^ ROTR((x),39))
273	@ LO		lo>>28^hi<<4  ^ hi>>2^lo<<30 ^ hi>>7^lo<<25
274	@ HI		hi>>28^lo<<4  ^ lo>>2^hi<<30 ^ lo>>7^hi<<25
275	mov	r9,r5,lsr#28
276	mov	r10,r6,lsr#28
277	eor	r9,r9,r6,lsl#4
278	eor	r10,r10,r5,lsl#4
279	eor	r9,r9,r6,lsr#2
280	eor	r10,r10,r5,lsr#2
281	eor	r9,r9,r5,lsl#30
282	eor	r10,r10,r6,lsl#30
283	eor	r9,r9,r6,lsr#7
284	eor	r10,r10,r5,lsr#7
285	eor	r9,r9,r5,lsl#25
286	eor	r10,r10,r6,lsl#25	@ Sigma0(a)
287	adds	r3,r3,r9
288	and	r9,r5,r11
289	adc	r4,r4,r10		@ T += Sigma0(a)
290
291	ldr	r10,[sp,#8+4]	@ b.hi
292	orr	r5,r5,r11
293	ldr	r11,[sp,#16+4]	@ c.hi
294	and	r5,r5,r12
295	and	r12,r6,r10
296	orr	r6,r6,r10
297	orr	r5,r5,r9		@ Maj(a,b,c).lo
298	and	r6,r6,r11
299	adds	r5,r5,r3
300	orr	r6,r6,r12		@ Maj(a,b,c).hi
301	sub	sp,sp,#8
302	adc	r6,r6,r4		@ h += T
303	tst	r14,#1
304	add	r14,r14,#8
305	tst	r14,#1
306	beq	.L00_15
307	ldr	r9,[sp,#184+0]
308	ldr	r10,[sp,#184+4]
309	bic	r14,r14,#1
310.L16_79:
311	@ sigma0(x)	(ROTR((x),1)  ^ ROTR((x),8)  ^ ((x)>>7))
312	@ LO		lo>>1^hi<<31  ^ lo>>8^hi<<24 ^ lo>>7^hi<<25
313	@ HI		hi>>1^lo<<31  ^ hi>>8^lo<<24 ^ hi>>7
314	mov	r3,r9,lsr#1
315	ldr	r11,[sp,#80+0]
316	mov	r4,r10,lsr#1
317	ldr	r12,[sp,#80+4]
318	eor	r3,r3,r10,lsl#31
319	eor	r4,r4,r9,lsl#31
320	eor	r3,r3,r9,lsr#8
321	eor	r4,r4,r10,lsr#8
322	eor	r3,r3,r10,lsl#24
323	eor	r4,r4,r9,lsl#24
324	eor	r3,r3,r9,lsr#7
325	eor	r4,r4,r10,lsr#7
326	eor	r3,r3,r10,lsl#25
327
328	@ sigma1(x)	(ROTR((x),19) ^ ROTR((x),61) ^ ((x)>>6))
329	@ LO		lo>>19^hi<<13 ^ hi>>29^lo<<3 ^ lo>>6^hi<<26
330	@ HI		hi>>19^lo<<13 ^ lo>>29^hi<<3 ^ hi>>6
331	mov	r9,r11,lsr#19
332	mov	r10,r12,lsr#19
333	eor	r9,r9,r12,lsl#13
334	eor	r10,r10,r11,lsl#13
335	eor	r9,r9,r12,lsr#29
336	eor	r10,r10,r11,lsr#29
337	eor	r9,r9,r11,lsl#3
338	eor	r10,r10,r12,lsl#3
339	eor	r9,r9,r11,lsr#6
340	eor	r10,r10,r12,lsr#6
341	ldr	r11,[sp,#120+0]
342	eor	r9,r9,r12,lsl#26
343
344	ldr	r12,[sp,#120+4]
345	adds	r3,r3,r9
346	ldr	r9,[sp,#192+0]
347	adc	r4,r4,r10
348
349	ldr	r10,[sp,#192+4]
350	adds	r3,r3,r11
351	adc	r4,r4,r12
352	adds	r3,r3,r9
353	adc	r4,r4,r10
354	@ Sigma1(x)	(ROTR((x),14) ^ ROTR((x),18)  ^ ROTR((x),41))
355	@ LO		lo>>14^hi<<18 ^ lo>>18^hi<<14 ^ hi>>9^lo<<23
356	@ HI		hi>>14^lo<<18 ^ hi>>18^lo<<14 ^ lo>>9^hi<<23
357	mov	r9,r7,lsr#14
358	str	r3,[sp,#64+0]
359	mov	r10,r8,lsr#14
360	str	r4,[sp,#64+4]
361	eor	r9,r9,r8,lsl#18
362	ldr	r11,[sp,#56+0]	@ h.lo
363	eor	r10,r10,r7,lsl#18
364	ldr	r12,[sp,#56+4]	@ h.hi
365	eor	r9,r9,r7,lsr#18
366	eor	r10,r10,r8,lsr#18
367	eor	r9,r9,r8,lsl#14
368	eor	r10,r10,r7,lsl#14
369	eor	r9,r9,r8,lsr#9
370	eor	r10,r10,r7,lsr#9
371	eor	r9,r9,r7,lsl#23
372	eor	r10,r10,r8,lsl#23	@ Sigma1(e)
373	adds	r3,r3,r9
374	ldr	r9,[sp,#40+0]	@ f.lo
375	adc	r4,r4,r10		@ T += Sigma1(e)
376	ldr	r10,[sp,#40+4]	@ f.hi
377	adds	r3,r3,r11
378	ldr	r11,[sp,#48+0]	@ g.lo
379	adc	r4,r4,r12		@ T += h
380	ldr	r12,[sp,#48+4]	@ g.hi
381
382	eor	r9,r9,r11
383	str	r7,[sp,#32+0]
384	eor	r10,r10,r12
385	str	r8,[sp,#32+4]
386	and	r9,r9,r7
387	str	r5,[sp,#0+0]
388	and	r10,r10,r8
389	str	r6,[sp,#0+4]
390	eor	r9,r9,r11
391	ldr	r11,[r14,#LO]	@ K[i].lo
392	eor	r10,r10,r12		@ Ch(e,f,g)
393	ldr	r12,[r14,#HI]	@ K[i].hi
394
395	adds	r3,r3,r9
396	ldr	r7,[sp,#24+0]	@ d.lo
397	adc	r4,r4,r10		@ T += Ch(e,f,g)
398	ldr	r8,[sp,#24+4]	@ d.hi
399	adds	r3,r3,r11
400	and	r9,r11,#0xff
401	adc	r4,r4,r12		@ T += K[i]
402	adds	r7,r7,r3
403	ldr	r11,[sp,#8+0]	@ b.lo
404	adc	r8,r8,r4		@ d += T
405	teq	r9,#23
406
407	ldr	r12,[sp,#16+0]	@ c.lo
408#if __ARM_ARCH__>=7
409	it	eq			@ Thumb2 thing, sanity check in ARM
410#endif
411	orreq	r14,r14,#1
412	@ Sigma0(x)	(ROTR((x),28) ^ ROTR((x),34) ^ ROTR((x),39))
413	@ LO		lo>>28^hi<<4  ^ hi>>2^lo<<30 ^ hi>>7^lo<<25
414	@ HI		hi>>28^lo<<4  ^ lo>>2^hi<<30 ^ lo>>7^hi<<25
415	mov	r9,r5,lsr#28
416	mov	r10,r6,lsr#28
417	eor	r9,r9,r6,lsl#4
418	eor	r10,r10,r5,lsl#4
419	eor	r9,r9,r6,lsr#2
420	eor	r10,r10,r5,lsr#2
421	eor	r9,r9,r5,lsl#30
422	eor	r10,r10,r6,lsl#30
423	eor	r9,r9,r6,lsr#7
424	eor	r10,r10,r5,lsr#7
425	eor	r9,r9,r5,lsl#25
426	eor	r10,r10,r6,lsl#25	@ Sigma0(a)
427	adds	r3,r3,r9
428	and	r9,r5,r11
429	adc	r4,r4,r10		@ T += Sigma0(a)
430
431	ldr	r10,[sp,#8+4]	@ b.hi
432	orr	r5,r5,r11
433	ldr	r11,[sp,#16+4]	@ c.hi
434	and	r5,r5,r12
435	and	r12,r6,r10
436	orr	r6,r6,r10
437	orr	r5,r5,r9		@ Maj(a,b,c).lo
438	and	r6,r6,r11
439	adds	r5,r5,r3
440	orr	r6,r6,r12		@ Maj(a,b,c).hi
441	sub	sp,sp,#8
442	adc	r6,r6,r4		@ h += T
443	tst	r14,#1
444	add	r14,r14,#8
445#if __ARM_ARCH__>=7
446	ittt	eq			@ Thumb2 thing, sanity check in ARM
447#endif
448	ldreq	r9,[sp,#184+0]
449	ldreq	r10,[sp,#184+4]
450	beq	.L16_79
451	bic	r14,r14,#1
452
453	ldr	r3,[sp,#8+0]
454	ldr	r4,[sp,#8+4]
455	ldr	r9, [r0,#0+LO]
456	ldr	r10, [r0,#0+HI]
457	ldr	r11, [r0,#8+LO]
458	ldr	r12, [r0,#8+HI]
459	adds	r9,r5,r9
460	str	r9, [r0,#0+LO]
461	adc	r10,r6,r10
462	str	r10, [r0,#0+HI]
463	adds	r11,r3,r11
464	str	r11, [r0,#8+LO]
465	adc	r12,r4,r12
466	str	r12, [r0,#8+HI]
467
468	ldr	r5,[sp,#16+0]
469	ldr	r6,[sp,#16+4]
470	ldr	r3,[sp,#24+0]
471	ldr	r4,[sp,#24+4]
472	ldr	r9, [r0,#16+LO]
473	ldr	r10, [r0,#16+HI]
474	ldr	r11, [r0,#24+LO]
475	ldr	r12, [r0,#24+HI]
476	adds	r9,r5,r9
477	str	r9, [r0,#16+LO]
478	adc	r10,r6,r10
479	str	r10, [r0,#16+HI]
480	adds	r11,r3,r11
481	str	r11, [r0,#24+LO]
482	adc	r12,r4,r12
483	str	r12, [r0,#24+HI]
484
485	ldr	r3,[sp,#40+0]
486	ldr	r4,[sp,#40+4]
487	ldr	r9, [r0,#32+LO]
488	ldr	r10, [r0,#32+HI]
489	ldr	r11, [r0,#40+LO]
490	ldr	r12, [r0,#40+HI]
491	adds	r7,r7,r9
492	str	r7,[r0,#32+LO]
493	adc	r8,r8,r10
494	str	r8,[r0,#32+HI]
495	adds	r11,r3,r11
496	str	r11, [r0,#40+LO]
497	adc	r12,r4,r12
498	str	r12, [r0,#40+HI]
499
500	ldr	r5,[sp,#48+0]
501	ldr	r6,[sp,#48+4]
502	ldr	r3,[sp,#56+0]
503	ldr	r4,[sp,#56+4]
504	ldr	r9, [r0,#48+LO]
505	ldr	r10, [r0,#48+HI]
506	ldr	r11, [r0,#56+LO]
507	ldr	r12, [r0,#56+HI]
508	adds	r9,r5,r9
509	str	r9, [r0,#48+LO]
510	adc	r10,r6,r10
511	str	r10, [r0,#48+HI]
512	adds	r11,r3,r11
513	str	r11, [r0,#56+LO]
514	adc	r12,r4,r12
515	str	r12, [r0,#56+HI]
516
517	add	sp,sp,#640
518	sub	r14,r14,#640
519
520	teq	r1,r2
521	bne	.Loop
522
523	add	sp,sp,#8*9		@ destroy frame
524#if __ARM_ARCH__>=5
525	ldmia	sp!,{r4-r12,pc}
526#else
527	ldmia	sp!,{r4-r12,lr}
528	tst	lr,#1
529	moveq	pc,lr			@ be binary compatible with V4, yet
530	.word	0xe12fff1e			@ interoperable with Thumb ISA:-)
531#endif
532.size	sha512_block_data_order,.-sha512_block_data_order
533#if __ARM_MAX_ARCH__>=7
534.arch	armv7-a
535.fpu	neon
536
537.global	sha512_block_data_order_neon
538.type	sha512_block_data_order_neon,%function
539.align	4
540sha512_block_data_order_neon:
541.LNEON:
542	dmb				@ errata #451034 on early Cortex A8
543	add	r2,r1,r2,lsl#7	@ len to point at the end of inp
544	VFP_ABI_PUSH
545	adr	r3,.Lsha512_block_data_order
546	sub	r3,r3,.Lsha512_block_data_order-K512
547	vldmia	r0,{d16-d23}		@ load context
548.Loop_neon:
549	vshr.u64	d24,d20,#14	@ 0
550#if 0<16
551	vld1.64		{d0},[r1]!	@ handles unaligned
552#endif
553	vshr.u64	d25,d20,#18
554#if 0>0
555	 vadd.i64	d16,d30			@ h+=Maj from the past
556#endif
557	vshr.u64	d26,d20,#41
558	vld1.64		{d28},[r3,:64]!	@ K[i++]
559	vsli.64		d24,d20,#50
560	vsli.64		d25,d20,#46
561	vmov		d29,d20
562	vsli.64		d26,d20,#23
563#if 0<16 && defined(__ARMEL__)
564	vrev64.8	d0,d0
565#endif
566	veor		d25,d24
567	vbsl		d29,d21,d22		@ Ch(e,f,g)
568	vshr.u64	d24,d16,#28
569	veor		d26,d25			@ Sigma1(e)
570	vadd.i64	d27,d29,d23
571	vshr.u64	d25,d16,#34
572	vsli.64		d24,d16,#36
573	vadd.i64	d27,d26
574	vshr.u64	d26,d16,#39
575	vadd.i64	d28,d0
576	vsli.64		d25,d16,#30
577	veor		d30,d16,d17
578	vsli.64		d26,d16,#25
579	veor		d23,d24,d25
580	vadd.i64	d27,d28
581	vbsl		d30,d18,d17		@ Maj(a,b,c)
582	veor		d23,d26			@ Sigma0(a)
583	vadd.i64	d19,d27
584	vadd.i64	d30,d27
585	@ vadd.i64	d23,d30
586	vshr.u64	d24,d19,#14	@ 1
587#if 1<16
588	vld1.64		{d1},[r1]!	@ handles unaligned
589#endif
590	vshr.u64	d25,d19,#18
591#if 1>0
592	 vadd.i64	d23,d30			@ h+=Maj from the past
593#endif
594	vshr.u64	d26,d19,#41
595	vld1.64		{d28},[r3,:64]!	@ K[i++]
596	vsli.64		d24,d19,#50
597	vsli.64		d25,d19,#46
598	vmov		d29,d19
599	vsli.64		d26,d19,#23
600#if 1<16 && defined(__ARMEL__)
601	vrev64.8	d1,d1
602#endif
603	veor		d25,d24
604	vbsl		d29,d20,d21		@ Ch(e,f,g)
605	vshr.u64	d24,d23,#28
606	veor		d26,d25			@ Sigma1(e)
607	vadd.i64	d27,d29,d22
608	vshr.u64	d25,d23,#34
609	vsli.64		d24,d23,#36
610	vadd.i64	d27,d26
611	vshr.u64	d26,d23,#39
612	vadd.i64	d28,d1
613	vsli.64		d25,d23,#30
614	veor		d30,d23,d16
615	vsli.64		d26,d23,#25
616	veor		d22,d24,d25
617	vadd.i64	d27,d28
618	vbsl		d30,d17,d16		@ Maj(a,b,c)
619	veor		d22,d26			@ Sigma0(a)
620	vadd.i64	d18,d27
621	vadd.i64	d30,d27
622	@ vadd.i64	d22,d30
623	vshr.u64	d24,d18,#14	@ 2
624#if 2<16
625	vld1.64		{d2},[r1]!	@ handles unaligned
626#endif
627	vshr.u64	d25,d18,#18
628#if 2>0
629	 vadd.i64	d22,d30			@ h+=Maj from the past
630#endif
631	vshr.u64	d26,d18,#41
632	vld1.64		{d28},[r3,:64]!	@ K[i++]
633	vsli.64		d24,d18,#50
634	vsli.64		d25,d18,#46
635	vmov		d29,d18
636	vsli.64		d26,d18,#23
637#if 2<16 && defined(__ARMEL__)
638	vrev64.8	d2,d2
639#endif
640	veor		d25,d24
641	vbsl		d29,d19,d20		@ Ch(e,f,g)
642	vshr.u64	d24,d22,#28
643	veor		d26,d25			@ Sigma1(e)
644	vadd.i64	d27,d29,d21
645	vshr.u64	d25,d22,#34
646	vsli.64		d24,d22,#36
647	vadd.i64	d27,d26
648	vshr.u64	d26,d22,#39
649	vadd.i64	d28,d2
650	vsli.64		d25,d22,#30
651	veor		d30,d22,d23
652	vsli.64		d26,d22,#25
653	veor		d21,d24,d25
654	vadd.i64	d27,d28
655	vbsl		d30,d16,d23		@ Maj(a,b,c)
656	veor		d21,d26			@ Sigma0(a)
657	vadd.i64	d17,d27
658	vadd.i64	d30,d27
659	@ vadd.i64	d21,d30
660	vshr.u64	d24,d17,#14	@ 3
661#if 3<16
662	vld1.64		{d3},[r1]!	@ handles unaligned
663#endif
664	vshr.u64	d25,d17,#18
665#if 3>0
666	 vadd.i64	d21,d30			@ h+=Maj from the past
667#endif
668	vshr.u64	d26,d17,#41
669	vld1.64		{d28},[r3,:64]!	@ K[i++]
670	vsli.64		d24,d17,#50
671	vsli.64		d25,d17,#46
672	vmov		d29,d17
673	vsli.64		d26,d17,#23
674#if 3<16 && defined(__ARMEL__)
675	vrev64.8	d3,d3
676#endif
677	veor		d25,d24
678	vbsl		d29,d18,d19		@ Ch(e,f,g)
679	vshr.u64	d24,d21,#28
680	veor		d26,d25			@ Sigma1(e)
681	vadd.i64	d27,d29,d20
682	vshr.u64	d25,d21,#34
683	vsli.64		d24,d21,#36
684	vadd.i64	d27,d26
685	vshr.u64	d26,d21,#39
686	vadd.i64	d28,d3
687	vsli.64		d25,d21,#30
688	veor		d30,d21,d22
689	vsli.64		d26,d21,#25
690	veor		d20,d24,d25
691	vadd.i64	d27,d28
692	vbsl		d30,d23,d22		@ Maj(a,b,c)
693	veor		d20,d26			@ Sigma0(a)
694	vadd.i64	d16,d27
695	vadd.i64	d30,d27
696	@ vadd.i64	d20,d30
697	vshr.u64	d24,d16,#14	@ 4
698#if 4<16
699	vld1.64		{d4},[r1]!	@ handles unaligned
700#endif
701	vshr.u64	d25,d16,#18
702#if 4>0
703	 vadd.i64	d20,d30			@ h+=Maj from the past
704#endif
705	vshr.u64	d26,d16,#41
706	vld1.64		{d28},[r3,:64]!	@ K[i++]
707	vsli.64		d24,d16,#50
708	vsli.64		d25,d16,#46
709	vmov		d29,d16
710	vsli.64		d26,d16,#23
711#if 4<16 && defined(__ARMEL__)
712	vrev64.8	d4,d4
713#endif
714	veor		d25,d24
715	vbsl		d29,d17,d18		@ Ch(e,f,g)
716	vshr.u64	d24,d20,#28
717	veor		d26,d25			@ Sigma1(e)
718	vadd.i64	d27,d29,d19
719	vshr.u64	d25,d20,#34
720	vsli.64		d24,d20,#36
721	vadd.i64	d27,d26
722	vshr.u64	d26,d20,#39
723	vadd.i64	d28,d4
724	vsli.64		d25,d20,#30
725	veor		d30,d20,d21
726	vsli.64		d26,d20,#25
727	veor		d19,d24,d25
728	vadd.i64	d27,d28
729	vbsl		d30,d22,d21		@ Maj(a,b,c)
730	veor		d19,d26			@ Sigma0(a)
731	vadd.i64	d23,d27
732	vadd.i64	d30,d27
733	@ vadd.i64	d19,d30
734	vshr.u64	d24,d23,#14	@ 5
735#if 5<16
736	vld1.64		{d5},[r1]!	@ handles unaligned
737#endif
738	vshr.u64	d25,d23,#18
739#if 5>0
740	 vadd.i64	d19,d30			@ h+=Maj from the past
741#endif
742	vshr.u64	d26,d23,#41
743	vld1.64		{d28},[r3,:64]!	@ K[i++]
744	vsli.64		d24,d23,#50
745	vsli.64		d25,d23,#46
746	vmov		d29,d23
747	vsli.64		d26,d23,#23
748#if 5<16 && defined(__ARMEL__)
749	vrev64.8	d5,d5
750#endif
751	veor		d25,d24
752	vbsl		d29,d16,d17		@ Ch(e,f,g)
753	vshr.u64	d24,d19,#28
754	veor		d26,d25			@ Sigma1(e)
755	vadd.i64	d27,d29,d18
756	vshr.u64	d25,d19,#34
757	vsli.64		d24,d19,#36
758	vadd.i64	d27,d26
759	vshr.u64	d26,d19,#39
760	vadd.i64	d28,d5
761	vsli.64		d25,d19,#30
762	veor		d30,d19,d20
763	vsli.64		d26,d19,#25
764	veor		d18,d24,d25
765	vadd.i64	d27,d28
766	vbsl		d30,d21,d20		@ Maj(a,b,c)
767	veor		d18,d26			@ Sigma0(a)
768	vadd.i64	d22,d27
769	vadd.i64	d30,d27
770	@ vadd.i64	d18,d30
771	vshr.u64	d24,d22,#14	@ 6
772#if 6<16
773	vld1.64		{d6},[r1]!	@ handles unaligned
774#endif
775	vshr.u64	d25,d22,#18
776#if 6>0
777	 vadd.i64	d18,d30			@ h+=Maj from the past
778#endif
779	vshr.u64	d26,d22,#41
780	vld1.64		{d28},[r3,:64]!	@ K[i++]
781	vsli.64		d24,d22,#50
782	vsli.64		d25,d22,#46
783	vmov		d29,d22
784	vsli.64		d26,d22,#23
785#if 6<16 && defined(__ARMEL__)
786	vrev64.8	d6,d6
787#endif
788	veor		d25,d24
789	vbsl		d29,d23,d16		@ Ch(e,f,g)
790	vshr.u64	d24,d18,#28
791	veor		d26,d25			@ Sigma1(e)
792	vadd.i64	d27,d29,d17
793	vshr.u64	d25,d18,#34
794	vsli.64		d24,d18,#36
795	vadd.i64	d27,d26
796	vshr.u64	d26,d18,#39
797	vadd.i64	d28,d6
798	vsli.64		d25,d18,#30
799	veor		d30,d18,d19
800	vsli.64		d26,d18,#25
801	veor		d17,d24,d25
802	vadd.i64	d27,d28
803	vbsl		d30,d20,d19		@ Maj(a,b,c)
804	veor		d17,d26			@ Sigma0(a)
805	vadd.i64	d21,d27
806	vadd.i64	d30,d27
807	@ vadd.i64	d17,d30
808	vshr.u64	d24,d21,#14	@ 7
809#if 7<16
810	vld1.64		{d7},[r1]!	@ handles unaligned
811#endif
812	vshr.u64	d25,d21,#18
813#if 7>0
814	 vadd.i64	d17,d30			@ h+=Maj from the past
815#endif
816	vshr.u64	d26,d21,#41
817	vld1.64		{d28},[r3,:64]!	@ K[i++]
818	vsli.64		d24,d21,#50
819	vsli.64		d25,d21,#46
820	vmov		d29,d21
821	vsli.64		d26,d21,#23
822#if 7<16 && defined(__ARMEL__)
823	vrev64.8	d7,d7
824#endif
825	veor		d25,d24
826	vbsl		d29,d22,d23		@ Ch(e,f,g)
827	vshr.u64	d24,d17,#28
828	veor		d26,d25			@ Sigma1(e)
829	vadd.i64	d27,d29,d16
830	vshr.u64	d25,d17,#34
831	vsli.64		d24,d17,#36
832	vadd.i64	d27,d26
833	vshr.u64	d26,d17,#39
834	vadd.i64	d28,d7
835	vsli.64		d25,d17,#30
836	veor		d30,d17,d18
837	vsli.64		d26,d17,#25
838	veor		d16,d24,d25
839	vadd.i64	d27,d28
840	vbsl		d30,d19,d18		@ Maj(a,b,c)
841	veor		d16,d26			@ Sigma0(a)
842	vadd.i64	d20,d27
843	vadd.i64	d30,d27
844	@ vadd.i64	d16,d30
845	vshr.u64	d24,d20,#14	@ 8
846#if 8<16
847	vld1.64		{d8},[r1]!	@ handles unaligned
848#endif
849	vshr.u64	d25,d20,#18
850#if 8>0
851	 vadd.i64	d16,d30			@ h+=Maj from the past
852#endif
853	vshr.u64	d26,d20,#41
854	vld1.64		{d28},[r3,:64]!	@ K[i++]
855	vsli.64		d24,d20,#50
856	vsli.64		d25,d20,#46
857	vmov		d29,d20
858	vsli.64		d26,d20,#23
859#if 8<16 && defined(__ARMEL__)
860	vrev64.8	d8,d8
861#endif
862	veor		d25,d24
863	vbsl		d29,d21,d22		@ Ch(e,f,g)
864	vshr.u64	d24,d16,#28
865	veor		d26,d25			@ Sigma1(e)
866	vadd.i64	d27,d29,d23
867	vshr.u64	d25,d16,#34
868	vsli.64		d24,d16,#36
869	vadd.i64	d27,d26
870	vshr.u64	d26,d16,#39
871	vadd.i64	d28,d8
872	vsli.64		d25,d16,#30
873	veor		d30,d16,d17
874	vsli.64		d26,d16,#25
875	veor		d23,d24,d25
876	vadd.i64	d27,d28
877	vbsl		d30,d18,d17		@ Maj(a,b,c)
878	veor		d23,d26			@ Sigma0(a)
879	vadd.i64	d19,d27
880	vadd.i64	d30,d27
881	@ vadd.i64	d23,d30
882	vshr.u64	d24,d19,#14	@ 9
883#if 9<16
884	vld1.64		{d9},[r1]!	@ handles unaligned
885#endif
886	vshr.u64	d25,d19,#18
887#if 9>0
888	 vadd.i64	d23,d30			@ h+=Maj from the past
889#endif
890	vshr.u64	d26,d19,#41
891	vld1.64		{d28},[r3,:64]!	@ K[i++]
892	vsli.64		d24,d19,#50
893	vsli.64		d25,d19,#46
894	vmov		d29,d19
895	vsli.64		d26,d19,#23
896#if 9<16 && defined(__ARMEL__)
897	vrev64.8	d9,d9
898#endif
899	veor		d25,d24
900	vbsl		d29,d20,d21		@ Ch(e,f,g)
901	vshr.u64	d24,d23,#28
902	veor		d26,d25			@ Sigma1(e)
903	vadd.i64	d27,d29,d22
904	vshr.u64	d25,d23,#34
905	vsli.64		d24,d23,#36
906	vadd.i64	d27,d26
907	vshr.u64	d26,d23,#39
908	vadd.i64	d28,d9
909	vsli.64		d25,d23,#30
910	veor		d30,d23,d16
911	vsli.64		d26,d23,#25
912	veor		d22,d24,d25
913	vadd.i64	d27,d28
914	vbsl		d30,d17,d16		@ Maj(a,b,c)
915	veor		d22,d26			@ Sigma0(a)
916	vadd.i64	d18,d27
917	vadd.i64	d30,d27
918	@ vadd.i64	d22,d30
919	vshr.u64	d24,d18,#14	@ 10
920#if 10<16
921	vld1.64		{d10},[r1]!	@ handles unaligned
922#endif
923	vshr.u64	d25,d18,#18
924#if 10>0
925	 vadd.i64	d22,d30			@ h+=Maj from the past
926#endif
927	vshr.u64	d26,d18,#41
928	vld1.64		{d28},[r3,:64]!	@ K[i++]
929	vsli.64		d24,d18,#50
930	vsli.64		d25,d18,#46
931	vmov		d29,d18
932	vsli.64		d26,d18,#23
933#if 10<16 && defined(__ARMEL__)
934	vrev64.8	d10,d10
935#endif
936	veor		d25,d24
937	vbsl		d29,d19,d20		@ Ch(e,f,g)
938	vshr.u64	d24,d22,#28
939	veor		d26,d25			@ Sigma1(e)
940	vadd.i64	d27,d29,d21
941	vshr.u64	d25,d22,#34
942	vsli.64		d24,d22,#36
943	vadd.i64	d27,d26
944	vshr.u64	d26,d22,#39
945	vadd.i64	d28,d10
946	vsli.64		d25,d22,#30
947	veor		d30,d22,d23
948	vsli.64		d26,d22,#25
949	veor		d21,d24,d25
950	vadd.i64	d27,d28
951	vbsl		d30,d16,d23		@ Maj(a,b,c)
952	veor		d21,d26			@ Sigma0(a)
953	vadd.i64	d17,d27
954	vadd.i64	d30,d27
955	@ vadd.i64	d21,d30
956	vshr.u64	d24,d17,#14	@ 11
957#if 11<16
958	vld1.64		{d11},[r1]!	@ handles unaligned
959#endif
960	vshr.u64	d25,d17,#18
961#if 11>0
962	 vadd.i64	d21,d30			@ h+=Maj from the past
963#endif
964	vshr.u64	d26,d17,#41
965	vld1.64		{d28},[r3,:64]!	@ K[i++]
966	vsli.64		d24,d17,#50
967	vsli.64		d25,d17,#46
968	vmov		d29,d17
969	vsli.64		d26,d17,#23
970#if 11<16 && defined(__ARMEL__)
971	vrev64.8	d11,d11
972#endif
973	veor		d25,d24
974	vbsl		d29,d18,d19		@ Ch(e,f,g)
975	vshr.u64	d24,d21,#28
976	veor		d26,d25			@ Sigma1(e)
977	vadd.i64	d27,d29,d20
978	vshr.u64	d25,d21,#34
979	vsli.64		d24,d21,#36
980	vadd.i64	d27,d26
981	vshr.u64	d26,d21,#39
982	vadd.i64	d28,d11
983	vsli.64		d25,d21,#30
984	veor		d30,d21,d22
985	vsli.64		d26,d21,#25
986	veor		d20,d24,d25
987	vadd.i64	d27,d28
988	vbsl		d30,d23,d22		@ Maj(a,b,c)
989	veor		d20,d26			@ Sigma0(a)
990	vadd.i64	d16,d27
991	vadd.i64	d30,d27
992	@ vadd.i64	d20,d30
993	vshr.u64	d24,d16,#14	@ 12
994#if 12<16
995	vld1.64		{d12},[r1]!	@ handles unaligned
996#endif
997	vshr.u64	d25,d16,#18
998#if 12>0
999	 vadd.i64	d20,d30			@ h+=Maj from the past
1000#endif
1001	vshr.u64	d26,d16,#41
1002	vld1.64		{d28},[r3,:64]!	@ K[i++]
1003	vsli.64		d24,d16,#50
1004	vsli.64		d25,d16,#46
1005	vmov		d29,d16
1006	vsli.64		d26,d16,#23
1007#if 12<16 && defined(__ARMEL__)
1008	vrev64.8	d12,d12
1009#endif
1010	veor		d25,d24
1011	vbsl		d29,d17,d18		@ Ch(e,f,g)
1012	vshr.u64	d24,d20,#28
1013	veor		d26,d25			@ Sigma1(e)
1014	vadd.i64	d27,d29,d19
1015	vshr.u64	d25,d20,#34
1016	vsli.64		d24,d20,#36
1017	vadd.i64	d27,d26
1018	vshr.u64	d26,d20,#39
1019	vadd.i64	d28,d12
1020	vsli.64		d25,d20,#30
1021	veor		d30,d20,d21
1022	vsli.64		d26,d20,#25
1023	veor		d19,d24,d25
1024	vadd.i64	d27,d28
1025	vbsl		d30,d22,d21		@ Maj(a,b,c)
1026	veor		d19,d26			@ Sigma0(a)
1027	vadd.i64	d23,d27
1028	vadd.i64	d30,d27
1029	@ vadd.i64	d19,d30
1030	vshr.u64	d24,d23,#14	@ 13
1031#if 13<16
1032	vld1.64		{d13},[r1]!	@ handles unaligned
1033#endif
1034	vshr.u64	d25,d23,#18
1035#if 13>0
1036	 vadd.i64	d19,d30			@ h+=Maj from the past
1037#endif
1038	vshr.u64	d26,d23,#41
1039	vld1.64		{d28},[r3,:64]!	@ K[i++]
1040	vsli.64		d24,d23,#50
1041	vsli.64		d25,d23,#46
1042	vmov		d29,d23
1043	vsli.64		d26,d23,#23
1044#if 13<16 && defined(__ARMEL__)
1045	vrev64.8	d13,d13
1046#endif
1047	veor		d25,d24
1048	vbsl		d29,d16,d17		@ Ch(e,f,g)
1049	vshr.u64	d24,d19,#28
1050	veor		d26,d25			@ Sigma1(e)
1051	vadd.i64	d27,d29,d18
1052	vshr.u64	d25,d19,#34
1053	vsli.64		d24,d19,#36
1054	vadd.i64	d27,d26
1055	vshr.u64	d26,d19,#39
1056	vadd.i64	d28,d13
1057	vsli.64		d25,d19,#30
1058	veor		d30,d19,d20
1059	vsli.64		d26,d19,#25
1060	veor		d18,d24,d25
1061	vadd.i64	d27,d28
1062	vbsl		d30,d21,d20		@ Maj(a,b,c)
1063	veor		d18,d26			@ Sigma0(a)
1064	vadd.i64	d22,d27
1065	vadd.i64	d30,d27
1066	@ vadd.i64	d18,d30
1067	vshr.u64	d24,d22,#14	@ 14
1068#if 14<16
1069	vld1.64		{d14},[r1]!	@ handles unaligned
1070#endif
1071	vshr.u64	d25,d22,#18
1072#if 14>0
1073	 vadd.i64	d18,d30			@ h+=Maj from the past
1074#endif
1075	vshr.u64	d26,d22,#41
1076	vld1.64		{d28},[r3,:64]!	@ K[i++]
1077	vsli.64		d24,d22,#50
1078	vsli.64		d25,d22,#46
1079	vmov		d29,d22
1080	vsli.64		d26,d22,#23
1081#if 14<16 && defined(__ARMEL__)
1082	vrev64.8	d14,d14
1083#endif
1084	veor		d25,d24
1085	vbsl		d29,d23,d16		@ Ch(e,f,g)
1086	vshr.u64	d24,d18,#28
1087	veor		d26,d25			@ Sigma1(e)
1088	vadd.i64	d27,d29,d17
1089	vshr.u64	d25,d18,#34
1090	vsli.64		d24,d18,#36
1091	vadd.i64	d27,d26
1092	vshr.u64	d26,d18,#39
1093	vadd.i64	d28,d14
1094	vsli.64		d25,d18,#30
1095	veor		d30,d18,d19
1096	vsli.64		d26,d18,#25
1097	veor		d17,d24,d25
1098	vadd.i64	d27,d28
1099	vbsl		d30,d20,d19		@ Maj(a,b,c)
1100	veor		d17,d26			@ Sigma0(a)
1101	vadd.i64	d21,d27
1102	vadd.i64	d30,d27
1103	@ vadd.i64	d17,d30
1104	vshr.u64	d24,d21,#14	@ 15
1105#if 15<16
1106	vld1.64		{d15},[r1]!	@ handles unaligned
1107#endif
1108	vshr.u64	d25,d21,#18
1109#if 15>0
1110	 vadd.i64	d17,d30			@ h+=Maj from the past
1111#endif
1112	vshr.u64	d26,d21,#41
1113	vld1.64		{d28},[r3,:64]!	@ K[i++]
1114	vsli.64		d24,d21,#50
1115	vsli.64		d25,d21,#46
1116	vmov		d29,d21
1117	vsli.64		d26,d21,#23
1118#if 15<16 && defined(__ARMEL__)
1119	vrev64.8	d15,d15
1120#endif
1121	veor		d25,d24
1122	vbsl		d29,d22,d23		@ Ch(e,f,g)
1123	vshr.u64	d24,d17,#28
1124	veor		d26,d25			@ Sigma1(e)
1125	vadd.i64	d27,d29,d16
1126	vshr.u64	d25,d17,#34
1127	vsli.64		d24,d17,#36
1128	vadd.i64	d27,d26
1129	vshr.u64	d26,d17,#39
1130	vadd.i64	d28,d15
1131	vsli.64		d25,d17,#30
1132	veor		d30,d17,d18
1133	vsli.64		d26,d17,#25
1134	veor		d16,d24,d25
1135	vadd.i64	d27,d28
1136	vbsl		d30,d19,d18		@ Maj(a,b,c)
1137	veor		d16,d26			@ Sigma0(a)
1138	vadd.i64	d20,d27
1139	vadd.i64	d30,d27
1140	@ vadd.i64	d16,d30
1141	mov		r12,#4
1142.L16_79_neon:
1143	subs		r12,#1
1144	vshr.u64	q12,q7,#19
1145	vshr.u64	q13,q7,#61
1146	 vadd.i64	d16,d30			@ h+=Maj from the past
1147	vshr.u64	q15,q7,#6
1148	vsli.64		q12,q7,#45
1149	vext.8		q14,q0,q1,#8	@ X[i+1]
1150	vsli.64		q13,q7,#3
1151	veor		q15,q12
1152	vshr.u64	q12,q14,#1
1153	veor		q15,q13				@ sigma1(X[i+14])
1154	vshr.u64	q13,q14,#8
1155	vadd.i64	q0,q15
1156	vshr.u64	q15,q14,#7
1157	vsli.64		q12,q14,#63
1158	vsli.64		q13,q14,#56
1159	vext.8		q14,q4,q5,#8	@ X[i+9]
1160	veor		q15,q12
1161	vshr.u64	d24,d20,#14		@ from NEON_00_15
1162	vadd.i64	q0,q14
1163	vshr.u64	d25,d20,#18		@ from NEON_00_15
1164	veor		q15,q13				@ sigma0(X[i+1])
1165	vshr.u64	d26,d20,#41		@ from NEON_00_15
1166	vadd.i64	q0,q15
1167	vld1.64		{d28},[r3,:64]!	@ K[i++]
1168	vsli.64		d24,d20,#50
1169	vsli.64		d25,d20,#46
1170	vmov		d29,d20
1171	vsli.64		d26,d20,#23
1172#if 16<16 && defined(__ARMEL__)
1173	vrev64.8	,
1174#endif
1175	veor		d25,d24
1176	vbsl		d29,d21,d22		@ Ch(e,f,g)
1177	vshr.u64	d24,d16,#28
1178	veor		d26,d25			@ Sigma1(e)
1179	vadd.i64	d27,d29,d23
1180	vshr.u64	d25,d16,#34
1181	vsli.64		d24,d16,#36
1182	vadd.i64	d27,d26
1183	vshr.u64	d26,d16,#39
1184	vadd.i64	d28,d0
1185	vsli.64		d25,d16,#30
1186	veor		d30,d16,d17
1187	vsli.64		d26,d16,#25
1188	veor		d23,d24,d25
1189	vadd.i64	d27,d28
1190	vbsl		d30,d18,d17		@ Maj(a,b,c)
1191	veor		d23,d26			@ Sigma0(a)
1192	vadd.i64	d19,d27
1193	vadd.i64	d30,d27
1194	@ vadd.i64	d23,d30
1195	vshr.u64	d24,d19,#14	@ 17
1196#if 17<16
1197	vld1.64		{d1},[r1]!	@ handles unaligned
1198#endif
1199	vshr.u64	d25,d19,#18
1200#if 17>0
1201	 vadd.i64	d23,d30			@ h+=Maj from the past
1202#endif
1203	vshr.u64	d26,d19,#41
1204	vld1.64		{d28},[r3,:64]!	@ K[i++]
1205	vsli.64		d24,d19,#50
1206	vsli.64		d25,d19,#46
1207	vmov		d29,d19
1208	vsli.64		d26,d19,#23
1209#if 17<16 && defined(__ARMEL__)
1210	vrev64.8	,
1211#endif
1212	veor		d25,d24
1213	vbsl		d29,d20,d21		@ Ch(e,f,g)
1214	vshr.u64	d24,d23,#28
1215	veor		d26,d25			@ Sigma1(e)
1216	vadd.i64	d27,d29,d22
1217	vshr.u64	d25,d23,#34
1218	vsli.64		d24,d23,#36
1219	vadd.i64	d27,d26
1220	vshr.u64	d26,d23,#39
1221	vadd.i64	d28,d1
1222	vsli.64		d25,d23,#30
1223	veor		d30,d23,d16
1224	vsli.64		d26,d23,#25
1225	veor		d22,d24,d25
1226	vadd.i64	d27,d28
1227	vbsl		d30,d17,d16		@ Maj(a,b,c)
1228	veor		d22,d26			@ Sigma0(a)
1229	vadd.i64	d18,d27
1230	vadd.i64	d30,d27
1231	@ vadd.i64	d22,d30
1232	vshr.u64	q12,q0,#19
1233	vshr.u64	q13,q0,#61
1234	 vadd.i64	d22,d30			@ h+=Maj from the past
1235	vshr.u64	q15,q0,#6
1236	vsli.64		q12,q0,#45
1237	vext.8		q14,q1,q2,#8	@ X[i+1]
1238	vsli.64		q13,q0,#3
1239	veor		q15,q12
1240	vshr.u64	q12,q14,#1
1241	veor		q15,q13				@ sigma1(X[i+14])
1242	vshr.u64	q13,q14,#8
1243	vadd.i64	q1,q15
1244	vshr.u64	q15,q14,#7
1245	vsli.64		q12,q14,#63
1246	vsli.64		q13,q14,#56
1247	vext.8		q14,q5,q6,#8	@ X[i+9]
1248	veor		q15,q12
1249	vshr.u64	d24,d18,#14		@ from NEON_00_15
1250	vadd.i64	q1,q14
1251	vshr.u64	d25,d18,#18		@ from NEON_00_15
1252	veor		q15,q13				@ sigma0(X[i+1])
1253	vshr.u64	d26,d18,#41		@ from NEON_00_15
1254	vadd.i64	q1,q15
1255	vld1.64		{d28},[r3,:64]!	@ K[i++]
1256	vsli.64		d24,d18,#50
1257	vsli.64		d25,d18,#46
1258	vmov		d29,d18
1259	vsli.64		d26,d18,#23
1260#if 18<16 && defined(__ARMEL__)
1261	vrev64.8	,
1262#endif
1263	veor		d25,d24
1264	vbsl		d29,d19,d20		@ Ch(e,f,g)
1265	vshr.u64	d24,d22,#28
1266	veor		d26,d25			@ Sigma1(e)
1267	vadd.i64	d27,d29,d21
1268	vshr.u64	d25,d22,#34
1269	vsli.64		d24,d22,#36
1270	vadd.i64	d27,d26
1271	vshr.u64	d26,d22,#39
1272	vadd.i64	d28,d2
1273	vsli.64		d25,d22,#30
1274	veor		d30,d22,d23
1275	vsli.64		d26,d22,#25
1276	veor		d21,d24,d25
1277	vadd.i64	d27,d28
1278	vbsl		d30,d16,d23		@ Maj(a,b,c)
1279	veor		d21,d26			@ Sigma0(a)
1280	vadd.i64	d17,d27
1281	vadd.i64	d30,d27
1282	@ vadd.i64	d21,d30
1283	vshr.u64	d24,d17,#14	@ 19
1284#if 19<16
1285	vld1.64		{d3},[r1]!	@ handles unaligned
1286#endif
1287	vshr.u64	d25,d17,#18
1288#if 19>0
1289	 vadd.i64	d21,d30			@ h+=Maj from the past
1290#endif
1291	vshr.u64	d26,d17,#41
1292	vld1.64		{d28},[r3,:64]!	@ K[i++]
1293	vsli.64		d24,d17,#50
1294	vsli.64		d25,d17,#46
1295	vmov		d29,d17
1296	vsli.64		d26,d17,#23
1297#if 19<16 && defined(__ARMEL__)
1298	vrev64.8	,
1299#endif
1300	veor		d25,d24
1301	vbsl		d29,d18,d19		@ Ch(e,f,g)
1302	vshr.u64	d24,d21,#28
1303	veor		d26,d25			@ Sigma1(e)
1304	vadd.i64	d27,d29,d20
1305	vshr.u64	d25,d21,#34
1306	vsli.64		d24,d21,#36
1307	vadd.i64	d27,d26
1308	vshr.u64	d26,d21,#39
1309	vadd.i64	d28,d3
1310	vsli.64		d25,d21,#30
1311	veor		d30,d21,d22
1312	vsli.64		d26,d21,#25
1313	veor		d20,d24,d25
1314	vadd.i64	d27,d28
1315	vbsl		d30,d23,d22		@ Maj(a,b,c)
1316	veor		d20,d26			@ Sigma0(a)
1317	vadd.i64	d16,d27
1318	vadd.i64	d30,d27
1319	@ vadd.i64	d20,d30
1320	vshr.u64	q12,q1,#19
1321	vshr.u64	q13,q1,#61
1322	 vadd.i64	d20,d30			@ h+=Maj from the past
1323	vshr.u64	q15,q1,#6
1324	vsli.64		q12,q1,#45
1325	vext.8		q14,q2,q3,#8	@ X[i+1]
1326	vsli.64		q13,q1,#3
1327	veor		q15,q12
1328	vshr.u64	q12,q14,#1
1329	veor		q15,q13				@ sigma1(X[i+14])
1330	vshr.u64	q13,q14,#8
1331	vadd.i64	q2,q15
1332	vshr.u64	q15,q14,#7
1333	vsli.64		q12,q14,#63
1334	vsli.64		q13,q14,#56
1335	vext.8		q14,q6,q7,#8	@ X[i+9]
1336	veor		q15,q12
1337	vshr.u64	d24,d16,#14		@ from NEON_00_15
1338	vadd.i64	q2,q14
1339	vshr.u64	d25,d16,#18		@ from NEON_00_15
1340	veor		q15,q13				@ sigma0(X[i+1])
1341	vshr.u64	d26,d16,#41		@ from NEON_00_15
1342	vadd.i64	q2,q15
1343	vld1.64		{d28},[r3,:64]!	@ K[i++]
1344	vsli.64		d24,d16,#50
1345	vsli.64		d25,d16,#46
1346	vmov		d29,d16
1347	vsli.64		d26,d16,#23
1348#if 20<16 && defined(__ARMEL__)
1349	vrev64.8	,
1350#endif
1351	veor		d25,d24
1352	vbsl		d29,d17,d18		@ Ch(e,f,g)
1353	vshr.u64	d24,d20,#28
1354	veor		d26,d25			@ Sigma1(e)
1355	vadd.i64	d27,d29,d19
1356	vshr.u64	d25,d20,#34
1357	vsli.64		d24,d20,#36
1358	vadd.i64	d27,d26
1359	vshr.u64	d26,d20,#39
1360	vadd.i64	d28,d4
1361	vsli.64		d25,d20,#30
1362	veor		d30,d20,d21
1363	vsli.64		d26,d20,#25
1364	veor		d19,d24,d25
1365	vadd.i64	d27,d28
1366	vbsl		d30,d22,d21		@ Maj(a,b,c)
1367	veor		d19,d26			@ Sigma0(a)
1368	vadd.i64	d23,d27
1369	vadd.i64	d30,d27
1370	@ vadd.i64	d19,d30
1371	vshr.u64	d24,d23,#14	@ 21
1372#if 21<16
1373	vld1.64		{d5},[r1]!	@ handles unaligned
1374#endif
1375	vshr.u64	d25,d23,#18
1376#if 21>0
1377	 vadd.i64	d19,d30			@ h+=Maj from the past
1378#endif
1379	vshr.u64	d26,d23,#41
1380	vld1.64		{d28},[r3,:64]!	@ K[i++]
1381	vsli.64		d24,d23,#50
1382	vsli.64		d25,d23,#46
1383	vmov		d29,d23
1384	vsli.64		d26,d23,#23
1385#if 21<16 && defined(__ARMEL__)
1386	vrev64.8	,
1387#endif
1388	veor		d25,d24
1389	vbsl		d29,d16,d17		@ Ch(e,f,g)
1390	vshr.u64	d24,d19,#28
1391	veor		d26,d25			@ Sigma1(e)
1392	vadd.i64	d27,d29,d18
1393	vshr.u64	d25,d19,#34
1394	vsli.64		d24,d19,#36
1395	vadd.i64	d27,d26
1396	vshr.u64	d26,d19,#39
1397	vadd.i64	d28,d5
1398	vsli.64		d25,d19,#30
1399	veor		d30,d19,d20
1400	vsli.64		d26,d19,#25
1401	veor		d18,d24,d25
1402	vadd.i64	d27,d28
1403	vbsl		d30,d21,d20		@ Maj(a,b,c)
1404	veor		d18,d26			@ Sigma0(a)
1405	vadd.i64	d22,d27
1406	vadd.i64	d30,d27
1407	@ vadd.i64	d18,d30
1408	vshr.u64	q12,q2,#19
1409	vshr.u64	q13,q2,#61
1410	 vadd.i64	d18,d30			@ h+=Maj from the past
1411	vshr.u64	q15,q2,#6
1412	vsli.64		q12,q2,#45
1413	vext.8		q14,q3,q4,#8	@ X[i+1]
1414	vsli.64		q13,q2,#3
1415	veor		q15,q12
1416	vshr.u64	q12,q14,#1
1417	veor		q15,q13				@ sigma1(X[i+14])
1418	vshr.u64	q13,q14,#8
1419	vadd.i64	q3,q15
1420	vshr.u64	q15,q14,#7
1421	vsli.64		q12,q14,#63
1422	vsli.64		q13,q14,#56
1423	vext.8		q14,q7,q0,#8	@ X[i+9]
1424	veor		q15,q12
1425	vshr.u64	d24,d22,#14		@ from NEON_00_15
1426	vadd.i64	q3,q14
1427	vshr.u64	d25,d22,#18		@ from NEON_00_15
1428	veor		q15,q13				@ sigma0(X[i+1])
1429	vshr.u64	d26,d22,#41		@ from NEON_00_15
1430	vadd.i64	q3,q15
1431	vld1.64		{d28},[r3,:64]!	@ K[i++]
1432	vsli.64		d24,d22,#50
1433	vsli.64		d25,d22,#46
1434	vmov		d29,d22
1435	vsli.64		d26,d22,#23
1436#if 22<16 && defined(__ARMEL__)
1437	vrev64.8	,
1438#endif
1439	veor		d25,d24
1440	vbsl		d29,d23,d16		@ Ch(e,f,g)
1441	vshr.u64	d24,d18,#28
1442	veor		d26,d25			@ Sigma1(e)
1443	vadd.i64	d27,d29,d17
1444	vshr.u64	d25,d18,#34
1445	vsli.64		d24,d18,#36
1446	vadd.i64	d27,d26
1447	vshr.u64	d26,d18,#39
1448	vadd.i64	d28,d6
1449	vsli.64		d25,d18,#30
1450	veor		d30,d18,d19
1451	vsli.64		d26,d18,#25
1452	veor		d17,d24,d25
1453	vadd.i64	d27,d28
1454	vbsl		d30,d20,d19		@ Maj(a,b,c)
1455	veor		d17,d26			@ Sigma0(a)
1456	vadd.i64	d21,d27
1457	vadd.i64	d30,d27
1458	@ vadd.i64	d17,d30
1459	vshr.u64	d24,d21,#14	@ 23
1460#if 23<16
1461	vld1.64		{d7},[r1]!	@ handles unaligned
1462#endif
1463	vshr.u64	d25,d21,#18
1464#if 23>0
1465	 vadd.i64	d17,d30			@ h+=Maj from the past
1466#endif
1467	vshr.u64	d26,d21,#41
1468	vld1.64		{d28},[r3,:64]!	@ K[i++]
1469	vsli.64		d24,d21,#50
1470	vsli.64		d25,d21,#46
1471	vmov		d29,d21
1472	vsli.64		d26,d21,#23
1473#if 23<16 && defined(__ARMEL__)
1474	vrev64.8	,
1475#endif
1476	veor		d25,d24
1477	vbsl		d29,d22,d23		@ Ch(e,f,g)
1478	vshr.u64	d24,d17,#28
1479	veor		d26,d25			@ Sigma1(e)
1480	vadd.i64	d27,d29,d16
1481	vshr.u64	d25,d17,#34
1482	vsli.64		d24,d17,#36
1483	vadd.i64	d27,d26
1484	vshr.u64	d26,d17,#39
1485	vadd.i64	d28,d7
1486	vsli.64		d25,d17,#30
1487	veor		d30,d17,d18
1488	vsli.64		d26,d17,#25
1489	veor		d16,d24,d25
1490	vadd.i64	d27,d28
1491	vbsl		d30,d19,d18		@ Maj(a,b,c)
1492	veor		d16,d26			@ Sigma0(a)
1493	vadd.i64	d20,d27
1494	vadd.i64	d30,d27
1495	@ vadd.i64	d16,d30
1496	vshr.u64	q12,q3,#19
1497	vshr.u64	q13,q3,#61
1498	 vadd.i64	d16,d30			@ h+=Maj from the past
1499	vshr.u64	q15,q3,#6
1500	vsli.64		q12,q3,#45
1501	vext.8		q14,q4,q5,#8	@ X[i+1]
1502	vsli.64		q13,q3,#3
1503	veor		q15,q12
1504	vshr.u64	q12,q14,#1
1505	veor		q15,q13				@ sigma1(X[i+14])
1506	vshr.u64	q13,q14,#8
1507	vadd.i64	q4,q15
1508	vshr.u64	q15,q14,#7
1509	vsli.64		q12,q14,#63
1510	vsli.64		q13,q14,#56
1511	vext.8		q14,q0,q1,#8	@ X[i+9]
1512	veor		q15,q12
1513	vshr.u64	d24,d20,#14		@ from NEON_00_15
1514	vadd.i64	q4,q14
1515	vshr.u64	d25,d20,#18		@ from NEON_00_15
1516	veor		q15,q13				@ sigma0(X[i+1])
1517	vshr.u64	d26,d20,#41		@ from NEON_00_15
1518	vadd.i64	q4,q15
1519	vld1.64		{d28},[r3,:64]!	@ K[i++]
1520	vsli.64		d24,d20,#50
1521	vsli.64		d25,d20,#46
1522	vmov		d29,d20
1523	vsli.64		d26,d20,#23
1524#if 24<16 && defined(__ARMEL__)
1525	vrev64.8	,
1526#endif
1527	veor		d25,d24
1528	vbsl		d29,d21,d22		@ Ch(e,f,g)
1529	vshr.u64	d24,d16,#28
1530	veor		d26,d25			@ Sigma1(e)
1531	vadd.i64	d27,d29,d23
1532	vshr.u64	d25,d16,#34
1533	vsli.64		d24,d16,#36
1534	vadd.i64	d27,d26
1535	vshr.u64	d26,d16,#39
1536	vadd.i64	d28,d8
1537	vsli.64		d25,d16,#30
1538	veor		d30,d16,d17
1539	vsli.64		d26,d16,#25
1540	veor		d23,d24,d25
1541	vadd.i64	d27,d28
1542	vbsl		d30,d18,d17		@ Maj(a,b,c)
1543	veor		d23,d26			@ Sigma0(a)
1544	vadd.i64	d19,d27
1545	vadd.i64	d30,d27
1546	@ vadd.i64	d23,d30
1547	vshr.u64	d24,d19,#14	@ 25
1548#if 25<16
1549	vld1.64		{d9},[r1]!	@ handles unaligned
1550#endif
1551	vshr.u64	d25,d19,#18
1552#if 25>0
1553	 vadd.i64	d23,d30			@ h+=Maj from the past
1554#endif
1555	vshr.u64	d26,d19,#41
1556	vld1.64		{d28},[r3,:64]!	@ K[i++]
1557	vsli.64		d24,d19,#50
1558	vsli.64		d25,d19,#46
1559	vmov		d29,d19
1560	vsli.64		d26,d19,#23
1561#if 25<16 && defined(__ARMEL__)
1562	vrev64.8	,
1563#endif
1564	veor		d25,d24
1565	vbsl		d29,d20,d21		@ Ch(e,f,g)
1566	vshr.u64	d24,d23,#28
1567	veor		d26,d25			@ Sigma1(e)
1568	vadd.i64	d27,d29,d22
1569	vshr.u64	d25,d23,#34
1570	vsli.64		d24,d23,#36
1571	vadd.i64	d27,d26
1572	vshr.u64	d26,d23,#39
1573	vadd.i64	d28,d9
1574	vsli.64		d25,d23,#30
1575	veor		d30,d23,d16
1576	vsli.64		d26,d23,#25
1577	veor		d22,d24,d25
1578	vadd.i64	d27,d28
1579	vbsl		d30,d17,d16		@ Maj(a,b,c)
1580	veor		d22,d26			@ Sigma0(a)
1581	vadd.i64	d18,d27
1582	vadd.i64	d30,d27
1583	@ vadd.i64	d22,d30
1584	vshr.u64	q12,q4,#19
1585	vshr.u64	q13,q4,#61
1586	 vadd.i64	d22,d30			@ h+=Maj from the past
1587	vshr.u64	q15,q4,#6
1588	vsli.64		q12,q4,#45
1589	vext.8		q14,q5,q6,#8	@ X[i+1]
1590	vsli.64		q13,q4,#3
1591	veor		q15,q12
1592	vshr.u64	q12,q14,#1
1593	veor		q15,q13				@ sigma1(X[i+14])
1594	vshr.u64	q13,q14,#8
1595	vadd.i64	q5,q15
1596	vshr.u64	q15,q14,#7
1597	vsli.64		q12,q14,#63
1598	vsli.64		q13,q14,#56
1599	vext.8		q14,q1,q2,#8	@ X[i+9]
1600	veor		q15,q12
1601	vshr.u64	d24,d18,#14		@ from NEON_00_15
1602	vadd.i64	q5,q14
1603	vshr.u64	d25,d18,#18		@ from NEON_00_15
1604	veor		q15,q13				@ sigma0(X[i+1])
1605	vshr.u64	d26,d18,#41		@ from NEON_00_15
1606	vadd.i64	q5,q15
1607	vld1.64		{d28},[r3,:64]!	@ K[i++]
1608	vsli.64		d24,d18,#50
1609	vsli.64		d25,d18,#46
1610	vmov		d29,d18
1611	vsli.64		d26,d18,#23
1612#if 26<16 && defined(__ARMEL__)
1613	vrev64.8	,
1614#endif
1615	veor		d25,d24
1616	vbsl		d29,d19,d20		@ Ch(e,f,g)
1617	vshr.u64	d24,d22,#28
1618	veor		d26,d25			@ Sigma1(e)
1619	vadd.i64	d27,d29,d21
1620	vshr.u64	d25,d22,#34
1621	vsli.64		d24,d22,#36
1622	vadd.i64	d27,d26
1623	vshr.u64	d26,d22,#39
1624	vadd.i64	d28,d10
1625	vsli.64		d25,d22,#30
1626	veor		d30,d22,d23
1627	vsli.64		d26,d22,#25
1628	veor		d21,d24,d25
1629	vadd.i64	d27,d28
1630	vbsl		d30,d16,d23		@ Maj(a,b,c)
1631	veor		d21,d26			@ Sigma0(a)
1632	vadd.i64	d17,d27
1633	vadd.i64	d30,d27
1634	@ vadd.i64	d21,d30
1635	vshr.u64	d24,d17,#14	@ 27
1636#if 27<16
1637	vld1.64		{d11},[r1]!	@ handles unaligned
1638#endif
1639	vshr.u64	d25,d17,#18
1640#if 27>0
1641	 vadd.i64	d21,d30			@ h+=Maj from the past
1642#endif
1643	vshr.u64	d26,d17,#41
1644	vld1.64		{d28},[r3,:64]!	@ K[i++]
1645	vsli.64		d24,d17,#50
1646	vsli.64		d25,d17,#46
1647	vmov		d29,d17
1648	vsli.64		d26,d17,#23
1649#if 27<16 && defined(__ARMEL__)
1650	vrev64.8	,
1651#endif
1652	veor		d25,d24
1653	vbsl		d29,d18,d19		@ Ch(e,f,g)
1654	vshr.u64	d24,d21,#28
1655	veor		d26,d25			@ Sigma1(e)
1656	vadd.i64	d27,d29,d20
1657	vshr.u64	d25,d21,#34
1658	vsli.64		d24,d21,#36
1659	vadd.i64	d27,d26
1660	vshr.u64	d26,d21,#39
1661	vadd.i64	d28,d11
1662	vsli.64		d25,d21,#30
1663	veor		d30,d21,d22
1664	vsli.64		d26,d21,#25
1665	veor		d20,d24,d25
1666	vadd.i64	d27,d28
1667	vbsl		d30,d23,d22		@ Maj(a,b,c)
1668	veor		d20,d26			@ Sigma0(a)
1669	vadd.i64	d16,d27
1670	vadd.i64	d30,d27
1671	@ vadd.i64	d20,d30
1672	vshr.u64	q12,q5,#19
1673	vshr.u64	q13,q5,#61
1674	 vadd.i64	d20,d30			@ h+=Maj from the past
1675	vshr.u64	q15,q5,#6
1676	vsli.64		q12,q5,#45
1677	vext.8		q14,q6,q7,#8	@ X[i+1]
1678	vsli.64		q13,q5,#3
1679	veor		q15,q12
1680	vshr.u64	q12,q14,#1
1681	veor		q15,q13				@ sigma1(X[i+14])
1682	vshr.u64	q13,q14,#8
1683	vadd.i64	q6,q15
1684	vshr.u64	q15,q14,#7
1685	vsli.64		q12,q14,#63
1686	vsli.64		q13,q14,#56
1687	vext.8		q14,q2,q3,#8	@ X[i+9]
1688	veor		q15,q12
1689	vshr.u64	d24,d16,#14		@ from NEON_00_15
1690	vadd.i64	q6,q14
1691	vshr.u64	d25,d16,#18		@ from NEON_00_15
1692	veor		q15,q13				@ sigma0(X[i+1])
1693	vshr.u64	d26,d16,#41		@ from NEON_00_15
1694	vadd.i64	q6,q15
1695	vld1.64		{d28},[r3,:64]!	@ K[i++]
1696	vsli.64		d24,d16,#50
1697	vsli.64		d25,d16,#46
1698	vmov		d29,d16
1699	vsli.64		d26,d16,#23
1700#if 28<16 && defined(__ARMEL__)
1701	vrev64.8	,
1702#endif
1703	veor		d25,d24
1704	vbsl		d29,d17,d18		@ Ch(e,f,g)
1705	vshr.u64	d24,d20,#28
1706	veor		d26,d25			@ Sigma1(e)
1707	vadd.i64	d27,d29,d19
1708	vshr.u64	d25,d20,#34
1709	vsli.64		d24,d20,#36
1710	vadd.i64	d27,d26
1711	vshr.u64	d26,d20,#39
1712	vadd.i64	d28,d12
1713	vsli.64		d25,d20,#30
1714	veor		d30,d20,d21
1715	vsli.64		d26,d20,#25
1716	veor		d19,d24,d25
1717	vadd.i64	d27,d28
1718	vbsl		d30,d22,d21		@ Maj(a,b,c)
1719	veor		d19,d26			@ Sigma0(a)
1720	vadd.i64	d23,d27
1721	vadd.i64	d30,d27
1722	@ vadd.i64	d19,d30
1723	vshr.u64	d24,d23,#14	@ 29
1724#if 29<16
1725	vld1.64		{d13},[r1]!	@ handles unaligned
1726#endif
1727	vshr.u64	d25,d23,#18
1728#if 29>0
1729	 vadd.i64	d19,d30			@ h+=Maj from the past
1730#endif
1731	vshr.u64	d26,d23,#41
1732	vld1.64		{d28},[r3,:64]!	@ K[i++]
1733	vsli.64		d24,d23,#50
1734	vsli.64		d25,d23,#46
1735	vmov		d29,d23
1736	vsli.64		d26,d23,#23
1737#if 29<16 && defined(__ARMEL__)
1738	vrev64.8	,
1739#endif
1740	veor		d25,d24
1741	vbsl		d29,d16,d17		@ Ch(e,f,g)
1742	vshr.u64	d24,d19,#28
1743	veor		d26,d25			@ Sigma1(e)
1744	vadd.i64	d27,d29,d18
1745	vshr.u64	d25,d19,#34
1746	vsli.64		d24,d19,#36
1747	vadd.i64	d27,d26
1748	vshr.u64	d26,d19,#39
1749	vadd.i64	d28,d13
1750	vsli.64		d25,d19,#30
1751	veor		d30,d19,d20
1752	vsli.64		d26,d19,#25
1753	veor		d18,d24,d25
1754	vadd.i64	d27,d28
1755	vbsl		d30,d21,d20		@ Maj(a,b,c)
1756	veor		d18,d26			@ Sigma0(a)
1757	vadd.i64	d22,d27
1758	vadd.i64	d30,d27
1759	@ vadd.i64	d18,d30
1760	vshr.u64	q12,q6,#19
1761	vshr.u64	q13,q6,#61
1762	 vadd.i64	d18,d30			@ h+=Maj from the past
1763	vshr.u64	q15,q6,#6
1764	vsli.64		q12,q6,#45
1765	vext.8		q14,q7,q0,#8	@ X[i+1]
1766	vsli.64		q13,q6,#3
1767	veor		q15,q12
1768	vshr.u64	q12,q14,#1
1769	veor		q15,q13				@ sigma1(X[i+14])
1770	vshr.u64	q13,q14,#8
1771	vadd.i64	q7,q15
1772	vshr.u64	q15,q14,#7
1773	vsli.64		q12,q14,#63
1774	vsli.64		q13,q14,#56
1775	vext.8		q14,q3,q4,#8	@ X[i+9]
1776	veor		q15,q12
1777	vshr.u64	d24,d22,#14		@ from NEON_00_15
1778	vadd.i64	q7,q14
1779	vshr.u64	d25,d22,#18		@ from NEON_00_15
1780	veor		q15,q13				@ sigma0(X[i+1])
1781	vshr.u64	d26,d22,#41		@ from NEON_00_15
1782	vadd.i64	q7,q15
1783	vld1.64		{d28},[r3,:64]!	@ K[i++]
1784	vsli.64		d24,d22,#50
1785	vsli.64		d25,d22,#46
1786	vmov		d29,d22
1787	vsli.64		d26,d22,#23
1788#if 30<16 && defined(__ARMEL__)
1789	vrev64.8	,
1790#endif
1791	veor		d25,d24
1792	vbsl		d29,d23,d16		@ Ch(e,f,g)
1793	vshr.u64	d24,d18,#28
1794	veor		d26,d25			@ Sigma1(e)
1795	vadd.i64	d27,d29,d17
1796	vshr.u64	d25,d18,#34
1797	vsli.64		d24,d18,#36
1798	vadd.i64	d27,d26
1799	vshr.u64	d26,d18,#39
1800	vadd.i64	d28,d14
1801	vsli.64		d25,d18,#30
1802	veor		d30,d18,d19
1803	vsli.64		d26,d18,#25
1804	veor		d17,d24,d25
1805	vadd.i64	d27,d28
1806	vbsl		d30,d20,d19		@ Maj(a,b,c)
1807	veor		d17,d26			@ Sigma0(a)
1808	vadd.i64	d21,d27
1809	vadd.i64	d30,d27
1810	@ vadd.i64	d17,d30
1811	vshr.u64	d24,d21,#14	@ 31
1812#if 31<16
1813	vld1.64		{d15},[r1]!	@ handles unaligned
1814#endif
1815	vshr.u64	d25,d21,#18
1816#if 31>0
1817	 vadd.i64	d17,d30			@ h+=Maj from the past
1818#endif
1819	vshr.u64	d26,d21,#41
1820	vld1.64		{d28},[r3,:64]!	@ K[i++]
1821	vsli.64		d24,d21,#50
1822	vsli.64		d25,d21,#46
1823	vmov		d29,d21
1824	vsli.64		d26,d21,#23
1825#if 31<16 && defined(__ARMEL__)
1826	vrev64.8	,
1827#endif
1828	veor		d25,d24
1829	vbsl		d29,d22,d23		@ Ch(e,f,g)
1830	vshr.u64	d24,d17,#28
1831	veor		d26,d25			@ Sigma1(e)
1832	vadd.i64	d27,d29,d16
1833	vshr.u64	d25,d17,#34
1834	vsli.64		d24,d17,#36
1835	vadd.i64	d27,d26
1836	vshr.u64	d26,d17,#39
1837	vadd.i64	d28,d15
1838	vsli.64		d25,d17,#30
1839	veor		d30,d17,d18
1840	vsli.64		d26,d17,#25
1841	veor		d16,d24,d25
1842	vadd.i64	d27,d28
1843	vbsl		d30,d19,d18		@ Maj(a,b,c)
1844	veor		d16,d26			@ Sigma0(a)
1845	vadd.i64	d20,d27
1846	vadd.i64	d30,d27
1847	@ vadd.i64	d16,d30
1848	bne		.L16_79_neon
1849
1850	 vadd.i64	d16,d30		@ h+=Maj from the past
1851	vldmia		r0,{d24-d31}	@ load context to temp
1852	vadd.i64	q8,q12		@ vectorized accumulate
1853	vadd.i64	q9,q13
1854	vadd.i64	q10,q14
1855	vadd.i64	q11,q15
1856	vstmia		r0,{d16-d23}	@ save context
1857	teq		r1,r2
1858	sub		r3,#640	@ rewind K512
1859	bne		.Loop_neon
1860
1861	VFP_ABI_POP
1862	bx	lr				@ .word	0xe12fff1e
1863.size	sha512_block_data_order_neon,.-sha512_block_data_order_neon
1864#endif
1865.asciz	"SHA512 block transform for ARMv4/NEON, CRYPTOGAMS by <appro@openssl.org>"
1866.align	2
1867#if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
1868.comm	OPENSSL_armcap_P,4,4
1869#endif
1870