gecko-dev/gfx/ycbcr/yuv_row_win.cpp

// Copyright (c) 2010 The Chromium Authors. All rights reserved.
// Use of this source code is governed by a BSD-style license that can be
// found in the LICENSE file.

#include "yuv_row.h"
#include "mozilla/SSE.h"

#define kCoefficientsRgbU kCoefficientsRgbY + 2048
#define kCoefficientsRgbV kCoefficientsRgbY + 4096

extern "C" {

#if defined(MOZILLA_MAY_SUPPORT_SSE) && defined(_M_IX86)
#if defined(__clang__)
// clang-cl has a bug where it doesn't mangle names in inline asm
// so let's do the mangling in the preprocessor (ugh)
// (but we still need to declare a dummy extern for the parser)
extern void* _kCoefficientsRgbY;
#define kCoefficientsRgbY _kCoefficientsRgbY
#endif

__declspec(naked)
void FastConvertYUVToRGB32Row_SSE(const uint8* y_buf,
                                  const uint8* u_buf,
                                  const uint8* v_buf,
                                  uint8* rgb_buf,
                                  int width) {
  __asm {
    pushad
    mov       edx, [esp + 32 + 4]   // Y
    mov       edi, [esp + 32 + 8]   // U
    mov       esi, [esp + 32 + 12]  // V
    mov       ebp, [esp + 32 + 16]  // rgb
    mov       ecx, [esp + 32 + 20]  // width
    jmp       convertend

 convertloop :
    movzx     eax, byte ptr [edi]
    add       edi, 1
    movzx     ebx, byte ptr [esi]
    add       esi, 1
    movq      mm0, [kCoefficientsRgbU + 8 * eax]
    movzx     eax, byte ptr [edx]
    paddsw    mm0, [kCoefficientsRgbV + 8 * ebx]
    movzx     ebx, byte ptr [edx + 1]
    movq      mm1, [kCoefficientsRgbY + 8 * eax]
    add       edx, 2
    movq      mm2, [kCoefficientsRgbY + 8 * ebx]
    paddsw    mm1, mm0
    paddsw    mm2, mm0
    psraw     mm1, 6
    psraw     mm2, 6
    packuswb  mm1, mm2
    movntq    [ebp], mm1
    add       ebp, 8
 convertend :
    sub       ecx, 2
    jns       convertloop

    and       ecx, 1  // odd number of pixels?
    jz        convertdone

    movzx     eax, byte ptr [edi]
    movq      mm0, [kCoefficientsRgbU + 8 * eax]
    movzx     eax, byte ptr [esi]
    paddsw    mm0, [kCoefficientsRgbV + 8 * eax]
    movzx     eax, byte ptr [edx]
    movq      mm1, [kCoefficientsRgbY + 8 * eax]
    paddsw    mm1, mm0
    psraw     mm1, 6
    packuswb  mm1, mm1
    movd      [ebp], mm1
 convertdone :

    popad
    ret
  }
}

__declspec(naked)
void ConvertYUVToRGB32Row_SSE(const uint8* y_buf,
                              const uint8* u_buf,
                              const uint8* v_buf,
                              uint8* rgb_buf,
                              int width,
                              int step) {
  __asm {
    pushad
    mov       edx, [esp + 32 + 4]   // Y
    mov       edi, [esp + 32 + 8]   // U
    mov       esi, [esp + 32 + 12]  // V
    mov       ebp, [esp + 32 + 16]  // rgb
    mov       ecx, [esp + 32 + 20]  // width
    mov       ebx, [esp + 32 + 24]  // step
    jmp       wend

 wloop :
    movzx     eax, byte ptr [edi]
    add       edi, ebx
    movq      mm0, [kCoefficientsRgbU + 8 * eax]
    movzx     eax, byte ptr [esi]
    add       esi, ebx
    paddsw    mm0, [kCoefficientsRgbV + 8 * eax]
    movzx     eax, byte ptr [edx]
    add       edx, ebx
    movq      mm1, [kCoefficientsRgbY + 8 * eax]
    movzx     eax, byte ptr [edx]
    add       edx, ebx
    movq      mm2, [kCoefficientsRgbY + 8 * eax]
    paddsw    mm1, mm0
    paddsw    mm2, mm0
    psraw     mm1, 6
    psraw     mm2, 6
    packuswb  mm1, mm2
    movntq    [ebp], mm1
    add       ebp, 8
 wend :
    sub       ecx, 2
    jns       wloop

    and       ecx, 1  // odd number of pixels?
    jz        wdone

    movzx     eax, byte ptr [edi]
    movq      mm0, [kCoefficientsRgbU + 8 * eax]
    movzx     eax, byte ptr [esi]
    paddsw    mm0, [kCoefficientsRgbV + 8 * eax]
    movzx     eax, byte ptr [edx]
    movq      mm1, [kCoefficientsRgbY + 8 * eax]
    paddsw    mm1, mm0
    psraw     mm1, 6
    packuswb  mm1, mm1
    movd      [ebp], mm1
 wdone :

    popad
    ret
  }
}

__declspec(naked)
void RotateConvertYUVToRGB32Row_SSE(const uint8* y_buf,
                                    const uint8* u_buf,
                                    const uint8* v_buf,
                                    uint8* rgb_buf,
                                    int width,
                                    int ystep,
                                    int uvstep) {
  __asm {
    pushad
    mov       edx, [esp + 32 + 4]   // Y
    mov       edi, [esp + 32 + 8]   // U
    mov       esi, [esp + 32 + 12]  // V
    mov       ebp, [esp + 32 + 16]  // rgb
    mov       ecx, [esp + 32 + 20]  // width
    jmp       wend

 wloop :
    movzx     eax, byte ptr [edi]
    mov       ebx, [esp + 32 + 28]  // uvstep
    add       edi, ebx
    movq      mm0, [kCoefficientsRgbU + 8 * eax]
    movzx     eax, byte ptr [esi]
    add       esi, ebx
    paddsw    mm0, [kCoefficientsRgbV + 8 * eax]
    movzx     eax, byte ptr [edx]
    mov       ebx, [esp + 32 + 24]  // ystep
    add       edx, ebx
    movq      mm1, [kCoefficientsRgbY + 8 * eax]
    movzx     eax, byte ptr [edx]
    add       edx, ebx
    movq      mm2, [kCoefficientsRgbY + 8 * eax]
    paddsw    mm1, mm0
    paddsw    mm2, mm0
    psraw     mm1, 6
    psraw     mm2, 6
    packuswb  mm1, mm2
    movntq    [ebp], mm1
    add       ebp, 8
 wend :
    sub       ecx, 2
    jns       wloop

    and       ecx, 1  // odd number of pixels?
    jz        wdone

    movzx     eax, byte ptr [edi]
    movq      mm0, [kCoefficientsRgbU + 8 * eax]
    movzx     eax, byte ptr [esi]
    paddsw    mm0, [kCoefficientsRgbV + 8 * eax]
    movzx     eax, byte ptr [edx]
    movq      mm1, [kCoefficientsRgbY + 8 * eax]
    paddsw    mm1, mm0
    psraw     mm1, 6
    packuswb  mm1, mm1
    movd      [ebp], mm1
 wdone :

    popad
    ret
  }
}

__declspec(naked)
void DoubleYUVToRGB32Row_SSE(const uint8* y_buf,
                             const uint8* u_buf,
                             const uint8* v_buf,
                             uint8* rgb_buf,
                             int width) {
  __asm {
    pushad
    mov       edx, [esp + 32 + 4]   // Y
    mov       edi, [esp + 32 + 8]   // U
    mov       esi, [esp + 32 + 12]  // V
    mov       ebp, [esp + 32 + 16]  // rgb
    mov       ecx, [esp + 32 + 20]  // width
    jmp       wend

 wloop :
    movzx     eax, byte ptr [edi]
    add       edi, 1
    movzx     ebx, byte ptr [esi]
    add       esi, 1
    movq      mm0, [kCoefficientsRgbU + 8 * eax]
    movzx     eax, byte ptr [edx]
    paddsw    mm0, [kCoefficientsRgbV + 8 * ebx]
    movq      mm1, [kCoefficientsRgbY + 8 * eax]
    paddsw    mm1, mm0
    psraw     mm1, 6
    packuswb  mm1, mm1
    punpckldq mm1, mm1
    movntq    [ebp], mm1

    movzx     ebx, byte ptr [edx + 1]
    add       edx, 2
    paddsw    mm0, [kCoefficientsRgbY + 8 * ebx]
    psraw     mm0, 6
    packuswb  mm0, mm0
    punpckldq mm0, mm0
    movntq    [ebp+8], mm0
    add       ebp, 16
 wend :
    sub       ecx, 4
    jns       wloop

    add       ecx, 4
    jz        wdone

    movzx     eax, byte ptr [edi]
    movq      mm0, [kCoefficientsRgbU + 8 * eax]
    movzx     eax, byte ptr [esi]
    paddsw    mm0, [kCoefficientsRgbV + 8 * eax]
    movzx     eax, byte ptr [edx]
    movq      mm1, [kCoefficientsRgbY + 8 * eax]
    paddsw    mm1, mm0
    psraw     mm1, 6
    packuswb  mm1, mm1
    jmp       wend1

 wloop1 :
    movd      [ebp], mm1
    add       ebp, 4
 wend1 :
    sub       ecx, 1
    jns       wloop1
 wdone :
    popad
    ret
  }
}

// This version does general purpose scaling by any amount, up or down.
// The only thing it cannot do is rotation by 90 or 270.
// For performance the chroma is under-sampled, reducing cost of a 3x
// 1080p scale from 8.4 ms to 5.4 ms.
__declspec(naked)
void ScaleYUVToRGB32Row_SSE(const uint8* y_buf,
                            const uint8* u_buf,
                            const uint8* v_buf,
                            uint8* rgb_buf,
                            int width,
                            int source_dx) {
  __asm {
    pushad
    mov       edx, [esp + 32 + 4]   // Y
    mov       edi, [esp + 32 + 8]   // U
    mov       esi, [esp + 32 + 12]  // V
    mov       ebp, [esp + 32 + 16]  // rgb
    mov       ecx, [esp + 32 + 20]  // width
    xor       ebx, ebx              // x
    jmp       scaleend

 scaleloop :
    mov       eax, ebx
    sar       eax, 17
    movzx     eax, byte ptr [edi + eax]
    movq      mm0, [kCoefficientsRgbU + 8 * eax]
    mov       eax, ebx
    sar       eax, 17
    movzx     eax, byte ptr [esi + eax]
    paddsw    mm0, [kCoefficientsRgbV + 8 * eax]
    mov       eax, ebx
    add       ebx, [esp + 32 + 24]  // x += source_dx
    sar       eax, 16
    movzx     eax, byte ptr [edx + eax]
    movq      mm1, [kCoefficientsRgbY + 8 * eax]
    mov       eax, ebx
    add       ebx, [esp + 32 + 24]  // x += source_dx
    sar       eax, 16
    movzx     eax, byte ptr [edx + eax]
    movq      mm2, [kCoefficientsRgbY + 8 * eax]
    paddsw    mm1, mm0
    paddsw    mm2, mm0
    psraw     mm1, 6
    psraw     mm2, 6
    packuswb  mm1, mm2
    movntq    [ebp], mm1
    add       ebp, 8
 scaleend :
    sub       ecx, 2
    jns       scaleloop

    and       ecx, 1  // odd number of pixels?
    jz        scaledone

    mov       eax, ebx
    sar       eax, 17
    movzx     eax, byte ptr [edi + eax]
    movq      mm0, [kCoefficientsRgbU + 8 * eax]
    mov       eax, ebx
    sar       eax, 17
    movzx     eax, byte ptr [esi + eax]
    paddsw    mm0, [kCoefficientsRgbV + 8 * eax]
    mov       eax, ebx
    sar       eax, 16
    movzx     eax, byte ptr [edx + eax]
    movq      mm1, [kCoefficientsRgbY + 8 * eax]
    paddsw    mm1, mm0
    psraw     mm1, 6
    packuswb  mm1, mm1
    movd      [ebp], mm1

 scaledone :
    popad
    ret
  }
}

__declspec(naked)
void LinearScaleYUVToRGB32Row_SSE(const uint8* y_buf,
                                  const uint8* u_buf,
                                  const uint8* v_buf,
                                  uint8* rgb_buf,
                                  int width,
                                  int source_dx) {
  __asm {
    pushad
    mov       edx, [esp + 32 + 4]  // Y
    mov       edi, [esp + 32 + 8]  // U
                // [esp + 32 + 12] // V
    mov       ebp, [esp + 32 + 16] // rgb
    mov       ecx, [esp + 32 + 20] // width
    imul      ecx, [esp + 32 + 24] // source_dx
    mov       [esp + 32 + 20], ecx // source_width = width * source_dx
    mov       ecx, [esp + 32 + 24] // source_dx
    xor       ebx, ebx             // x = 0
    cmp       ecx, 0x20000
    jl        lscaleend
    mov       ebx, 0x8000          // x = 0.5 for 1/2 or less
    jmp       lscaleend
lscaleloop:
    mov       eax, ebx
    sar       eax, 0x11

    movzx     ecx, byte ptr [edi + eax]
    movzx     esi, byte ptr [edi + eax + 1]
    mov       eax, ebx
    and       eax, 0x1fffe
    imul      esi, eax
    xor       eax, 0x1fffe
    imul      ecx, eax
    add       ecx, esi
    shr       ecx, 17
    movq      mm0, [kCoefficientsRgbU + 8 * ecx]

    mov       esi, [esp + 32 + 12]
    mov       eax, ebx
    sar       eax, 0x11

    movzx     ecx, byte ptr [esi + eax]
    movzx     esi, byte ptr [esi + eax + 1]
    mov       eax, ebx
    and       eax, 0x1fffe
    imul      esi, eax
    xor       eax, 0x1fffe
    imul      ecx, eax
    add       ecx, esi
    shr       ecx, 17
    paddsw    mm0, [kCoefficientsRgbV + 8 * ecx]

    mov       eax, ebx
    sar       eax, 0x10
    movzx     ecx, byte ptr [edx + eax]
    movzx     esi, byte ptr [1 + edx + eax]
    mov       eax, ebx
    add       ebx, [esp + 32 + 24]
    and       eax, 0xffff
    imul      esi, eax
    xor       eax, 0xffff
    imul      ecx, eax
    add       ecx, esi
    shr       ecx, 16
    movq      mm1, [kCoefficientsRgbY + 8 * ecx]

    cmp       ebx, [esp + 32 + 20]
    jge       lscalelastpixel

    mov       eax, ebx
    sar       eax, 0x10
    movzx     ecx, byte ptr [edx + eax]
    movzx     esi, byte ptr [edx + eax + 1]
    mov       eax, ebx
    add       ebx, [esp + 32 + 24]
    and       eax, 0xffff
    imul      esi, eax
    xor       eax, 0xffff
    imul      ecx, eax
    add       ecx, esi
    shr       ecx, 16
    movq      mm2, [kCoefficientsRgbY + 8 * ecx]

    paddsw    mm1, mm0
    paddsw    mm2, mm0
    psraw     mm1, 0x6
    psraw     mm2, 0x6
    packuswb  mm1, mm2
    movntq    [ebp], mm1
    add       ebp, 0x8

lscaleend:
    cmp       ebx, [esp + 32 + 20]
    jl        lscaleloop
    popad
    ret

lscalelastpixel:
    paddsw    mm1, mm0
    psraw     mm1, 6
    packuswb  mm1, mm1
    movd      [ebp], mm1
    popad
    ret
  };
}
#endif // if defined(MOZILLA_MAY_SUPPORT_SSE) && defined(_M_IX86)

void FastConvertYUVToRGB32Row(const uint8* y_buf,
                              const uint8* u_buf,
                              const uint8* v_buf,
                              uint8* rgb_buf,
                              int width) {
#if defined(MOZILLA_MAY_SUPPORT_SSE) && defined(_M_IX86)
  if (mozilla::supports_sse()) {
    FastConvertYUVToRGB32Row_SSE(y_buf, u_buf, v_buf, rgb_buf, width);
    return;
  }
#endif

  FastConvertYUVToRGB32Row_C(y_buf, u_buf, v_buf, rgb_buf, width, 1);
}

void ScaleYUVToRGB32Row(const uint8* y_buf,
                        const uint8* u_buf,
                        const uint8* v_buf,
                        uint8* rgb_buf,
                        int width,
                        int source_dx) {

#if defined(MOZILLA_MAY_SUPPORT_SSE) && defined(_M_IX86)
  if (mozilla::supports_sse()) {
    ScaleYUVToRGB32Row_SSE(y_buf, u_buf, v_buf, rgb_buf, width, source_dx);
    return;
  }
#endif

  ScaleYUVToRGB32Row_C(y_buf, u_buf, v_buf, rgb_buf, width, source_dx);
}

void LinearScaleYUVToRGB32Row(const uint8* y_buf,
                              const uint8* u_buf,
                              const uint8* v_buf,
                              uint8* rgb_buf,
                              int width,
                              int source_dx) {
#if defined(MOZILLA_MAY_SUPPORT_SSE) && defined(_M_IX86)
  if (mozilla::supports_sse()) {
    LinearScaleYUVToRGB32Row_SSE(y_buf, u_buf, v_buf, rgb_buf, width,
                                 source_dx);
    return;
  }
#endif

  LinearScaleYUVToRGB32Row_C(y_buf, u_buf, v_buf, rgb_buf, width, source_dx);
}

} // extern "C"
Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`// Copyright (c) 2010 The Chromium Authors. All rights reserved.`
Bug 551277 - Replace liboggplay YUV to RGB color conversion code - r=roc 2010-04-19 05:17:06 +04:00			`// Use of this source code is governed by a BSD-style license that can be`
			`// found in the LICENSE file.`

			`#include "yuv_row.h"`
Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`#include "mozilla/SSE.h"`
Bug 551277 - Replace liboggplay YUV to RGB color conversion code - r=roc 2010-04-19 05:17:06 +04:00
Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`#define kCoefficientsRgbU kCoefficientsRgbY + 2048`
			`#define kCoefficientsRgbV kCoefficientsRgbY + 4096`
Bug 551277 - Replace liboggplay YUV to RGB color conversion code - r=roc 2010-04-19 05:17:06 +04:00
Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`extern "C" {`
Bug 619178 - Update gfx/ycbcr to the new SSE.h interface. r=joedrew, a=blocking --HG-- extra : rebase_source : c66498e5eb69b5ae375f66217f780f62a89e7f24 2010-12-09 20:59:21 +03:00
			`#if defined(MOZILLA_MAY_SUPPORT_SSE) && defined(_M_IX86)`
Bug 1422368 - Work around a clang-cl bug in yuv_row_win.cpp. r=jrmuizel 2017-12-02 00:46:21 +03:00			`#if defined(__clang__)`
Bug 1422368 - Work around a clang-cl complilation bug in yuv_row_win.cpp harder. r=jrmuizel --HG-- extra : histedit_source : f55f9b6a92b88d72a83bf0e2f0da973f445aa47a 2017-12-06 20:24:53 +03:00			`// clang-cl has a bug where it doesn't mangle names in inline asm`
			`// so let's do the mangling in the preprocessor (ugh)`
			`// (but we still need to declare a dummy extern for the parser)`
			`extern void* _kCoefficientsRgbY;`
			`#define kCoefficientsRgbY _kCoefficientsRgbY`
Bug 1422368 - Work around a clang-cl bug in yuv_row_win.cpp. r=jrmuizel 2017-12-02 00:46:21 +03:00			`#endif`

Bug 551277 - Replace liboggplay YUV to RGB color conversion code - r=roc 2010-04-19 05:17:06 +04:00			`__declspec(naked)`
Bug 619178 - Update gfx/ycbcr to the new SSE.h interface. r=joedrew, a=blocking --HG-- extra : rebase_source : c66498e5eb69b5ae375f66217f780f62a89e7f24 2010-12-09 20:59:21 +03:00			`void FastConvertYUVToRGB32Row_SSE(const uint8* y_buf,`
			`const uint8* u_buf,`
			`const uint8* v_buf,`
			`uint8* rgb_buf,`
			`int width) {`
Bug 551277 - Replace liboggplay YUV to RGB color conversion code - r=roc 2010-04-19 05:17:06 +04:00			`__asm {`
			`pushad`
			`mov edx, [esp + 32 + 4] // Y`
			`mov edi, [esp + 32 + 8] // U`
			`mov esi, [esp + 32 + 12] // V`
			`mov ebp, [esp + 32 + 16] // rgb`
			`mov ecx, [esp + 32 + 20] // width`
			`jmp convertend`

			`convertloop :`
			`movzx eax, byte ptr [edi]`
			`add edi, 1`
			`movzx ebx, byte ptr [esi]`
			`add esi, 1`
			`movq mm0, [kCoefficientsRgbU + 8 * eax]`
			`movzx eax, byte ptr [edx]`
			`paddsw mm0, [kCoefficientsRgbV + 8 * ebx]`
			`movzx ebx, byte ptr [edx + 1]`
			`movq mm1, [kCoefficientsRgbY + 8 * eax]`
			`add edx, 2`
			`movq mm2, [kCoefficientsRgbY + 8 * ebx]`
			`paddsw mm1, mm0`
			`paddsw mm2, mm0`
			`psraw mm1, 6`
			`psraw mm2, 6`
			`packuswb mm1, mm2`
			`movntq [ebp], mm1`
			`add ebp, 8`
			`convertend :`
			`sub ecx, 2`
			`jns convertloop`

			`and ecx, 1 // odd number of pixels?`
			`jz convertdone`

			`movzx eax, byte ptr [edi]`
			`movq mm0, [kCoefficientsRgbU + 8 * eax]`
			`movzx eax, byte ptr [esi]`
			`paddsw mm0, [kCoefficientsRgbV + 8 * eax]`
			`movzx eax, byte ptr [edx]`
			`movq mm1, [kCoefficientsRgbY + 8 * eax]`
			`paddsw mm1, mm0`
			`psraw mm1, 6`
			`packuswb mm1, mm1`
			`movd [ebp], mm1`
			`convertdone :`

			`popad`
			`ret`
			`}`
			`}`

Bug 577843 - Scale videos at YCbCr conversion time - r=roc a=blocking2.0 --HG-- extra : rebase_source : ae011843fdd812dbeab7e5de0bf3b6029cccb3e5 2010-10-26 07:11:13 +04:00			`__declspec(naked)`
Bug 619178 - Update gfx/ycbcr to the new SSE.h interface. r=joedrew, a=blocking --HG-- extra : rebase_source : c66498e5eb69b5ae375f66217f780f62a89e7f24 2010-12-09 20:59:21 +03:00			`void ConvertYUVToRGB32Row_SSE(const uint8* y_buf,`
			`const uint8* u_buf,`
			`const uint8* v_buf,`
			`uint8* rgb_buf,`
			`int width,`
			`int step) {`
Bug 577843 - Scale videos at YCbCr conversion time - r=roc a=blocking2.0 --HG-- extra : rebase_source : ae011843fdd812dbeab7e5de0bf3b6029cccb3e5 2010-10-26 07:11:13 +04:00			`__asm {`
			`pushad`
			`mov edx, [esp + 32 + 4] // Y`
			`mov edi, [esp + 32 + 8] // U`
			`mov esi, [esp + 32 + 12] // V`
			`mov ebp, [esp + 32 + 16] // rgb`
			`mov ecx, [esp + 32 + 20] // width`
			`mov ebx, [esp + 32 + 24] // step`
			`jmp wend`

			`wloop :`
			`movzx eax, byte ptr [edi]`
			`add edi, ebx`
			`movq mm0, [kCoefficientsRgbU + 8 * eax]`
			`movzx eax, byte ptr [esi]`
			`add esi, ebx`
			`paddsw mm0, [kCoefficientsRgbV + 8 * eax]`
			`movzx eax, byte ptr [edx]`
			`add edx, ebx`
			`movq mm1, [kCoefficientsRgbY + 8 * eax]`
			`movzx eax, byte ptr [edx]`
			`add edx, ebx`
			`movq mm2, [kCoefficientsRgbY + 8 * eax]`
			`paddsw mm1, mm0`
			`paddsw mm2, mm0`
			`psraw mm1, 6`
			`psraw mm2, 6`
			`packuswb mm1, mm2`
			`movntq [ebp], mm1`
			`add ebp, 8`
			`wend :`
			`sub ecx, 2`
			`jns wloop`

			`and ecx, 1 // odd number of pixels?`
			`jz wdone`

			`movzx eax, byte ptr [edi]`
			`movq mm0, [kCoefficientsRgbU + 8 * eax]`
			`movzx eax, byte ptr [esi]`
			`paddsw mm0, [kCoefficientsRgbV + 8 * eax]`
			`movzx eax, byte ptr [edx]`
			`movq mm1, [kCoefficientsRgbY + 8 * eax]`
			`paddsw mm1, mm0`
			`psraw mm1, 6`
			`packuswb mm1, mm1`
			`movd [ebp], mm1`
			`wdone :`

			`popad`
			`ret`
			`}`
			`}`

			`__declspec(naked)`
Bug 619178 - Update gfx/ycbcr to the new SSE.h interface. r=joedrew, a=blocking --HG-- extra : rebase_source : c66498e5eb69b5ae375f66217f780f62a89e7f24 2010-12-09 20:59:21 +03:00			`void RotateConvertYUVToRGB32Row_SSE(const uint8* y_buf,`
			`const uint8* u_buf,`
			`const uint8* v_buf,`
			`uint8* rgb_buf,`
			`int width,`
			`int ystep,`
			`int uvstep) {`
Bug 577843 - Scale videos at YCbCr conversion time - r=roc a=blocking2.0 --HG-- extra : rebase_source : ae011843fdd812dbeab7e5de0bf3b6029cccb3e5 2010-10-26 07:11:13 +04:00			`__asm {`
			`pushad`
			`mov edx, [esp + 32 + 4] // Y`
			`mov edi, [esp + 32 + 8] // U`
			`mov esi, [esp + 32 + 12] // V`
			`mov ebp, [esp + 32 + 16] // rgb`
			`mov ecx, [esp + 32 + 20] // width`
			`jmp wend`

			`wloop :`
			`movzx eax, byte ptr [edi]`
			`mov ebx, [esp + 32 + 28] // uvstep`
			`add edi, ebx`
			`movq mm0, [kCoefficientsRgbU + 8 * eax]`
			`movzx eax, byte ptr [esi]`
			`add esi, ebx`
			`paddsw mm0, [kCoefficientsRgbV + 8 * eax]`
			`movzx eax, byte ptr [edx]`
			`mov ebx, [esp + 32 + 24] // ystep`
			`add edx, ebx`
			`movq mm1, [kCoefficientsRgbY + 8 * eax]`
			`movzx eax, byte ptr [edx]`
			`add edx, ebx`
			`movq mm2, [kCoefficientsRgbY + 8 * eax]`
			`paddsw mm1, mm0`
			`paddsw mm2, mm0`
			`psraw mm1, 6`
			`psraw mm2, 6`
			`packuswb mm1, mm2`
			`movntq [ebp], mm1`
			`add ebp, 8`
			`wend :`
			`sub ecx, 2`
			`jns wloop`

			`and ecx, 1 // odd number of pixels?`
			`jz wdone`

			`movzx eax, byte ptr [edi]`
			`movq mm0, [kCoefficientsRgbU + 8 * eax]`
			`movzx eax, byte ptr [esi]`
			`paddsw mm0, [kCoefficientsRgbV + 8 * eax]`
			`movzx eax, byte ptr [edx]`
			`movq mm1, [kCoefficientsRgbY + 8 * eax]`
			`paddsw mm1, mm0`
			`psraw mm1, 6`
			`packuswb mm1, mm1`
			`movd [ebp], mm1`
			`wdone :`

			`popad`
			`ret`
			`}`
			`}`

			`__declspec(naked)`
Bug 619178 - Update gfx/ycbcr to the new SSE.h interface. r=joedrew, a=blocking --HG-- extra : rebase_source : c66498e5eb69b5ae375f66217f780f62a89e7f24 2010-12-09 20:59:21 +03:00			`void DoubleYUVToRGB32Row_SSE(const uint8* y_buf,`
			`const uint8* u_buf,`
			`const uint8* v_buf,`
			`uint8* rgb_buf,`
			`int width) {`
Bug 577843 - Scale videos at YCbCr conversion time - r=roc a=blocking2.0 --HG-- extra : rebase_source : ae011843fdd812dbeab7e5de0bf3b6029cccb3e5 2010-10-26 07:11:13 +04:00			`__asm {`
			`pushad`
			`mov edx, [esp + 32 + 4] // Y`
			`mov edi, [esp + 32 + 8] // U`
			`mov esi, [esp + 32 + 12] // V`
			`mov ebp, [esp + 32 + 16] // rgb`
			`mov ecx, [esp + 32 + 20] // width`
			`jmp wend`

			`wloop :`
			`movzx eax, byte ptr [edi]`
			`add edi, 1`
			`movzx ebx, byte ptr [esi]`
			`add esi, 1`
			`movq mm0, [kCoefficientsRgbU + 8 * eax]`
			`movzx eax, byte ptr [edx]`
			`paddsw mm0, [kCoefficientsRgbV + 8 * ebx]`
			`movq mm1, [kCoefficientsRgbY + 8 * eax]`
			`paddsw mm1, mm0`
			`psraw mm1, 6`
			`packuswb mm1, mm1`
			`punpckldq mm1, mm1`
			`movntq [ebp], mm1`

			`movzx ebx, byte ptr [edx + 1]`
			`add edx, 2`
			`paddsw mm0, [kCoefficientsRgbY + 8 * ebx]`
			`psraw mm0, 6`
			`packuswb mm0, mm0`
			`punpckldq mm0, mm0`
			`movntq [ebp+8], mm0`
			`add ebp, 16`
			`wend :`
			`sub ecx, 4`
			`jns wloop`

			`add ecx, 4`
			`jz wdone`

			`movzx eax, byte ptr [edi]`
			`movq mm0, [kCoefficientsRgbU + 8 * eax]`
			`movzx eax, byte ptr [esi]`
			`paddsw mm0, [kCoefficientsRgbV + 8 * eax]`
			`movzx eax, byte ptr [edx]`
			`movq mm1, [kCoefficientsRgbY + 8 * eax]`
			`paddsw mm1, mm0`
			`psraw mm1, 6`
			`packuswb mm1, mm1`
			`jmp wend1`

			`wloop1 :`
			`movd [ebp], mm1`
			`add ebp, 4`
			`wend1 :`
			`sub ecx, 1`
			`jns wloop1`
			`wdone :`
			`popad`
			`ret`
			`}`
			`}`

			`// This version does general purpose scaling by any amount, up or down.`
Bug 619178 - Update gfx/ycbcr to the new SSE.h interface. r=joedrew, a=blocking --HG-- extra : rebase_source : c66498e5eb69b5ae375f66217f780f62a89e7f24 2010-12-09 20:59:21 +03:00			`// The only thing it cannot do is rotation by 90 or 270.`
			`// For performance the chroma is under-sampled, reducing cost of a 3x`
Bug 577843 - Scale videos at YCbCr conversion time - r=roc a=blocking2.0 --HG-- extra : rebase_source : ae011843fdd812dbeab7e5de0bf3b6029cccb3e5 2010-10-26 07:11:13 +04:00			`// 1080p scale from 8.4 ms to 5.4 ms.`
			`__declspec(naked)`
Bug 619178 - Update gfx/ycbcr to the new SSE.h interface. r=joedrew, a=blocking --HG-- extra : rebase_source : c66498e5eb69b5ae375f66217f780f62a89e7f24 2010-12-09 20:59:21 +03:00			`void ScaleYUVToRGB32Row_SSE(const uint8* y_buf,`
			`const uint8* u_buf,`
			`const uint8* v_buf,`
			`uint8* rgb_buf,`
			`int width,`
			`int source_dx) {`
Bug 577843 - Scale videos at YCbCr conversion time - r=roc a=blocking2.0 --HG-- extra : rebase_source : ae011843fdd812dbeab7e5de0bf3b6029cccb3e5 2010-10-26 07:11:13 +04:00			`__asm {`
			`pushad`
			`mov edx, [esp + 32 + 4] // Y`
			`mov edi, [esp + 32 + 8] // U`
			`mov esi, [esp + 32 + 12] // V`
			`mov ebp, [esp + 32 + 16] // rgb`
			`mov ecx, [esp + 32 + 20] // width`
			`xor ebx, ebx // x`
			`jmp scaleend`

			`scaleloop :`
			`mov eax, ebx`
Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`sar eax, 17`
Bug 577843 - Scale videos at YCbCr conversion time - r=roc a=blocking2.0 --HG-- extra : rebase_source : ae011843fdd812dbeab7e5de0bf3b6029cccb3e5 2010-10-26 07:11:13 +04:00			`movzx eax, byte ptr [edi + eax]`
			`movq mm0, [kCoefficientsRgbU + 8 * eax]`
			`mov eax, ebx`
Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`sar eax, 17`
Bug 577843 - Scale videos at YCbCr conversion time - r=roc a=blocking2.0 --HG-- extra : rebase_source : ae011843fdd812dbeab7e5de0bf3b6029cccb3e5 2010-10-26 07:11:13 +04:00			`movzx eax, byte ptr [esi + eax]`
			`paddsw mm0, [kCoefficientsRgbV + 8 * eax]`
			`mov eax, ebx`
Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`add ebx, [esp + 32 + 24] // x += source_dx`
			`sar eax, 16`
Bug 577843 - Scale videos at YCbCr conversion time - r=roc a=blocking2.0 --HG-- extra : rebase_source : ae011843fdd812dbeab7e5de0bf3b6029cccb3e5 2010-10-26 07:11:13 +04:00			`movzx eax, byte ptr [edx + eax]`
			`movq mm1, [kCoefficientsRgbY + 8 * eax]`
			`mov eax, ebx`
Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`add ebx, [esp + 32 + 24] // x += source_dx`
			`sar eax, 16`
Bug 577843 - Scale videos at YCbCr conversion time - r=roc a=blocking2.0 --HG-- extra : rebase_source : ae011843fdd812dbeab7e5de0bf3b6029cccb3e5 2010-10-26 07:11:13 +04:00			`movzx eax, byte ptr [edx + eax]`
			`movq mm2, [kCoefficientsRgbY + 8 * eax]`
			`paddsw mm1, mm0`
			`paddsw mm2, mm0`
			`psraw mm1, 6`
			`psraw mm2, 6`
			`packuswb mm1, mm2`
			`movntq [ebp], mm1`
			`add ebp, 8`
			`scaleend :`
			`sub ecx, 2`
			`jns scaleloop`

			`and ecx, 1 // odd number of pixels?`
			`jz scaledone`

			`mov eax, ebx`
Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`sar eax, 17`
Bug 577843 - Scale videos at YCbCr conversion time - r=roc a=blocking2.0 --HG-- extra : rebase_source : ae011843fdd812dbeab7e5de0bf3b6029cccb3e5 2010-10-26 07:11:13 +04:00			`movzx eax, byte ptr [edi + eax]`
			`movq mm0, [kCoefficientsRgbU + 8 * eax]`
			`mov eax, ebx`
Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`sar eax, 17`
Bug 577843 - Scale videos at YCbCr conversion time - r=roc a=blocking2.0 --HG-- extra : rebase_source : ae011843fdd812dbeab7e5de0bf3b6029cccb3e5 2010-10-26 07:11:13 +04:00			`movzx eax, byte ptr [esi + eax]`
			`paddsw mm0, [kCoefficientsRgbV + 8 * eax]`
			`mov eax, ebx`
Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`sar eax, 16`
Bug 577843 - Scale videos at YCbCr conversion time - r=roc a=blocking2.0 --HG-- extra : rebase_source : ae011843fdd812dbeab7e5de0bf3b6029cccb3e5 2010-10-26 07:11:13 +04:00			`movzx eax, byte ptr [edx + eax]`
			`movq mm1, [kCoefficientsRgbY + 8 * eax]`
			`paddsw mm1, mm0`
			`psraw mm1, 6`
			`packuswb mm1, mm1`
			`movd [ebp], mm1`

			`scaledone :`
			`popad`
			`ret`
			`}`
			`}`

Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`__declspec(naked)`
Bug 619178 - Update gfx/ycbcr to the new SSE.h interface. r=joedrew, a=blocking --HG-- extra : rebase_source : c66498e5eb69b5ae375f66217f780f62a89e7f24 2010-12-09 20:59:21 +03:00			`void LinearScaleYUVToRGB32Row_SSE(const uint8* y_buf,`
			`const uint8* u_buf,`
			`const uint8* v_buf,`
			`uint8* rgb_buf,`
			`int width,`
			`int source_dx) {`
Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`__asm {`
			`pushad`
			`mov edx, [esp + 32 + 4] // Y`
			`mov edi, [esp + 32 + 8] // U`
			`// [esp + 32 + 12] // V`
			`mov ebp, [esp + 32 + 16] // rgb`
			`mov ecx, [esp + 32 + 20] // width`
			`imul ecx, [esp + 32 + 24] // source_dx`
			`mov [esp + 32 + 20], ecx // source_width = width * source_dx`
			`mov ecx, [esp + 32 + 24] // source_dx`
			`xor ebx, ebx // x = 0`
			`cmp ecx, 0x20000`
			`jl lscaleend`
			`mov ebx, 0x8000 // x = 0.5 for 1/2 or less`
			`jmp lscaleend`
			`lscaleloop:`
			`mov eax, ebx`
			`sar eax, 0x11`

			`movzx ecx, byte ptr [edi + eax]`
			`movzx esi, byte ptr [edi + eax + 1]`
			`mov eax, ebx`
			`and eax, 0x1fffe`
			`imul esi, eax`
			`xor eax, 0x1fffe`
			`imul ecx, eax`
			`add ecx, esi`
			`shr ecx, 17`
			`movq mm0, [kCoefficientsRgbU + 8 * ecx]`

			`mov esi, [esp + 32 + 12]`
			`mov eax, ebx`
			`sar eax, 0x11`

			`movzx ecx, byte ptr [esi + eax]`
			`movzx esi, byte ptr [esi + eax + 1]`
			`mov eax, ebx`
			`and eax, 0x1fffe`
			`imul esi, eax`
			`xor eax, 0x1fffe`
			`imul ecx, eax`
			`add ecx, esi`
			`shr ecx, 17`
			`paddsw mm0, [kCoefficientsRgbV + 8 * ecx]`

			`mov eax, ebx`
			`sar eax, 0x10`
			`movzx ecx, byte ptr [edx + eax]`
			`movzx esi, byte ptr [1 + edx + eax]`
			`mov eax, ebx`
			`add ebx, [esp + 32 + 24]`
			`and eax, 0xffff`
			`imul esi, eax`
			`xor eax, 0xffff`
			`imul ecx, eax`
			`add ecx, esi`
			`shr ecx, 16`
			`movq mm1, [kCoefficientsRgbY + 8 * ecx]`

			`cmp ebx, [esp + 32 + 20]`
			`jge lscalelastpixel`

			`mov eax, ebx`
			`sar eax, 0x10`
			`movzx ecx, byte ptr [edx + eax]`
			`movzx esi, byte ptr [edx + eax + 1]`
			`mov eax, ebx`
			`add ebx, [esp + 32 + 24]`
			`and eax, 0xffff`
			`imul esi, eax`
			`xor eax, 0xffff`
			`imul ecx, eax`
			`add ecx, esi`
			`shr ecx, 16`
			`movq mm2, [kCoefficientsRgbY + 8 * ecx]`

			`paddsw mm1, mm0`
			`paddsw mm2, mm0`
			`psraw mm1, 0x6`
			`psraw mm2, 0x6`
			`packuswb mm1, mm2`
			`movntq [ebp], mm1`
			`add ebp, 0x8`

			`lscaleend:`
			`cmp ebx, [esp + 32 + 20]`
			`jl lscaleloop`
			`popad`
			`ret`

			`lscalelastpixel:`
			`paddsw mm1, mm0`
			`psraw mm1, 6`
			`packuswb mm1, mm1`
			`movd [ebp], mm1`
			`popad`
			`ret`
			`};`
			`}`
Bug 619178 - Update gfx/ycbcr to the new SSE.h interface. r=joedrew, a=blocking --HG-- extra : rebase_source : c66498e5eb69b5ae375f66217f780f62a89e7f24 2010-12-09 20:59:21 +03:00			`#endif // if defined(MOZILLA_MAY_SUPPORT_SSE) && defined(_M_IX86)`

Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`void FastConvertYUVToRGB32Row(const uint8* y_buf,`
			`const uint8* u_buf,`
			`const uint8* v_buf,`
			`uint8* rgb_buf,`
			`int width) {`
Bug 619178 - Followup for Win64 bustage. Add check for _M_IX86 to FastConvertYUVToRGB32Row in yuv_row_win.cpp. r=m_kato, a=bustage 2011-01-13 09:13:07 +03:00			`#if defined(MOZILLA_MAY_SUPPORT_SSE) && defined(_M_IX86)`
Bug 619178 - Update gfx/ycbcr to the new SSE.h interface. r=joedrew, a=blocking --HG-- extra : rebase_source : c66498e5eb69b5ae375f66217f780f62a89e7f24 2010-12-09 20:59:21 +03:00			`if (mozilla::supports_sse()) {`
			`FastConvertYUVToRGB32Row_SSE(y_buf, u_buf, v_buf, rgb_buf, width);`
			`return;`
			`}`
			`#endif`

Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`FastConvertYUVToRGB32Row_C(y_buf, u_buf, v_buf, rgb_buf, width, 1);`
			`}`

			`void ScaleYUVToRGB32Row(const uint8* y_buf,`
			`const uint8* u_buf,`
			`const uint8* v_buf,`
			`uint8* rgb_buf,`
			`int width,`
			`int source_dx) {`
Bug 619178 - Update gfx/ycbcr to the new SSE.h interface. r=joedrew, a=blocking --HG-- extra : rebase_source : c66498e5eb69b5ae375f66217f780f62a89e7f24 2010-12-09 20:59:21 +03:00
			`#if defined(MOZILLA_MAY_SUPPORT_SSE) && defined(_M_IX86)`
			`if (mozilla::supports_sse()) {`
			`ScaleYUVToRGB32Row_SSE(y_buf, u_buf, v_buf, rgb_buf, width, source_dx);`
			`return;`
			`}`
			`#endif`

Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`ScaleYUVToRGB32Row_C(y_buf, u_buf, v_buf, rgb_buf, width, source_dx);`
			`}`

			`void LinearScaleYUVToRGB32Row(const uint8* y_buf,`
			`const uint8* u_buf,`
			`const uint8* v_buf,`
			`uint8* rgb_buf,`
			`int width,`
			`int source_dx) {`
Bug 619178 - Update gfx/ycbcr to the new SSE.h interface. r=joedrew, a=blocking --HG-- extra : rebase_source : c66498e5eb69b5ae375f66217f780f62a89e7f24 2010-12-09 20:59:21 +03:00			`#if defined(MOZILLA_MAY_SUPPORT_SSE) && defined(_M_IX86)`
			`if (mozilla::supports_sse()) {`
			`LinearScaleYUVToRGB32Row_SSE(y_buf, u_buf, v_buf, rgb_buf, width,`
			`source_dx);`
			`return;`
			`}`
			`#endif`

Bug 583138 - Update to latest Chromium YCbCr to RGB Conversion code - r=roc a=blocking2.0 2010-11-11 02:54:27 +03:00			`LinearScaleYUVToRGB32Row_C(y_buf, u_buf, v_buf, rgb_buf, width, source_dx);`
			`}`
Bug 551277 - Replace liboggplay YUV to RGB color conversion code - r=roc 2010-04-19 05:17:06 +04:00
Bug 619178 - Update gfx/ycbcr to the new SSE.h interface. r=joedrew, a=blocking --HG-- extra : rebase_source : c66498e5eb69b5ae375f66217f780f62a89e7f24 2010-12-09 20:59:21 +03:00			`} // extern "C"`