从LLVM调用Win32 / 64函数的正确方法是什么？

atlaste 发表于 Dev

攻击

我正在尝试从LLVM IR调用方法回到C ++代码。我正在使用64位Visual C ++，或者正如LLVM描述的那样：

Machine CPU:      skylake
Machine info:     x86_64-pc-windows-msvc

对于整数类型和指针类型，我的代码可以按原样工作。但是，浮点数似乎有点奇怪。

基本上，呼叫看起来像这样：

struct SomeStruct 
{
    static void Breakpoint( return; } // used to set a breakpoint
    static void Set(uint8_t* ptr, double foo) { return foo * 2; }
};

LLVM IR看起来像这样：

define i32 @main(i32, i8**) {
varinit:
  // omitted here: initialize %ptr from i8**. 
  %5 = load i8*, i8** %instance0

  // call to some method. This works - I use it to set a breakpoint
  call void @"Helper::Breakpoint"(i8* %5)

  // this call fails:
  call void @"Helper::Set"(i8* %5, double 0xC19EC46965A6494D)
  ret i32 0
}

declare double @"SomeStruct::Callback"(i8*, double)

我认为问题可能出在调用约定的工作方式上。因此，我尝试进行一些调整以更正此问题：

// during initialization of the function
auto function = llvm::Function::Create(functionType, llvm::Function::ExternalLinkage, name, module);
function->setCallingConv(llvm::CallingConv::X86_64_Win64);
...

// during calling of the function
call->setCallingConv(llvm::CallingConv::X86_64_Win64);

不幸的是，无论我尝试什么，最终都会遇到“无效指令”错误，该用户报告这是调用约定的问题：用C语生成带有非法指令的可执行文件。我已经使用X86-64_Win64，Stdcall，Fastcall尝试了此操作，并且没有调用约定规范-都具有相同的结果。

我已阅读https://msdn.microsoft.com/zh-cn/library/ms235286.aspx，以了解发生了什么。然后，我查看了应该由LLVM生成的程序集输出（使用targetMachine-> addPassesToEmitFile API调用），并发现：

    movq    (%rdx), %rsi
    movq    %rsi, %rcx
    callq   "Helper2<double>::Breakpoint"
    vmovsd  __real@c19ec46965a6494d(%rip), %xmm1
    movq    %rsi, %rcx
    callq   "Helper2<double>::Set"
    xorl    %eax, %eax
    addq    $32, %rsp
    popq    %rsi

根据MSDN，参数2应该在％xmm1中，这样看来也是正确的。但是，在检查调试器中是否一切正常时，Visual Studio会报告很多问号（例如“非法指令”）。

任何反馈表示赞赏。

反汇编代码：

00000144F2480007 48 B8 B6 48 B8 C8 FA 7F 00 00 mov         rax,7FFAC8B848B6h  
00000144F2480011 48 89 D1             mov         rcx,rdx  
00000144F2480014 48 89 54 24 20       mov         qword ptr [rsp+20h],rdx  
00000144F2480019 FF D0                call        rax  
00000144F248001B 48 B8 C0 48 B8 C8 FA 7F 00 00 mov         rax,7FFAC8B848C0h  
00000144F2480025 48 B9 00 00 47 F2 44 01 00 00 mov         rcx,144F2470000h  
00000144F248002F ??                   ?? ?? 
00000144F2480030 ??                   ?? ?? 
00000144F2480031 FF 08                dec         dword ptr [rax]  
00000144F2480033 10 09                adc         byte ptr [rcx],cl  
00000144F2480035 48 8B 4C 24 20       mov         rcx,qword ptr [rsp+20h]  
00000144F248003A FF D0                call        rax  
00000144F248003C 31 C0                xor         eax,eax  
00000144F248003E 48 83 C4 28          add         rsp,28h  
00000144F2480042 C3                   ret

有关内存的某些信息丢失。内存视图：

0x00000144F248001B 48 b8 c0 48 b8 c8 fa 7f 00 00 48 b9 00 00 47 f2 44 01 00 00 62 f1 ff 08 10 09 48 8b 4c 24 20 ff d0 31 c0 48 83 c4 28 c3 00 00 00 00 00 ...

这里缺少的问号是：“ 62 f1”。

某些代码有助于了解如何使JIT进行编译等。恐怕它有点长，但有助于理解这一点……而且我不知道如何创建较小的代码。

    // Note: FunctionBinderBase basically holds an llvm::Function* object
    // which is bound using the above code and a name.
    llvm::ExecutionEngine* Module::Compile(std::unordered_map<std::string, FunctionBinderBase*>& externalFunctions)
    {
        //          DebugFlag = true;

#if (LLVMDEBUG >= 1)
        this->module->dump();
#endif

        // -- Initialize LLVM compiler: --
        std::string error;

        // Helper function, gets the current machine triplet.
        llvm::Triple triple(MachineContextInfo::Triplet()); 
        const llvm::Target *target = llvm::TargetRegistry::lookupTarget("x86-64", triple, error);
        if (!target)
        {
            throw error.c_str();
        }

        llvm::TargetOptions Options;
        // Options.PrintMachineCode = true;
        // Options.EnableFastISel = true;

        std::unique_ptr<llvm::TargetMachine> targetMachine(
            target->createTargetMachine(MachineContextInfo::Triplet(), MachineContextInfo::CPU(), "", Options, llvm::Reloc::Default, llvm::CodeModel::Default, llvm::CodeGenOpt::Aggressive));

        if (!targetMachine.get())
        {
            throw "Could not allocate target machine!";
        }

        // Create the target machine; set the module data layout to the correct values.
        auto DL = targetMachine->createDataLayout();
        module->setDataLayout(DL);
        module->setTargetTriple(MachineContextInfo::Triplet());

        // Pass manager builder:
        llvm::PassManagerBuilder pmbuilder;
        pmbuilder.OptLevel = 3;
        pmbuilder.BBVectorize = false;
        pmbuilder.SLPVectorize = true;
        pmbuilder.LoopVectorize = true;
        pmbuilder.Inliner = llvm::createFunctionInliningPass(3, 2);
        llvm::TargetLibraryInfoImpl *TLI = new llvm::TargetLibraryInfoImpl(triple);
        pmbuilder.LibraryInfo = TLI;

        // Generate pass managers:

        // 1. Function pass manager:
        llvm::legacy::FunctionPassManager FPM(module.get());
        pmbuilder.populateFunctionPassManager(FPM);

        // 2. Module pass manager:
        llvm::legacy::PassManager PM;
        PM.add(llvm::createTargetTransformInfoWrapperPass(targetMachine->getTargetIRAnalysis()));
        pmbuilder.populateModulePassManager(PM);

        // 3. Execute passes:
        //    - Per-function passes:
        FPM.doInitialization();
        for (llvm::Module::iterator I = module->begin(), E = module->end(); I != E; ++I)
        {
            if (!I->isDeclaration())
            {
                FPM.run(*I);
            }
        }
        FPM.doFinalization();

        //   - Per-module passes:
        PM.run(*module);

        // Fix function pointers; the PM.run will ruin them, this fixes that.
        for (auto it : externalFunctions)
        {
            auto name = it.first;
            auto fcn = module->getFunction(name);
            it.second->function = fcn;
        }

#if (LLVMDEBUG >= 2)
        // -- ASSEMBLER dump code
        // 3. Code generation pass manager:

        llvm::legacy::PassManager CGP;
        CGP.add(llvm::createTargetTransformInfoWrapperPass(targetMachine->getTargetIRAnalysis()));
        pmbuilder.populateModulePassManager(CGP);

        std::string result;
        llvm::raw_string_ostream str(result);
        llvm::buffer_ostream os(str);

        targetMachine->addPassesToEmitFile(CGP, os, llvm::TargetMachine::CodeGenFileType::CGFT_AssemblyFile);

        CGP.run(*module);

        str.flush();

        auto stringref = os.str();
        std::string assembly(stringref.begin(), stringref.end());

        std::cout << "ASM code: " << std::endl << "---------------------" << std::endl << assembly << std::endl << "---------------------" << std::endl;
        // -- end of ASSEMBLER dump code.

        for (auto it : externalFunctions)
        {
            auto name = it.first;
            auto fcn = module->getFunction(name);
            it.second->function = fcn;
        }

#endif

#if (LLVMDEBUG >= 2)
        module->dump(); 
#endif

        // All done, *RUN*.

        llvm::EngineBuilder engineBuilder(std::move(module));
        engineBuilder.setEngineKind(llvm::EngineKind::JIT);
        engineBuilder.setMCPU(MachineContextInfo::CPU());
        engineBuilder.setMArch("x86-64");
        engineBuilder.setUseOrcMCJITReplacement(false);
        engineBuilder.setOptLevel(llvm::CodeGenOpt::None);

        llvm::ExecutionEngine* engine = engineBuilder.create();

        // Define external functions
        for (auto it : externalFunctions)
        {
            auto fcn = it.second;
            if (fcn->function)
            {
                engine->addGlobalMapping(fcn->function, const_cast<void*>(fcn->FunctionPointer())); // Yuck... LLVM only takes non-const pointers
            }
        }

        // Finalize
        engine->finalizeObject();

        return engine;
    }

更新（进度）

显然我的Skylake在vmovsd指令上有问题。在Haswell（服务器）上运行相同的代码时，测试成功。我已经检查了两者的程序集输出-它们是完全相同的。

只是要确保：XSAVE / XRESTORE在Win10-x64上不应该是问题，但是无论如何，让我们找出来。我检查的代码的特征从https://msdn.microsoft.com/en-us/library/hskdteyh.aspx从和XSAVE / XRESTORE https://insufficientlycomplicated.wordpress.com/2011/11/07 / detecting-intel-advanced-vector-extensions-avx-in-visual-studio /。后者运行得很好。至于前者，这些是结果：

GenuineIntel
Intel(R) Core(TM) i7-6700HQ CPU @ 2.60GHz
3DNOW not supported
3DNOWEXT not supported
ABM not supported
ADX supported
AES supported
AVX supported
AVX2 supported
AVX512CD not supported
AVX512ER not supported
AVX512F not supported
AVX512PF not supported
BMI1 supported
BMI2 supported
CLFSH supported
CMPXCHG16B supported
CX8 supported
ERMS supported
F16C supported
FMA supported
FSGSBASE supported
FXSR supported
HLE supported
INVPCID supported
LAHF supported
LZCNT supported
MMX supported
MMXEXT not supported
MONITOR supported
MOVBE supported
MSR supported
OSXSAVE supported
PCLMULQDQ supported
POPCNT supported
PREFETCHWT1 not supported
RDRAND supported
RDSEED supported
RDTSCP supported
RTM supported
SEP supported
SHA not supported
SSE supported
SSE2 supported
SSE3 supported
SSE4.1 supported
SSE4.2 supported
SSE4a not supported
SSSE3 supported
SYSCALL supported
TBM not supported
XOP not supported
XSAVE supported

这很奇怪，所以我想到了：为什么不直接直接发出指令。

int main()
{
    const double value = 1.2;
    const double value2 = 1.3;

    auto x1 = _mm_load_sd(&value);
    auto x2 = _mm_load_sd(&value2);

    std::string s;
    std::getline(std::cin, s);
}

这段代码运行良好。拆卸：

    auto x1 = _mm_load_sd(&value);
00007FF7C4833724 C5 FB 10 45 08       vmovsd      xmm0,qword ptr [value]  

    auto x1 = _mm_load_sd(&value);
00007FF7C4833729 C5 F1 57 C9          vxorpd      xmm1,xmm1,xmm1  
00007FF7C483372D C5 F3 10 C0          vmovsd      xmm0,xmm1,xmm0

显然，它不会使用寄存器xmm1，但仍然证明指令本身可以解决问题。

攻击

我刚刚检查了另一个Intel Haswell，这里发生了什么，发现了这一点：

0000015077F20110 C5 FB 10 08          vmovsd      xmm1,qword ptr [rax]

显然，在Intel Haswell上，它发出的字节代码指令比在Skylake上更高。

@哈。其实是很友善的，可以向我指出正确的方向。是的，隐藏字节确实表示VMOVSD，但显然已将其编码为EVEX。一切都很好，但是EVEX前缀/编码将作为AVX512的一部分在最新的Skylake架构中引入，直到2017年Skylake Purley才受支持。换句话说，这是无效的指令。

为了进行检查，我在中设置了一个断点X86MCCodeEmitter::EmitMemModRMByte。在某些时候，我确实看到了bool HasEVEX = [...]对真实的评估。这确认了代码生成器/发射器产生了错误的输出。

因此，我的结论是，这肯定是Skylake CPU的LLVM目标信息中的错误。这意味着只剩下两件事要做：找出此错误在LLVM中的确切位置，以便我们可以解决此问题并将错误报告给LLVM团队...

那么在LLVM中它在哪里呢？这很难说... x86.td.def将skylake功能定义为“ FeatureAVX512”，这可能会触发X86SSELevel到AVX512F。这反过来会给出错误的指示。作为一种解决方法，最好只是告诉LLVM我们有Intel Haswell，一切都会好起来的：

// MCPU is used to call createTargetMachine
llvm::StringRef MCPU = llvm::sys::getHostCPUName();
if (MCPU.str() == "skylake")
{
    MCPU = llvm::StringRef("haswell");
}

测试，工作。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-03-4

我来说两句

0条评论

登录后参与评论

上一篇：Locals窗口为空（Visual Studio 2015）

来自分类Dev

Related 相关文章

文章

从LLVM调用Win32 / 64函数的正确方法是什么？

从LLVM调用Win32 / 64函数的正确方法是什么？

从Julia调用Win32函数

调用win32 API并回调类函数

Win32 API函数GetExplicitEntriesFromAcl（）的对应项是什么？

GetMenuBarInfo（）Win32函数

当我使用参数调用Win32函数时，为什么GCC使用帧指针？

在C ++中调用构造函数的正确方法是什么？

调用默认构造函数的正确方法是什么？

使用函数调用设置实例变量的正确方法是什么？

在coffeescript中调用命名函数的正确方法是什么？

Win32应用程序，在调用Windows东西之前调用自定义类方法

调用dll函数，该函数需要从python指向句柄（win32）的指针

如何在Win32中正确调用HeapSummary API？

如何从MFC应用程序调用函数的Win32 API版本？

使用私有成员函数调用Win32 QueueUserWorkItem（）

如何从MFC应用程序调用函数的Win32 API版本？

是否有比 procmon 更可靠的 Win32 系统调用跟踪方法？

正确使用Win32线程

v8，libuv，nodejs，win32 API-如何调用EnumWindows并具有回调调用javascript函数？

什么是Win32消息编组？

@INC中的Win32 / Process.pm是什么？

在Python中中断嵌套函数/构造函数调用的正确方法是什么？

宣告javascript原型函数调用助手函数的正确方法是什么？

为什么在 WIN32 项目中需要 MyRegisterClass() 函数？

#ifdef WIN32 #elif WIN64 #endif

从C调用python函数作为回调。处理GIL的正确方法是什么？

创建对象时，JavaScript中使对象的成员函数调用的正确方法是什么？

从函数调用常量时，（PEP8）换行的正确方法是什么？

调用javascript函数时，使用React钩子的正确方法是什么？

使用Javascript中的模块模式调用内部函数的正确方法是什么