小编SFD*_*SFD的帖子

使用经过训练的 BERT 模型和数据预处理

当使用 pytorch 中预先训练的 BERT 嵌入（然后进行微调）时，是否应该像任何标准 NLP 任务一样对输入模型的文本数据进行预处理？

例如，应该执行词干提取、删除低频单词、去大写字母化，还是应该将原始文本简单地传递给“transformers.BertTokenizer”？

nlp pytorch bert-language-model

SFD*_*SFD

lucky-day

10
推荐指数

2
解决办法

8504
查看次数

Maven 测试和 -Javaagent 参数

我有一个简单的 java 项目，其中包含具有当前架构的 Junit 测试用例：

pom.xml
src/main/java/com/Example.Java
src/test/java/com/ExampleTest.java

Run Code Online (Sandbox Code Playgroud)

pom.xml的内容如下：

    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
     <modelVersion>4.0.0</modelVersion>
     <groupId>com</groupId>
     <artifactId>SampleExample</artifactId>
     <packaging>jar</packaging>
  <version>1.0</version>
  <build>
    <plugins>
      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-shade-plugin</artifactId>
        <version>1.6</version>
        <executions>
          <execution>
            <phase>package</phase>
            <goals>
              <goal>shade</goal>
            </goals>
          </execution>
        </executions>
      </plugin>
      <plugin>
        <artifactId>maven-compiler-plugin</artifactId>
        <version>3.1</version>
        <configuration>
          <source>1.7</source>
          <target>1.7</target>
        </configuration>
      </plugin>
    </plugins>
  </build>
  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.11</version>
    </dependency>
  </dependencies>
</project>

Run Code Online (Sandbox Code Playgroud)

为了执行测试，我只需从 bash 调用mvn test即可。正如预期的那样，这将运行测试。现在回答我的问题：

在 maven 之外指定javagent只需通过-javaagen t 选项即可完成。如何在 Maven 框架内执行此操作，以便在执行 mvn test 时加载我指定的代理？（即如何添加 Maven 在执行测试时传递给“java”命令的自定义参数）

java javaagents maven

SFD*_*SFD

lucky-day

6
推荐指数

1
解决办法

5566
查看次数

C++,STL,GDB:无法评估函数内联

我希望能够使用GDB从STL容器中获取地址并打印一对.

IE:鉴于以下玩具计划:

#include <map>

int main() 
{
  std::map<int,int> amap;
  amap.insert(std::make_pair(1,2));

}

Run Code Online (Sandbox Code Playgroud)

当我尝试检查地图的单个元素时(例如p amap.begin()),我得到:

"无法评估功能 - 可能是内联的"

删除优化并启用完整调试模式,即(-O0和-g3)不起作用.

为什么会发生这种情况,我该如何解决？

c++ gdb

SFD*_*SFD

2016 11-16

5
推荐指数

2
解决办法

2950
查看次数

序列化,没有库的整数,得到奇怪的结果

我有一个整数,我想将其序列化为二进制文件.我不关心跨平台.

我正在做以下事情:

std::ofstream f;
f.open(path, std::ios::binary);
int n = 200;
f.write((char*)&n, sizeof(int));
f.close()

Run Code Online (Sandbox Code Playgroud)

然后在我使用ifstream再次打开文件并将其所有内容读入字符向量后,我执行以下操作以获取整数:

char* ptr = avector.data();
int n = *ptr;
ptr += sizeof(int);

Run Code Online (Sandbox Code Playgroud)

这似乎仅在IF <= 127时起作用.当n> 127时,因为在这个例子中'n'得到一个奇怪的值而不是200.

c++

SFD*_*SFD

lucky-day

1
推荐指数

1
解决办法

55
查看次数

标签统计

c++ ×2

bert-language-model ×1

gdb ×1

java ×1

javaagents ×1

maven ×1

nlp ×1

pytorch ×1

使用经过训练的 BERT 模型和数据预处理

Maven 测试和 -Javaagent 参数

C++,STL,GDB:无法评估函数内联

序列化,没有库的整数,得到奇怪的结果

标签 统计

小编SFD_SFD的帖子

标签统计