小编SFD*_*SFD的帖子

使用经过训练的 BERT 模型和数据预处理

当使用 pytorch 中预先训练的 BERT 嵌入(然后进行微调)时,是否应该像任何标准 NLP 任务一样对输入模型的文本数据进行预处理?

例如,应该执行词干提取、删除低频单词、去大写字母化,还是应该将原始文本简单地传递给“transformers.BertTokenizer”?

nlp pytorch bert-language-model

10
推荐指数
2
解决办法
8504
查看次数

Maven 测试和 -Javaagent 参数

我有一个简单的 java 项目,其中包含具有当前架构的 Junit 测试用例:

pom.xml
src/main/java/com/Example.Java
src/test/java/com/ExampleTest.java
Run Code Online (Sandbox Code Playgroud)

pom.xml的内容如下:

    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
     <modelVersion>4.0.0</modelVersion>
     <groupId>com</groupId>
     <artifactId>SampleExample</artifactId>
     <packaging>jar</packaging>
  <version>1.0</version>
  <build>
    <plugins>
      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-shade-plugin</artifactId>
        <version>1.6</version>
        <executions>
          <execution>
            <phase>package</phase>
            <goals>
              <goal>shade</goal>
            </goals>
          </execution>
        </executions>
      </plugin>
      <plugin>
        <artifactId>maven-compiler-plugin</artifactId>
        <version>3.1</version>
        <configuration>
          <source>1.7</source>
          <target>1.7</target>
        </configuration>
      </plugin>
    </plugins>
  </build>
  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.11</version>
    </dependency>
  </dependencies>
</project>
Run Code Online (Sandbox Code Playgroud)

为了执行测试,我只需从 bash 调用mvn test即可。正如预期的那样,这将运行测试。现在回答我的问题:

在 maven 之外指定javagent只需通过-javaagen t 选项即可完成。如何在 Maven 框架内执行此操作,以便在执行 mvn test 时加载我指定的代理?(即如何添加 Maven 在执行测试时传递给“java”命令的自定义参数)

java javaagents maven

6
推荐指数
1
解决办法
5566
查看次数

C++,STL,GDB:无法评估函数内联

我希望能够使用GDB从STL容器中获取地址并打印一对.

IE:鉴于以下玩具计划:

#include <map>

int main() 
{
  std::map<int,int> amap;
  amap.insert(std::make_pair(1,2));

}
Run Code Online (Sandbox Code Playgroud)

当我尝试检查地图的单个元素时(例如p amap.begin()),我得到:

"无法评估功能 - 可能是内联的"

删除优化并启用完整调试模式,即(-O0和-g3)不起作用.

为什么会发生这种情况,我该如何解决?

c++ gdb

5
推荐指数
2
解决办法
2950
查看次数

序列化,没有库的整数,得到奇怪的结果

我有一个整数,我想将其序列化为二进制文件.我不关心跨平台.

我正在做以下事情:

std::ofstream f;
f.open(path, std::ios::binary);
int n = 200;
f.write((char*)&n, sizeof(int));
f.close()
Run Code Online (Sandbox Code Playgroud)

然后在我使用ifstream再次打开文件并将其所有内容读入字符向量后,我执行以下操作以获取整数:

char* ptr = avector.data();
int n = *ptr;
ptr += sizeof(int);
Run Code Online (Sandbox Code Playgroud)

这似乎仅在IF <= 127时起作用.当n> 127时,因为在这个例子中'n'得到一个奇怪的值而不是200.

c++

1
推荐指数
1
解决办法
55
查看次数

标签 统计

c++ ×2

bert-language-model ×1

gdb ×1

java ×1

javaagents ×1

maven ×1

nlp ×1

pytorch ×1