Tensorflow文本摘要设置:什么是工作区文件?

blu*_*sky 5 bazel tensorflow textsum

阅读Tensorflow文本摘要文档设置:https://github.com/tensorflow/models/tree/master/textsum it statesclone the code to your workspace and create empty WORKSPACE file.

我已经创建了一个新文件夹并将https://github.com/tensorflow/tensorflow.git克隆到此文件夹,这就是"将代码克隆到工作区"的意思吗?什么是空工作区文件?它是一个名为'WORKSPACE'的空文件吗?

fab*_*ioM 10

WORKSPACE是一个文件,bazel(tensorflow的构建系统)在目录层次结构中搜索以确定项目的.

您可以创建一个简单的空WORKSPACE文件.

$touch WORKSPACE
Run Code Online (Sandbox Code Playgroud)

在我的设置中,我刚创建了另一个目录

cd models
mkdir traintextsum
cd traintextsum
ln -sf ../textsum/ .
mkdir data 
touch WORKSPACE
bazel build -c opt --config=cuda textsum/...
Run Code Online (Sandbox Code Playgroud)

请记住,模型没有经过培训.因此,为了产生任何有意义的结果,您必须拥有一些具有Gigaword数据集格式数据集来训练它.

该数据集具有许可证,因此不能在线免费获得(一年订阅费用约为6,000美元或27,000美元).

我不知道除Gigaword本身之外还有任何其他有意义的数据集.

  • 我可以使用没有Gigaword的模型,因为?:https://github.com/tensorflow/models/blob/master/textsum/README.md声明"如何在下面运行",用户可以使用数据/目录中提供的玩具数据和词汇来更换培训数据目录标志.' 所以替换数据目录标志给出:bazel-bin/textsum/seq2seq_attention\--mode = train\--article_key = article\--abstract_key = abstract\--data_path = data/data\--vocab_path = data/vocab\--log_root = textsum/log_root\--train_dir = textsum/log_root/train (2认同)