我注意到我的forked github repo上没有"问题"选项卡.有没有办法允许我分叉回购,但仍然添加问题/维基/等?
我是文学研究生,我一直在阅读O'Reilly的自然语言处理书(nltk.org/book).它看起来非常有用.我已经玩过第1章中的所有示例文本和示例任务,比如一致性.我现在知道白鲸有多少次使用"鲸鱼"这个词.问题是,我无法弄清楚如何在我自己的一个文本上进行这些计算.我已经找到了关于如何创建自己的语料库的信息(O'Reilly书中的第2章),但我认为这不是我想要做的.换句话说,我希望能够做到
import nltk
text1.concordance('yellow')
Run Code Online (Sandbox Code Playgroud)
并获取我的文字中使用"黄色"一词的地方.目前我可以使用示例文本执行此操作,但不能使用我自己的文本.
我是python和编程的新手,所以这些东西非常令人兴奋,但非常令人困惑.
我正在尝试使用scikit-learn中的TfIDFVectorizer类来获取与某些文档不同的单词.它创建了一个tfidf矩阵,其中包含所有文档中的所有单词及其分数,但它似乎也计算了常用单词.这是我正在运行的一些代码:
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(contents)
feature_names = vectorizer.get_feature_names()
dense = tfidf_matrix.todense()
denselist = dense.tolist()
df = pd.DataFrame(denselist, columns=feature_names, index=characters)
s = pd.Series(df.loc['Adam'])
s[s > 0].sort_values(ascending=False)[:10]
Run Code Online (Sandbox Code Playgroud)
我希望这能为文档'Adam'返回一个独特单词列表,但它的作用是返回一个常用单词列表:
and 0.497077
to 0.387147
the 0.316648
of 0.298724
in 0.186404
with 0.144583
his 0.140998
Run Code Online (Sandbox Code Playgroud)
我可能不完全理解它,但据我所知,tf-idf应该在语料库中找到与一个文档不同的单词,找到在一个文档中经常出现的单词,而不是在其他文档中出现的单词.在这里,and经常出现在其他文档中,所以我不知道为什么它在这里返回一个很高的值.
我用来生成这个的完整代码就在这个Jupyter笔记本中.
当我半手动计算tf/idfs时,使用NLTK和每个单词的计算分数,我得到了适当的结果.对于'亚当'文件:
fresh 0.000813
prime 0.000813
bone 0.000677
relate 0.000677
blame 0.000677
enough 0.000677
Run Code Online (Sandbox Code Playgroud)
这看起来是正确的,因为这些是出现在"亚当"文档中的单词,但在语料库中的其他文档中却没有那么多.用于生成此代码的完整代码位于此Jupyter笔记本中.
我是否在使用scikit代码做错了什么?有没有其他方法来初始化这个类,它返回正确的结果?当然,我可以通过传递来忽略停用词stop_words = 'english',但这并不能真正解决问题,因为任何类型的常用词在这里都不应该有高分.
我是git的新手,我希望能够通过github映射我的项目的计划和进度.问题是,需要大量点击github.com上的浏览器,我希望能够通过命令行程序自动完成任务.是否有github的命令行界面?
您曾经能够用来nltk.misc.babelfish翻译东西,但雅虎Babelfish API却失败了.有没有一种简单的方法可以说,这样做?
>>> import translate
>>> translate('carpe diem', 'latin', 'english')
'seize the day'
Run Code Online (Sandbox Code Playgroud) 我有一个很长的回购列表,我试图通过使它们成为所有子模块而成为一个父回购.
我已尝试将它们.gitmodules手动添加到手机中.git/config,但它似乎无法正常工作.
我也试过运行git submodule sync和git submodule update --init等,但没有运气.
有没有办法欺骗git认为我的项目有它的所有(~30K)子模块,而不需要实际克隆它们?
我有一个水平显示的项目列表,我的导航区域,但它包裹中间链接,像这样
| This is Item One | This is Item Two | This is Item Three | This is
Item Four | This is Item Five |
Run Code Online (Sandbox Code Playgroud)
当我想要它像这样包装:
| This is Item One | This is Item Two | This is Item Three
| This is Item Four | This is Item Five |
Run Code Online (Sandbox Code Playgroud)
我尝试whitespace: nowrap在我的链接项(li a)上使用声明,但这只是使第二个(包裹的)行完全消失.
如何测试鱼壳中是否存在子串?例如,在switch表达式中:
set myvar "a long test string"
switch $myvar
case magical-operator-here "test string"
echo 'yep!'
case '*'
echo 'nope!'
end
Run Code Online (Sandbox Code Playgroud) 我正在尝试做类似本教程中描述的内容,即向我的Hakyll博客添加标签,但不是为每个标签生成一个页面,只需要一个页面列出所有标签及其帖子.所以给定一个Post1标记Tag1,Post2标记Tag1, Tag2和Post3标记Tag2,我tags.html会看起来像这样:
Tag1:
- Post1
- Post2
Tag2:
- Post2
- Post3
Run Code Online (Sandbox Code Playgroud)
但我是哈斯克尔的初学者,我并不完全理解哈基尔的所有monadic环境.这是我到目前为止所拥有的:
create ["tags.html"] $ do
route idRoute
tags <- buildTags "posts/*" (fromCapture "tags.html")
compile $
makeItem ""
>>= applyTemplate tagListTemplate defaultContext
>>= applyTemplate defaultTemplate defaultContext
>>= relativizeUrls
>>= cleanIndexUrls
Run Code Online (Sandbox Code Playgroud)
问题是,Tags在我的博客中,我真的不知道是什么.我似乎无法将它们打印出来进行调试.(我尝试添加print tags,但它不起作用.)所以我很难想到如何继续这个.
任何帮助深表感谢.
更新:我仍然没有更接近解决这个问题.这是我现在正在尝试的内容:
create ["tags.html"] $ do
route idRoute
tags <- buildTags "posts/*" (fromCapture "tags.html#")
let …Run Code Online (Sandbox Code Playgroud) 当我将Jupyter/IPython笔记本转换为PDF格式时ipython nbconvert my-notebook.ipynb --to PDF,它看起来很好,除了一些长行和所有输出只是离开页面的边缘,没有包装.如何让它停止溢出并包裹长线?