小编Jon*_*han的帖子

有没有办法将问题添加到github forked repo(不修改原始版本)？

我注意到我的forked github repo上没有"问题"选项卡.有没有办法允许我分叉回购,但仍然添加问题/维基/等？

github

Jon*_*han

lucky-day

41
推荐指数

1
解决办法

4438
查看次数

如何从文本文件创建自己的NLTK文本？

我是文学研究生,我一直在阅读O'Reilly的自然语言处理书(nltk.org/book).它看起来非常有用.我已经玩过第1章中的所有示例文本和示例任务,比如一致性.我现在知道白鲸有多少次使用"鲸鱼"这个词.问题是,我无法弄清楚如何在我自己的一个文本上进行这些计算.我已经找到了关于如何创建自己的语料库的信息(O'Reilly书中的第2章),但我认为这不是我想要做的.换句话说,我希望能够做到

import nltk 
text1.concordance('yellow')

Run Code Online (Sandbox Code Playgroud)

并获取我的文字中使用"黄色"一词的地方.目前我可以使用示例文本执行此操作,但不能使用我自己的文本.

我是python和编程的新手,所以这些东西非常令人兴奋,但非常令人困惑.

python nltk

Jon*_*han

lucky-day

31
推荐指数

2
解决办法

2万
查看次数

如何在scikit-learn中使用TFIDFVectorizer？

我正在尝试使用scikit-learn中的TfIDFVectorizer类来获取与某些文档不同的单词.它创建了一个tfidf矩阵,其中包含所有文档中的所有单词及其分数,但它似乎也计算了常用单词.这是我正在运行的一些代码:

vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(contents)
feature_names = vectorizer.get_feature_names()
dense = tfidf_matrix.todense()
denselist = dense.tolist()
df = pd.DataFrame(denselist, columns=feature_names, index=characters)
s = pd.Series(df.loc['Adam'])
s[s > 0].sort_values(ascending=False)[:10]

Run Code Online (Sandbox Code Playgroud)

我希望这能为文档'Adam'返回一个独特单词列表,但它的作用是返回一个常用单词列表:

and     0.497077
to      0.387147
the     0.316648
of      0.298724
in      0.186404
with    0.144583
his     0.140998

Run Code Online (Sandbox Code Playgroud)

我可能不完全理解它,但据我所知,tf-idf应该在语料库中找到与一个文档不同的单词,找到在一个文档中经常出现的单词,而不是在其他文档中出现的单词.在这里,and经常出现在其他文档中,所以我不知道为什么它在这里返回一个很高的值.

我用来生成这个的完整代码就在这个Jupyter笔记本中.

当我半手动计算tf/idfs时,使用NLTK和每个单词的计算分数,我得到了适当的结果.对于'亚当'文件:

fresh        0.000813
prime        0.000813
bone         0.000677
relate       0.000677
blame        0.000677
enough       0.000677

Run Code Online (Sandbox Code Playgroud)

这看起来是正确的,因为这些是出现在"亚当"文档中的单词,但在语料库中的其他文档中却没有那么多.用于生成此代码的完整代码位于此Jupyter笔记本中.

我是否在使用scikit代码做错了什么？有没有其他方法来初始化这个类,它返回正确的结果？当然,我可以通过传递来忽略停用词stop_words = 'english',但这并不能真正解决问题,因为任何类型的常用词在这里都不应该有高分.

python nlp scikit-learn

Jon*_*han

lucky-day

27
推荐指数

3
解决办法

5万
查看次数

我可以从命令行向github添加问题吗？

我是git的新手,我希望能够通过github映射我的项目的计划和进度.问题是,需要大量点击github.com上的浏览器,我希望能够通过命令行程序自动完成任务.是否有github的命令行界面？

git github

Jon*_*han

lucky-day

22
推荐指数

3
解决办法

1万
查看次数

如何轻松地用python机器翻译？

您曾经能够用来nltk.misc.babelfish翻译东西,但雅虎Babelfish API却失败了.有没有一种简单的方法可以说,这样做？

>>> import translate
>>> translate('carpe diem', 'latin', 'english')

'seize the day'

Run Code Online (Sandbox Code Playgroud)

python nltk

Jon*_*han

2015 12-21

13
推荐指数

1
解决办法

6610
查看次数

有没有办法让`git submodule add`一个repo而不用克隆它？

我有一个很长的回购列表,我试图通过使它们成为所有子模块而成为一个父回购.

我已尝试将它们.gitmodules手动添加到手机中.git/config,但它似乎无法正常工作.

我也试过运行git submodule sync和git submodule update --init等,但没有运气.

有没有办法欺骗git认为我的项目有它的所有(~30K)子模块,而不需要实际克隆它们？

git git-submodules

Jon*_*han

2016 01-04

13
推荐指数

2
解决办法

3018
查看次数

如何使用CSS避免使用中间链接自动换行？

我有一个水平显示的项目列表,我的导航区域,但它包裹中间链接,像这样

| This is Item One | This is Item Two | This is Item Three | This is
Item Four | This is Item Five |

Run Code Online (Sandbox Code Playgroud)

当我想要它像这样包装:

| This is Item One | This is Item Two | This is Item Three  
| This is Item Four | This is Item Five |

Run Code Online (Sandbox Code Playgroud)

我尝试whitespace: nowrap在我的链接项(li a)上使用声明,但这只是使第二个(包裹的)行完全消失.

css

Jon*_*han

lucky-day

12
推荐指数

2
解决办法

6283
查看次数

如何测试字符串是否包含鱼壳中的另一个字符串？

如何测试鱼壳中是否存在子串？例如,在switch表达式中:

 set myvar "a long test string"
 switch $myvar
 case magical-operator-here "test string" 
     echo 'yep!'
 case '*'
     echo 'nope!'
 end

Run Code Online (Sandbox Code Playgroud)

fish

Jon*_*han

2017 10-08

11
推荐指数

1
解决办法

1563
查看次数

在Hakyll,我如何生成标签页？

我正在尝试做类似本教程中描述的内容,即向我的Hakyll博客添加标签,但不是为每个标签生成一个页面,只需要一个页面列出所有标签及其帖子.所以给定一个Post1标记Tag1,Post2标记Tag1, Tag2和Post3标记Tag2,我tags.html会看起来像这样:

 Tag1: 
  - Post1
  - Post2
 Tag2: 
  - Post2
  - Post3

Run Code Online (Sandbox Code Playgroud)

但我是哈斯克尔的初学者,我并不完全理解哈基尔的所有monadic环境.这是我到目前为止所拥有的:

create ["tags.html"] $ do
    route idRoute
    tags <- buildTags "posts/*" (fromCapture "tags.html")
    compile $
        makeItem ""
            >>= applyTemplate tagListTemplate defaultContext
            >>= applyTemplate defaultTemplate defaultContext
            >>= relativizeUrls
            >>= cleanIndexUrls

Run Code Online (Sandbox Code Playgroud)

问题是,Tags在我的博客中,我真的不知道是什么.我似乎无法将它们打印出来进行调试.(我尝试添加print tags,但它不起作用.)所以我很难想到如何继续这个.

完整的文件在GitHub上.

任何帮助深表感谢.

更新:我仍然没有更接近解决这个问题.这是我现在正在尝试的内容:

create ["tags.html"] $ do
        route idRoute
        tags <- buildTags "posts/*" (fromCapture "tags.html#")
        let …

Run Code Online (Sandbox Code Playgroud)

haskell hakyll

Jon*_*han

2018 11-05

11
推荐指数

2
解决办法

397
查看次数

如何让Jupyter/IPython Notebook nbconvert输出不会溢出页面的PDF？

当我将Jupyter/IPython笔记本转换为PDF格式时ipython nbconvert my-notebook.ipynb --to PDF,它看起来很好,除了一些长行和所有输出只是离开页面的边缘,没有包装.如何让它停止溢出并包裹长线？

pdf ipython-notebook jupyter

Jon*_*han

lucky-day

10
推荐指数

1
解决办法

1850
查看次数

标签统计

python ×3

git ×2

github ×2

nltk ×2

css ×1

fish ×1

git-submodules ×1

hakyll ×1

haskell ×1

ipython-notebook ×1

jupyter ×1

nlp ×1

pdf ×1

scikit-learn ×1

标签 统计

小编Jon_han的帖子

标签统计