我想教自己足够的机器学习,这样我就可以开始理解足够使用可用的开源ML框架,这将允许我做以下事情:
浏览某个网站的HTML源代码,并"理解"哪些部分形成内容,广告和形成元数据(无论是内容还是广告),例如.-TOC,author bio等)
浏览来自不同站点的HTML源页面,并"分类"该站点是否属于预定义类别(将提供类别列表)1.
...在文本和页面上的类似分类任务.
如您所见,我的直接要求是对不同数据源和大量数据进行分类.
就我的有限理解而言,采用神经网络方法需要进行大量的训练和维护,而不是使用SVM?
据我所知,SVM非常适合像我这样的(二进制)分类任务,而像libSVM这样的开源framworks相当成熟?
在这种情况下,计算机科学毕业生现在需要学习哪些科目和主题,以便能够解决上述要求,并使用这些框架?
我想远离Java,是可能的,否则我没有语言偏好.我愿意学习并尽可能多地投入精力.
我的目的不是从头开始编写代码,而是开始使用各种框架(我不知道哪个可以决定哪个),而且我应该能够解决它们出错的问题.
关于学习统计学和概率论的特定部分的建议对我来说并不意外,所以说如果需要的话!
如果需要,我会根据您的所有建议和反馈修改此问题.
有没有办法(通过shell扩展或注册表设置)告诉Windows资源管理器它不应该读取正在显示的文件夹中的文件,以便提取元数据或创建缩略图?
问题是当用户导航到该文件夹时,Windows资源管理器会尝试读取该文件夹中的所有文件并从中提取某些元数据.如果介质很慢,则需要很长时间并导致文件系统上出现不必要的负载.当读取整个图形文件时,在缩略图的情况下尤其如此.
我正在寻找在代码中执行此操作(限制资源管理器)的方法,因此"不使用缩略图模式"不是可接受的答案:).
更新:不幸的是,每个用户的设置不起作用,因为我们作为磁盘提供商只能处理我们自己的磁盘(并且用户可能希望对常规磁盘和虚拟磁盘进行单独设置).我相信必须有一些方法来"解释"驱动器运行缓慢的操作系统.
也许我们需要处理驱动程序级别的一些IRP来告诉操作系统介质是否很慢?
也许有人可以向我解释这一点,但是当从Oracle查询数据表时,如果存在密钥的多个记录(比如客户ID),那么如果没有隐含的"order by",那么该客户首先出现的记录可能会有所不同.声明通过说替代字段(例如事务类型)来强制执行订单.因此,在同一个表上运行相同的查询可能会产生与10分钟前不同的记录顺序.
例如,一次运行可以产生:
Cust_ID,Transaction_Type
123 A
123 B.
除非使用"Transaction by Transaction_Type"子句,否则Oracle可以在下次运行查询时随意返回以下结果:
Cust_ID,Transaction_Type
123 B
123 A.
我想我的印象是Oracle中有一个数据库默认的行排序(可能)反映了磁盘介质上的物理排序.换句话说,任意顺序是不可变的,并且在重新运行查询时将保证相同的结果.
这是否与优化器有关,以及它如何决定最有效地检索数据的位置?
当然,编程视角下的最佳实践是强制要求任何顺序,我对这种行为感到有点不安.
我正在考虑为我的Rails SaaS应用程序实现IP地址过滤.简而言之,我希望管理员能够指定一个或多个IP地址(或一系列IP地址),然后我的应用程序只接受来自指定地址的实例上的请求.
我正在寻找使用IPAddress(http://github.com/bluemonk/ipaddress)来解析/验证每个地址/地址范围.这是一个不错的选择还是有更好/更合适的库?
有没有人实现过这种过滤,可以描述一种对他们有用的方法,还是有任何我需要担心的问题?
或者,是否有一个现有的Ruby库可以自动处理所有这些,并设法逃避我的谷歌搜索?
非常感谢,Ash
我有一个BufferedInputStream没有正确标记.这是我的代码:
public static void main(String[] args) throws Exception {
byte[] b = "HelloWorld!".getBytes();
BufferedInputStream bin = new BufferedInputStream(new ByteArrayInputStream(b));
bin.mark(3);
while (true){
byte[] buf = new byte[4096];
int n = bin.read(buf);
if (n == -1) break;
System.out.println(n);
System.out.println(new String(buf, 0, n));
}
}
Run Code Online (Sandbox Code Playgroud)
这是输出:
11
HelloWorld!
Run Code Online (Sandbox Code Playgroud)
我希望它输出
3
Hel
8
loWorld!
Run Code Online (Sandbox Code Playgroud)
我也尝试使用纯粹的ByteArrayInputStream作为代码bin,但它也没有用.
当我尝试做一个git commit -a,我得到一个很好的vim实例.我键入我的消息,执行:wq,vim关闭,终端有消息,
Aborting commit due to empty commit message.
Run Code Online (Sandbox Code Playgroud)
根据这个问题,我确保我的core.editor说"gvim"(user.editor,fwiw也是如此),但我仍然收到错误消息.
有没有人有另一个想法?
编辑1:我是能够通过指定一个文件提交.我的消息太长,无法合理使用-m选项.
编辑2:
$ git config core.editor
vim
error: More than one value for the key core.editor: vim
error: More than one value for the key core.editor: gvim
Run Code Online (Sandbox Code Playgroud)
编辑3: 仍然有相同的问题,即使core.editor排序.还有其他想法吗?
$ git config core.editor
gvim -f
$ git commit
Aborting commit due to empty commit message.
Run Code Online (Sandbox Code Playgroud)
编辑4:
其他错误消息.这就是我所看到的一切.我从原来的问题中排除了几个,因为我已经将它们放在许多机器上,其中没有一个在使用带有git的vim/gvim时遇到问题(当前的除外).在此处显示的情况下,core.editor设置为vim -f.
$ git commit
(gvim:21655): GLib-WARNING **: g_set_prgname() called multiple …Run Code Online (Sandbox Code Playgroud) 我正在为以下问题寻找一个优雅的解决方案.
假设我们有一个具有以下布尔属性的(View)模型:
接下来,我在表面上有5个控件,只有在满足基于这些属性的条件时才能看到它们.当然,只要更新其中一个属性,就应该立即传播更改:
到目前为止我提出的唯一解决方案是使用MultiValueConverters.
ControlA的示例:
<ControlA>
<ControlA.Visibility>
<MultiBinding Converter={StaticResource ControlAVisibilityConverter}>
<Binding Path="Alpha"/>
<Binding Path="Beta"/>
<Binding Path="Gamma"/>
</MultiBinding>
</ControlA.Visibility>
</ControlA>
Run Code Online (Sandbox Code Playgroud)
此ControlAVisibilityConverter检查条件"Alpha &&(Beta || Gamma)"并返回适当的值.
它确实有用......好吧..但也许你可以想出一个更优雅的解决方案?
谢谢TwinHabit
我在解密WCF跟踪文件时遇到问题,我希望有人可以帮我确定在哪些环节中我会产生延迟."处理消息XX"的跟踪如下所示,其中在活动边界和转移到"处理操作"之间似乎有997ms的延迟,其中我的服务代码被执行(大约需要50ms).

首先,我不确定我是否正确理解"时间"列以表示活动项目的开始时间.我认为情况就是这样,因为钻入"处理操作"跟踪会显示一个活动列表,其中第一个时间戳等于"处理操作"项的上述跟踪中显示的时间戳.
我的主要问题是:如何确定997ms时间跨度内发生的情况?当我读到服务跟踪查看器时,似乎这种活动类型涉及"传输或安全处理",这让我相信它是一个网络问题,但我无法确定.
如果它是相关的,下面是深入到"过程操作"跟踪的快照.

有没有人对如何深入研究这项活动以确定延迟原因有所了解?
(我应该提到响应时间从大约60毫秒到超过一整秒,并且似乎只在特定环境中这样做,这进一步使我想到网络问题)
先感谢您!
如果使用以下内容
Analytic.collection.map_reduce(map, reduce,
:query => {:page => subclass_name},
:sort => [[:pageviews, Mongo::DESCENDING]]).find.to_a
Run Code Online (Sandbox Code Playgroud)
它不会排序pageviews.或者,如果是哈希数组:
Analytic.collection.map_reduce(map, reduce,
:query => {:page => subclass_name},
:sort => [{:pageviews => Mongo::DESCENDING}]).find.to_a
Run Code Online (Sandbox Code Playgroud)
它也不起作用.我认为它必须是一个数组的原因是指定要排序的第一个字段,等等.我也尝试了一个平面数组而不是像上面第一个代码中列出的数组数组,它也没有工作.
它不起作用吗?这是规范:http://api.mongodb.org/ruby/current/Mongo/Collection.html#map_reduce-instance_method
我有一个带有一些外键的表,我需要得到这些键何时更改的报告.
from | to | timestamp 1 | 2 | 0000 1 | 2 | 0001 1 | 2 | 0002 1 | 3 | 0003 1 | 3 | 0004 1 | 2 | 0005
SELECT from,to,FIRST(timestamp)FROM FROM GROUP BY from,to;
from | to | timestamp 1 | 2 | 0000 1 | 3 | 0003
我可以通过Group By来获得前两个转换,但它将第三个转换为第一个并且当它返回时我无法看到它.
我想进行以下查询:
from | to | timestamp 1 | 2 | 0000 1 | 3 | 0003 1 | 2 | 0005 …
sql ×2
.net ×1
converter ×1
explorer ×1
git ×1
inputstream ×1
java ×1
mapreduce ×1
mongodb ×1
mongoid ×1
multibinding ×1
mvvm ×1
oracle ×1
performance ×1
postgresql ×1
rows ×1
ruby ×1
sql-order-by ×1
trace ×1
vim ×1
wcf ×1
wpf ×1