我需要在我的网站上检测信息的抓取.我尝试了基于行为模式的检测,虽然相对计算量很大,但似乎很有希望.
基础是收集某个客户端的请求时间戳,并将它们的行为模式与常见模式或预先计算的模式进行比较.
更准确地说,我将请求之间的时间间隔收集到数组中,按时间函数索引:
i = (integer) ln(interval + 1) / ln(N + 1) * N + 1
Y[i]++
X[i]++ for current client
其中N是时间(计数)限制,丢弃大于N的间隔.最初X和Y用1填充.
然后,在我在X和Y中得到足够数量之后,是时候做出决定了.标准是参数C:
C = sqrt(summ((X[i]/norm(X) - Y[i]/norm(Y))^2)/k)
其中X是某些客户数据,Y是公共数据,norm()是校准函数,k是归一化系数,取决于规范()的类型.有3种类型:
norm(X) = summ(X)/count(X), k = 2norm(X) = sqrt(summ(X[i]^2), k = 2 norm(X) = max(X[i]), k is square root of number of non-empty elements XC在范围(0..1)内,0表示没有行为偏差,1表示最大偏差.
类型1的校准最适合重复请求,类型2用于重复请求,间隔很少,类型3用于非常量请求间隔.
你怎么看?如果您在服务上尝试这一点,我将不胜感激.
我试图检测图像中的地平线,并返回天空的掩模(或倒置为地面).虽然它似乎有很多用途,但我正在努力找到一个好的解决方案.更糟糕的是,这似乎是一个如此简单的问题,大多数人在探测地平线方面都没有问题.
以下更难:
我现在尝试的是使用滤色器将其限制为低饱和度,然后找到轮廓并检测并填充最大轮廓.在此之后,我将洪水填充到轮廓上方的区域.这确实有效,但我仍然无法想象这个问题会如此困难.
我正在使用OpenCV包装器在Delphi XE8中编写代码,但欢迎任何其他语言的答案或想法!
是否有任何程序可以检测到MP3的比特率?我不是在谈论文件编码的有效比特率,而是只能通过频谱分析计算的实际比特率.
例如,如果我有一个128 kbps的MP3编码,其大小为1 MB,然后我将这个MP3转码为320 kpbs,其大小为3 MB,我将拥有相同的相同音轨,但具有不同的大小.
如果我有一个320 kbps的MP3并且我将其转码为128 kbps,我将失去一些质量,因此会丢失一些文件大小.
但是,我仍无法验证320 kbps是我的MP3的"真实"比特率.
详情请参阅本文:http: //www.fileden.com/files/2009/2/14/2321055/My%20Documents/MP3%20Bit%20Rate%20Quality%20Detection%20through%20Frequency.pdf
对于像odt,ppt,pptx,xlsx等文档,我需要获取iana.org MediaType而不是application/zip或application/x-tika-msoffice.
如果你看一下mimetypes.xml,那么mimeType元素由iana.org mime-type和"sub-class-of"组成.
   <mime-type type="application/msword">
    <alias type="application/vnd.ms-word"/>
    ............................
    <glob pattern="*.doc"/>
    <glob pattern="*.dot"/>
    <sub-class-of type="application/x-tika-msoffice"/>
  </mime-type>
如何获取iana.org mime-type名称而不是父类型名称?
在测试mime类型检测时,我做:
MediaType mediaType = MediaType.parse(tika.detect(inputStream));
String mimeType = mediaType.getSubtype();
检测结果 :
FAILED: getsCorrectContentType("application/vnd.ms-excel", docs/xls/en.xls)
java.lang.AssertionError: expected:<application/vnd.ms-excel> but was:<x-tika-msoffice>
FAILED: getsCorrectContentType("vnd.openxmlformats-officedocument.spreadsheetml.sheet", docs/xlsx/en.xlsx)
java.lang.AssertionError: expected:<vnd.openxmlformats-officedocument.spreadsheetml.sheet> but was:<zip>
FAILED: getsCorrectContentType("application/msword", doc/en.doc)
java.lang.AssertionError: expected:<application/msword> but was:<x-tika-msoffice>
FAILED: getsCorrectContentType("application/vnd.openxmlformats-officedocument.wordprocessingml.document", docs/docx/en.docx)
java.lang.AssertionError: expected:<application/vnd.openxmlformats-officedocument.wordprocessingml.document> but was:<zip>
FAILED: getsCorrectContentType("vnd.ms-powerpoint", docs/ppt/en.ppt)
java.lang.AssertionError: expected:<vnd.ms-powerpoint> but was:<x-tika-msoffice>
有没有办法从mimetypes.xml获取实际的子类型?而不是x-tika-msoffice或application/zip?
此外,我从来没有获得application/x-tika-ooxml,但xlsx,docx,pptx文件的应用程序/ zip.
有没有办法告诉用户是否通过主屏幕切换来到您的网站?使用iOS,我可以使用以下javascript代码来检测用户是否通过主屏幕快捷方式打开页面:
if (('standalone' in navigator && !navigator.standalone && (/iphone|ipod|ipad/gi).test(navigator.platform) && (/Safari/i).test(navigator.appVersion)) {
            window.location = 'index2.html';
        }
我找不到你可以用android做类似的东西.任何帮助将不胜感激 :)
我知道您可以设置重复检测以使用天蓝色服务总线队列在一段时间内工作.但是,是否有人知道这是否基于队列中的对象?
因此,如果我有一个id为"SO_1"的对象被放入队列并随后被消耗,那么重复检测是否仍然有效?
我想我要问的是 - 是时间框架和对象,还是只是让队列决定什么是重复的时间框架?
 我们需要计算人群中的人数,我们已经使用了
我们需要计算人群中的人数,我们已经使用了opencv_traincascade它,但它检测到很多东西.
我们可以使用的另一种方法是什么?
我正在寻找一个解决方案,我们如何能够detect支持css flex-box和flex-wrapJavaScript.
我知道modernizr哪个可以完成这项工作,但我的客户端不允许我们在head部分内加载任何脚本,不幸的是,这在页脚加载时不起作用.
在所有类型的浏览器/设备上实现此检测的正确方法是什么?
我生成粘贴在200x200大小的白色背景上的单个硬币的图像.硬币是从8欧元硬币图像(每个硬币一个)中随机选择的,并具有:
以下是两个示例(添加了中心标记):两个数据集示例
我正在使用Python + Lasagne.我将彩色图像输入到神经网络中,该网络具有完全连接的2个线性神经元的输出层,一个用于x,一个用于y.与生成的硬币图像相关联的目标是硬币中心的坐标(x,y).
我试过(从使用卷积神经网络检测面部关键点教程):
我总是使用简单的SGD,调整学习率,试图有一个很好的递减误差曲线.
我发现,当我训练网络时,错误会减少,直到输出始终是图像的中心.看起来输出与输入无关.网络输出似乎是我给出的目标的平均值.由于硬币的位置均匀地分布在图像上,因此这种行为看起来像是错误的简单最小化.这不是想要的行为.
我感觉网络没有学习,只是试图优化输出坐标以最小化针对目标的平均误差.我对吗?我怎么能阻止这个?我试图消除输出神经元的偏差,因为我想也许我只是修改了偏差,所有其他参数都设置为零,但这不起作用.
单独一个神经网络是否有可能在这项任务中表现良好?我已经读过,人们还可以为当前/不存在的分类训练网络,然后扫描图像以找到对象的可能位置.但我只是想知道是否可以使用神经网络的正向计算.
detection ×10
javascript ×2
opencv ×2
algorithm ×1
analysis ×1
android ×1
apache-tika ×1
azure ×1
bitrate ×1
c# ×1
coordinates ×1
css3 ×1
dead-code ×1
duplicates ×1
flexbox ×1
head ×1
java ×1
lasagne ×1
mime-types ×1
mobile ×1
mp3 ×1
security ×1
servicebus ×1
spectrum ×1