标签: microsoft-cognitive

我们可以为"Skype for Business"构建Skype机器人吗？

我见过与"Skype"配合使用的机器人编程示例.是否有可能使用Microsoft的Bot/Cognitive服务工具/框架开发在"Skype for Business"上运行的企业机器人？

skype-for-business microsoft-cognitive skypedeveloper skype-bots microsoft-skype-bot

Ven*_*ndi

2017 05-15

12
推荐指数

2
解决办法

8163
查看次数

由于订阅密钥无效而拒绝访问(Face API)

我在使用Microsoft Face API时遇到问题.以下是我的示例请求:

curl -v -X POST "https://westus.api.cognitive.microsoft.com/face/v1.0/detect?returnFaceId=true&returnFaceLandmarks=false&returnFaceAttributes=age,gender" -H "Content-Type: application/json" -H "Ocp-Apim-Subscription-Key: 1xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxd" --data-ascii "{\"url\":\"http://www.mrbeantvseries.co.uk/bean3.jpg\"}"

Run Code Online (Sandbox Code Playgroud)

我使用来自我的认知服务帐户的订阅ID,我收到以下回复:

{
  "error": {
    "code": "Unspecified",
    "message": "Access denied due to invalid subscription key. Make sure you are subscribed to an API you are trying to call and provide the right key."
  }
}

Run Code Online (Sandbox Code Playgroud)

不确定我是否错过了那里的任何东西.有人可以帮我吗？非常感谢.

face-detection microsoft-cognitive face-api

Ahm*_*han

lucky-day

11
推荐指数

3
解决办法

1万
查看次数

发送图像而不是链接

我正在使用带有Cognitive Services的Microsoft Bot Framework从用户通过bot上传的源图像生成图像.我正在使用C#.

Cognitive Services API返回一个byte[]或Stream表示处理过的图像.

如何将该图像直接发送给我的用户？所有的文档和示例似乎都指向我必须将图像托管为可公开寻址的URL并发送链接.我可以这样做,但我宁愿不这样做.

有谁知道如何简单地返回图像,有点像Caption Bot吗？

microsoft-cognitive botframework skype-bots

Mar*_*arn

lucky-day

9
推荐指数

1
解决办法

2267
查看次数

Bing语音到文本API - 通过c#中的websocket进行通信

我试图通过WebSockets让Bing Speech API在C#中工作.我已经通过实施在Javascript看着这里,并已按照规程说明在这里,但我已经遇到了一个完整的砖墙.我不能使用现有的C#服务,因为我在Linux容器中运行,所以我需要在.net Core上使用一个实现.令人讨厌的是,现有的服务是封闭源的!

我可以成功连接到Web套接字,但我无法让服务器响应我的连接.我期待turn.start从服务器收到一条短信,但是一旦我发送了几个字节的音频文件,我就会从服务器上启动.我知道这个音频文件是在正确的格式,因为我已经从C#的服务样本直接得到它在这里.

我觉得我已经筋疲力尽了.我现在唯一能想到的是我没有正确发送音频块.目前,我只是连续发送4096字节的音频文件.我知道第一个音频消息包含RIFF标题,只有36个字节,然后我只是发送它与下一个(4096-36)字节.

这是我的完整代码.您应该只能将其作为.net核心或.net框架控制台应用程序运行,并且需要一个音频文件和一个API密钥.

using Newtonsoft.Json;
using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Net.Http;
using System.Net.WebSockets;
using System.Text;
using System.Threading;
using System.Threading.Tasks;

namespace ConsoleApp3
{
    class Program
    {
        static void Main(string[] args)
        {
            Task.Run(async () =>
            {
                var bingService = new BingSpeechToTextService();
                var audioFilePath = @"FILEPATH GOES HERE";
                var authenticationKey = @"BING AUTHENTICATION KEY GOES HERE";
                await bingService.RegisterJob(audioFilePath, authenticationKey);
            }).Wait();
        }
    }

    public class BingSpeechToTextService
    {
        /* …

Run Code Online (Sandbox Code Playgroud)

c# microsoft-cognitive bing-speech

Ste*_*lis

2017 08-05

9
推荐指数

1
解决办法

1342
查看次数

处理OCR /计算机视觉结果以匹配收据结构

我正在使用Microsoft Computer Vision阅读收据.

我得到的结果被排序到按列分组的区域,例如数量,产品名称,数量在三个不同的区域.

如果整个产品列表是一个区域并且每一行都是产品,我更愿意.

是否有任何方法可以配置计算机视觉来完成此任务,或者更有可能是因为所有单词的位置都可用,所以可以在结果的后处理中使用任何好的技术或库.

贝娄是收据的图像和计算机视觉的结果.

{
  "language": "sv",
  "textAngle": 2.0999999999999632,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "1012,450,660,326",
      "lines": [
        {
          "boundingBox": "1362,450,76,30",
          "words": [
            {
              "boundingBox": "1362,450,76,30",
              "text": "JULA"
            }
          ]
        },
        {
          "boundingBox": "1207,486,465,49",
          "words": [
            {
              "boundingBox": "1207,502,172,33",
              "text": "Ekslinsan"
            },
            {
              "boundingBox": "1400,497,51,30",
              "text": "3B,"
            },
            {
              "boundingBox": "1479,491,95,33",
              "text": "25467"
            },
            {
              "boundingBox": "1595,486,77,32",
              "text": "VALA"
            }
          ]
        },
        {
          "boundingBox": "1304,539,265,38",
          "words": [
            {
              "boundingBox": "1304,539,265,38",
              "text": "SE5S6944785601"
            }
          ]
        },
        {
          "boundingBox": …

Run Code Online (Sandbox Code Playgroud)

c# ocr computer-vision post-processing microsoft-cognitive

Lil*_*vik

2016 12-03

8
推荐指数

1
解决办法

3229
查看次数

路由Microsoft LUIS请求和Bot框架 - 最好在企业参考应用程序中

我和我的同事正在使用Microsoft bot框架和Microsoft LUIS构建一个非常大的应用程序.从本质上讲,我们正在尝试创建一个机器人,来自整个组织的人员可以向机器人发送消息(通过松弛)并接收相关信息.不同类型的请求涉及不同的主题领域(销售,营销,后勤和研发).如何将多个LUIS模型,实体和子实体链接在一起,以便请求在到达正确的实体之前不会查询每个实体？

现在,如果用户询问"我们今年在研究上花了多少钱？",它首先查询销售实体,然后查询营销实体,然后查询物流实体,最后在获得响应之前查询研发实体.我正在尝试限制API请求的数量.我目前知道3个可能的解决方案来处理这个路由问题,并且它们似乎都没有依赖LUIS来路由到适当的实体.

解决方案1涉及让机器人给出对应于每个域的UI选择器.

解决方案2涉及连接NLP库以从句子中提取主题,然后使用加权字典库匹配主题.

解决方案3涉及设置纯RegEx.这是我最不喜欢的解决方案,原因很明显.

使用Microsoft bot框架和Microsoft LUIS的企业级参考应用程序的链接将是一个理想的答案.

c# azure microsoft-cognitive botframework azure-language-understanding

Gas*_*tre

2016 10-10

7
推荐指数

1
解决办法

512
查看次数

通过Xamarin.Android连接到Microsoft的认知说话人识别API

我正在构建一个测试应用程序来通过身份验证用户Microsoft's Cognitive Speaker Recognition API.这似乎很简单,但正如他们的API文档中所提到的,在创建注册时,我需要发送byte[]我录制的音频文件.现在,因为我使用Xamarin.Android,我能够录制音频并保存.现在,THAT音频的要求非常具体Microsoft's Cognitive Speaker Recognition API.

根据API文档,音频文件格式必须满足以下要求.

Container -> WAV
Encoding -> PCM
Rate -> 16K
Sample Format -> 16 bit
Channels -> Mono

Run Code Online (Sandbox Code Playgroud)

按照这个方法,我成功地录制了音频,在玩了一些和一些Android文档之后,我也能够实现这些设置:

_recorder.SetOutputFormat(OutputFormat.ThreeGpp);

_recorder.SetAudioChannels(1);
_recorder.SetAudioSamplingRate(16);
_recorder.SetAudioEncodingBitRate(16000);

_recorder.SetAudioEncoder((AudioEncoder) Encoding.Pcm16bit);

Run Code Online (Sandbox Code Playgroud)

这符合所需音频文件的大多数标准.但是,我似乎无法以实际的".wav"格式保存文件,我无法验证文件是否实际被PCM编码.

这是我的AXML和MainActivity.cs:Github Gist

我也遵循了这段代码并将其合并到我的代码中:Github Gist

该文件的规格看起来很好,但持续时间是错误的.无论我录制多长时间,它只显示250毫秒,这导致音频太短.

有没有办法做到这一点？基本上我只想Microsoft's Cognitive Speaker Recognition API通过Xamarin.Android 连接.我找不到任何这样的资源来指导自己.

c# xamarin.android xamarin microsoft-cognitive

Xon*_*hiz

2018 04-25

7
推荐指数

1
解决办法

441
查看次数

Microsoft Translator API Cognitive Services - 什么是正确的端点？

TextTranslator的Microsoft Azure门户提供以下端点:

https://api.cognitive.microsoft.com/sts/v1.0

然而,此端点为issueToken返回200,为Translate返回404.样本指的是以下端点:

https://api.microsofttranslator.com/v2/http.svc/

如果译者在数据市场中结束,那么文档已经过时了,这是我最初的假设.但是,doc端点将返回Translate方法.

http://docs.microsofttranslator.com/text-translate.html#!/default/get_Translate

我们应该使用哪个端点？

如果应该使用api.microsofttranslator.com那么天蓝色的api.cognitive.microsoft.com是什么？

microsoft-cognitive

Dav*_*son

2016 12-30

6
推荐指数

1
解决办法

861
查看次数

Microsoft Speech产品/平台之间的差异

似乎微软提供了不少语音识别产品,我想知道它们之间的差异.

有Microsoft Speech API或SAPI.但不知何故,Microsoft Cognitive Service Speech API具有相同的名称.
现在好了,Azure上的Microsoft Cognitive Service提供了语音服务API和Bing Speech API.我假设语音到文本,两个API是相同的.
然后是System.Speech.Recognition(或桌面SAPI),Microsoft.Speech.Recognition(或Server SAPI)和Windows.Media.Speech.Recognition.这里和这里对三者之间的差异有一些解释.但我的猜测是它们是基于HMM的旧语音识别模型,又名神经网络模型,并且所有这三种都可以在没有互联网连接的情况下离线使用,对吧？
对于Azure语音服务和bing语音API,它们是更高级的语音模型吗？但我认为没有办法在我的本地计算机上脱机使用它们,因为它们都需要订阅验证.(即使Bing API似乎有一个C#桌面库 ..)