我见过与"Skype"配合使用的机器人编程示例.是否有可能使用Microsoft的Bot/Cognitive服务工具/框架开发在"Skype for Business"上运行的企业机器人?
skype-for-business microsoft-cognitive skypedeveloper skype-bots microsoft-skype-bot
我在使用Microsoft Face API时遇到问题.以下是我的示例请求:
curl -v -X POST "https://westus.api.cognitive.microsoft.com/face/v1.0/detect?returnFaceId=true&returnFaceLandmarks=false&returnFaceAttributes=age,gender" -H "Content-Type: application/json" -H "Ocp-Apim-Subscription-Key: 1xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxd" --data-ascii "{\"url\":\"http://www.mrbeantvseries.co.uk/bean3.jpg\"}"
Run Code Online (Sandbox Code Playgroud)
我使用来自我的认知服务帐户的订阅ID,我收到以下回复:
{
"error": {
"code": "Unspecified",
"message": "Access denied due to invalid subscription key. Make sure you are subscribed to an API you are trying to call and provide the right key."
}
}
Run Code Online (Sandbox Code Playgroud)
不确定我是否错过了那里的任何东西.有人可以帮我吗?非常感谢.
我正在使用带有Cognitive Services的Microsoft Bot Framework从用户通过bot上传的源图像生成图像.我正在使用C#.
Cognitive Services API返回一个byte[]或Stream表示处理过的图像.
如何将该图像直接发送给我的用户?所有的文档和示例似乎都指向我必须将图像托管为可公开寻址的URL并发送链接.我可以这样做,但我宁愿不这样做.
有谁知道如何简单地返回图像,有点像Caption Bot吗?
我试图通过WebSockets让Bing Speech API在C#中工作.我已经通过实施在Javascript看着这里,并已按照规程说明在这里,但我已经遇到了一个完整的砖墙.我不能使用现有的C#服务,因为我在Linux容器中运行,所以我需要在.net Core上使用一个实现.令人讨厌的是,现有的服务是封闭源的!
我可以成功连接到Web套接字,但我无法让服务器响应我的连接.我期待turn.start从服务器收到一条短信,但是一旦我发送了几个字节的音频文件,我就会从服务器上启动.我知道这个音频文件是在正确的格式,因为我已经从C#的服务样本直接得到它在这里.
我觉得我已经筋疲力尽了.我现在唯一能想到的是我没有正确发送音频块.目前,我只是连续发送4096字节的音频文件.我知道第一个音频消息包含RIFF标题,只有36个字节,然后我只是发送它与下一个(4096-36)字节.
这是我的完整代码.您应该只能将其作为.net核心或.net框架控制台应用程序运行,并且需要一个音频文件和一个API密钥.
using Newtonsoft.Json;
using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Net.Http;
using System.Net.WebSockets;
using System.Text;
using System.Threading;
using System.Threading.Tasks;
namespace ConsoleApp3
{
class Program
{
static void Main(string[] args)
{
Task.Run(async () =>
{
var bingService = new BingSpeechToTextService();
var audioFilePath = @"FILEPATH GOES HERE";
var authenticationKey = @"BING AUTHENTICATION KEY GOES HERE";
await bingService.RegisterJob(audioFilePath, authenticationKey);
}).Wait();
}
}
public class BingSpeechToTextService
{
/* …Run Code Online (Sandbox Code Playgroud) 我正在使用Microsoft Computer Vision阅读收据.
我得到的结果被排序到按列分组的区域,例如数量,产品名称,数量在三个不同的区域.
如果整个产品列表是一个区域并且每一行都是产品,我更愿意.
是否有任何方法可以配置计算机视觉来完成此任务,或者更有可能是因为所有单词的位置都可用,所以可以在结果的后处理中使用任何好的技术或库.
贝娄是收据的图像和计算机视觉的结果.
{
"language": "sv",
"textAngle": 2.0999999999999632,
"orientation": "Up",
"regions": [
{
"boundingBox": "1012,450,660,326",
"lines": [
{
"boundingBox": "1362,450,76,30",
"words": [
{
"boundingBox": "1362,450,76,30",
"text": "JULA"
}
]
},
{
"boundingBox": "1207,486,465,49",
"words": [
{
"boundingBox": "1207,502,172,33",
"text": "Ekslinsan"
},
{
"boundingBox": "1400,497,51,30",
"text": "3B,"
},
{
"boundingBox": "1479,491,95,33",
"text": "25467"
},
{
"boundingBox": "1595,486,77,32",
"text": "VALA"
}
]
},
{
"boundingBox": "1304,539,265,38",
"words": [
{
"boundingBox": "1304,539,265,38",
"text": "SE5S6944785601"
}
]
},
{
"boundingBox": …Run Code Online (Sandbox Code Playgroud) 我和我的同事正在使用Microsoft bot框架和Microsoft LUIS构建一个非常大的应用程序.从本质上讲,我们正在尝试创建一个机器人,来自整个组织的人员可以向机器人发送消息(通过松弛)并接收相关信息.不同类型的请求涉及不同的主题领域(销售,营销,后勤和研发).如何将多个LUIS模型,实体和子实体链接在一起,以便请求在到达正确的实体之前不会查询每个实体?
现在,如果用户询问"我们今年在研究上花了多少钱?",它首先查询销售实体,然后查询营销实体,然后查询物流实体,最后在获得响应之前查询研发实体.我正在尝试限制API请求的数量.我目前知道3个可能的解决方案来处理这个路由问题,并且它们似乎都没有依赖LUIS来路由到适当的实体.
解决方案1涉及让机器人给出对应于每个域的UI选择器.
解决方案2涉及连接NLP库以从句子中提取主题,然后使用加权字典库匹配主题.
解决方案3涉及设置纯RegEx.这是我最不喜欢的解决方案,原因很明显.
使用Microsoft bot框架和Microsoft LUIS的企业级参考应用程序的链接将是一个理想的答案.
c# azure microsoft-cognitive botframework azure-language-understanding
我正在构建一个测试应用程序来通过身份验证用户Microsoft's Cognitive Speaker Recognition API.这似乎很简单,但正如他们的API文档中所提到的,在创建注册时,我需要发送byte[]我录制的音频文件.现在,因为我使用Xamarin.Android,我能够录制音频并保存.现在,THAT音频的要求非常具体Microsoft's Cognitive Speaker Recognition API.
根据API文档,音频文件格式必须满足以下要求.
Container -> WAV
Encoding -> PCM
Rate -> 16K
Sample Format -> 16 bit
Channels -> Mono
Run Code Online (Sandbox Code Playgroud)
按照这个方法,我成功地录制了音频,在玩了一些和一些Android文档之后,我也能够实现这些设置:
_recorder.SetOutputFormat(OutputFormat.ThreeGpp);
_recorder.SetAudioChannels(1);
_recorder.SetAudioSamplingRate(16);
_recorder.SetAudioEncodingBitRate(16000);
_recorder.SetAudioEncoder((AudioEncoder) Encoding.Pcm16bit);
Run Code Online (Sandbox Code Playgroud)
这符合所需音频文件的大多数标准.但是,我似乎无法以实际的".wav"格式保存文件,我无法验证文件是否实际被PCM编码.
这是我的AXML和MainActivity.cs:Github Gist
我也遵循了这段代码并将其合并到我的代码中:Github Gist
该文件的规格看起来很好,但持续时间是错误的.无论我录制多长时间,它只显示250毫秒,这导致音频太短.
有没有办法做到这一点?基本上我只想Microsoft's Cognitive Speaker Recognition API通过Xamarin.Android 连接.我找不到任何这样的资源来指导自己.
TextTranslator的Microsoft Azure门户提供以下端点:
https://api.cognitive.microsoft.com/sts/v1.0
然而,此端点为issueToken返回200,为Translate返回404.样本指的是以下端点:
https://api.microsofttranslator.com/v2/http.svc/
如果译者在数据市场中结束,那么文档已经过时了,这是我最初的假设.但是,doc端点将返回Translate方法.
http://docs.microsofttranslator.com/text-translate.html#!/default/get_Translate
我们应该使用哪个端点?
如果应该使用api.microsofttranslator.com那么天蓝色的api.cognitive.microsoft.com是什么?
似乎微软提供了不少语音识别产品,我想知道它们之间的差异.
有Microsoft Speech API或SAPI.但不知何故,Microsoft Cognitive Service Speech API具有相同的名称.
现在好了,Azure上的Microsoft Cognitive Service提供了语音服务API和Bing Speech API.我假设语音到文本,两个API是相同的.
然后是System.Speech.Recognition(或桌面SAPI),Microsoft.Speech.Recognition(或Server SAPI)和Windows.Media.Speech.Recognition.这里和这里对三者之间的差异有一些解释.但我的猜测是它们是基于HMM的旧语音识别模型,又名神经网络模型,并且所有这三种都可以在没有互联网连接的情况下离线使用,对吧?
对于Azure语音服务和bing语音API,它们是更高级的语音模型吗?但我认为没有办法在我的本地计算机上脱机使用它们,因为它们都需要订阅验证.(即使Bing API似乎有一个C#桌面库 ..)
基本上我想要一个离线模型,它可以进行语音到文本的转录,用于我的会话数据(每个音频录制5-10分钟),可以识别多个扬声器并输出时间戳(或时间编码输出).所有的选择我现在有点困惑.如果有人能向我解释,我将不胜感激,非常感谢!
speech-recognition speech-to-text microsoft-speech-api microsoft-speech-platform microsoft-cognitive
我正在寻找文档/示例(Azure 文本分析)来创建自定义实体。关于如何创建/训练自定义模型、API 详细信息以及如何使用自定义文本分类引擎的示例。(类似于 AWS Comprehend)。我想利用它从文档 (pdf/tiff) 中提取有意义的自定义实体以及它们的置信度分数和这些自定义实体的坐标。
但是,虽然我看到了命名实体的示例,但我没有找到自定义实体的文档。 https://azure.microsoft.com/en-us/use-cases/custom-entity-extraction-with-text-analytics/
谢谢
c# ×4
botframework ×2
skype-bots ×2
azure ×1
azure-language-understanding ×1
bing-speech ×1
face-api ×1
ocr ×1
xamarin ×1