编译|太浪
智能音箱引发的数据隐私问题,因为亚马逊员工的独家爆料而掀起新一轮热议。
据五名熟悉Alexa程序的员工告诉彭博社,审核Alexa用户命令的团队可以访问Alexa客户的位置数据,并且在某些情况下,还可以轻松找到客户的家庭住址。
彭博社在本月早些时候(4月10日)披露了这个项目的存在,它的成立是为了帮助亚马逊的数字语音助手更好地理解和响应用户的命令,转录、注释和分析Alexa收录的部分录音。
这些员工称,能够访问Alexa用户地理坐标的团队成员可以很轻松地将它们输入第三方地图软件,并找到用户的住宅所在地。不过这些员工签署的保密协议禁止他们公开谈论这个项目。
虽然没有迹象表明拥有访问数据权限的亚马逊员工曾试图追踪个人用户,但Alexa团队的两名成员向彭博社表达了他们的担忧,他们认为亚马逊授予了不必要的广泛访问客户数据的权限,这将使Alexa设备所有者更容易被识别。
乔治敦大学法学院通信与技术诊所的教学研究院、律师林赛·巴雷特(LindseyBarrett)说,位置数据比许多其他类别的用户信息更敏感。
「任何时候,只要有人在你所在的地方收集信息,这就意味着信息可能会流向其他人,当你不想被找到的时候,他们可能会找到你。」她说,广泛访问与Alexa用户录音相关的位置数据「将会为我的地点插上一面大红旗(红色标记)」。
亚马逊的AlexaDataServices(Alexa数据服务)团队负责管理大量人类语音记录和其他数据,这些数据对训练语音软件有很大帮助。这个团队包含承包商和亚马逊全职员工,他们分布在世界各地,从波士顿到哥斯达黎加、印度和罗马尼亚。
然而,亚马逊还收集位置数据,以便Alexa能够更准确地回答用户的请求,例如,推荐一家当地餐馆或提供附近俄勒冈州阿什兰的天气信息,而不是遥远的密歇根州阿什兰的天气信息。
在彭博社看到的一个演示中,一名亚马逊团队成员将一个用户的坐标(以经度和纬度的形式存储在系统中)粘贴到谷歌地图中,在不到一分钟的时间里,这个员工就从此人的Alexa命令的录音跳转到了一个看起来是他们家和相应地址的图像上。
目前还不清楚有多少人能够使用这个系统。两名亚马逊员工表示,他们相信,Alexa数据服务团队的绝大多数员工直到最近都能够使用该软件。
值得注意的是,有时候Amazon会默认获取数据。
就在去年,当客户第一次向Echo智能音箱提出与位置有关的问题时,该公司经常利用该设备的互联网连接获得其大致位置。
最近,该公司开始使用与客户帐户关联的送货地址作为Echo的默认位置。
Amazon的位置数据并不总是精确的,也并不总是指向Echo的位置。
实际上,当用户设置智能音箱时,Alexa智能手机APP会提示用户输入家庭地址,并请求用户允许其使用智能手机的位置数据。(这套程序在中国是一个很常见的现象)。
在一个关于Alexa的常见问题列表中,亚马逊表示,它使用移动设备位置来提供更多相关的答案和建议,并启用提醒等功能,比如,当用户到达某个地方时,这些功能就会被触发。
据其中一名员工说,亚马逊的另一个内部软件工具存储了更多的个人数据,这个工具只提供给一小部分员工,他们使用这个工具给语音记录做标记,以帮助Alexa对用户请求进行分类。
这名员工说,在输入客户身份号码后,这些被称为注释者和验证者的工作人员可以看到客户在进入Alexaapp设置这个设备时输入的家庭、工作地址和电话号码。
如果用户选择与Alexa共享他们的联系人,则他们的姓名、电话号码和电子邮件地址也会出现在仪表板上。
这些数据在系统中,因此,如果客户说「发消息给Laura」,人工审核员可以确保转录者正确地写入名称,以便软件学会将该请求与联系人列表中的Laura配对。
不过,亚马逊似乎一直在限制员工对系统的访问权限。
一名员工说,就在一年前,亚马逊有一个仪表盘,详细记录了用户的联系人信息,并显示了完整的电话号码。现在,在同一个面板中,一些数字被遮挡了。
两名员工表示,在彭博社4月10日的报道发布后,亚马逊进一步限制了对数据的访问。这些知情人士说,一些负责转录、注释和验证音频记录的数据助理来上班时发现,他们无法再使用以前在工作中使用过的软件工具。截至发稿,他们的访问权限尚未恢复。
机器学习?不,让音箱更好理解语言的是人类劳力大多数现代语音识别系统依赖于以人脑为模型的神经网络。该软件通过在海量数据中发现规律来进行学习,为Echo和其他智能音箱提供动力的算法使用概率模型来进行有根据的猜测。
譬如,如果有人问Alexa附近是否有希腊餐馆时,算法知道用户可能在找一家餐馆,而不是教堂或社区中心。
但有时Alexa会出错ーー尤其是在处理新的俚语、地区俗语或英语以外的其他语言时。
举个例子,法语中的avecsa(读音:阿维克萨,意为「与其」),会让软件误以为有人在使用Alexa的唤醒词;而西班牙语中的Hecho指的是事实或行为,有时会被误解为Echo。诸如此类。
因此,亚马逊雇佣人类帮手,填补算法遗漏的空白。
目前,亚马逊在世界各地雇佣了数千名员工来帮助改进Alexa数字助理,为Echo系列音箱提供动力。
这个团队有权利收听从Echo主人家中和办公室里捕获的录音。
据7名参与该项目的人员描述,Alexa语音审核流程突出了经常被疏忽的人类在训练软件算法中扮演的角色。
在营销材料中,亚马逊称,Alexa「生活在云中,而且变得越来越聪明。」但是就像许多从经验中学习的软件工具一样,人类也在做一些教学工作。
据知情人士透露,该团队由承包商和亚马逊的全职员工组成,他们分布世界各地,从波士顿到哥斯达黎加、印度和罗马尼亚。他们签署的保密协议,禁止他们公开谈论该计划。
亚马逊位于布加勒斯特的办公室坐落于罗马尼亚首都颇具发展前景的Pipera区,占据了环球价值大厦(Globalworthbuilding)的前三层。据该办公室的两名员工说,他们每天工作9个小时,每个审查人员每班要分析多达1000个音频片段。
现代化的设施在破败的基础设施中脱颖而出,但没有任何外部标志表明这就是亚马逊的办公室。
这项工作大部分都是单调的。
偶尔,听众会听到Echo的主人可能更愿意保持低调的东西:比如,一个女人在淋浴时唱歌唱错了调,或者一个孩子尖叫着寻求帮助。
在需要帮助解析一个混乱的单词时或遇到一段有趣的录音时,该团队的人会使用内部聊天室来共享文件。
亚马逊在布加勒斯特的办公室,位于环球价值大厦(Globalworthbuilding)。
有时,他们会听到令人不安的录音,或者可能是犯罪的录音。
其中两名工作人员说,他们发现了他们认为是性侵犯的东西。
当这样的事情发生时,他们可能会在内部聊天室分享经历,以缓解压力。
值得注意的是,一些员工需要记下说话者所听到的一切,包括背景对话ーー即使是在孩子们说话的时候。
有时候,侦听器会听到用户讨论私人信息,如姓名或银行详细信息;在这种情况下,他们应该勾选一个表示「关键数据」的对话框,然后处理下一个音频文件。
根据亚马逊网站的说法,除非Echo检测到唤醒词或按下按钮激活它,否则他们不会存储音频。
但有时,Alexa似乎在没有任何提示的情况下就开始录音了,音频文件以刺耳的电视声或难以理解的噪音开始。无论激活是否是错误的,审查人员都需要将其转录。
其中一位知情人士说,在Alexa没有收到唤醒命令或者是被意外触发的情况下,审计员每天转录的录音都多达100条。
根据两位审查员的说法,在世界各地的家庭中,Echo的用户经常猜测谁可能正在听他们说话,「你为国家安全局工作吗?」他们问,「Alexa,有人在听我们说话吗?」
亚马逊曾在上上周表示,当工作人员听到令人沮丧的消息时,他们会遵守相关程序,但两名驻罗马尼亚的员工表示,在请求对此类案件进行指导后,他们被告知,亚马逊无权干预。
公司还强调:「我们有严格的技术和操作保障措施,并对滥用我们的系统采取零容忍政策。员工无法直接访问可在此工作流程中识别此人或帐户的信息。所有的信息都被高度保密,我们使用多重身份验证来限制访问,对服务进行加密以及审计我们的控制环境,来保护这些信息。」
然而,亚马逊在其市场营销和隐私政策材料中并没有明确表示人们正在收听Alexa收集的一些对话录音。除了该公司在一份常见问题列表中表示:「我们利用您向Alexa提出的请求来培训我们的语音识别和自然语言理解系统。」
只是,在Alexa的隐私设置中,亚马逊为用户提供了禁止使用其录音来开发新功能的选项。
不过,那些选择退出该项目的人可能仍然会在常规审查过程中手动分析他们的录音。
彭博社曾根据截图显示认为,发送给Alexa审阅者的录音并没有提供用户的全名和地址,而是与账号、用户的名字和设备的序列号相关联。但这次员工的再次爆料,则承认了审阅者可以查看用户地址及姓名。
「你并不一定会想到另一个人会在你家里亲昵地听你告诉智能音箱的内容。」密歇根大学教授弗洛里安·绍布(FlorianSchaub)曾研究过与智能音箱有关的隐私问题,他说,「我想,我们已经习惯于这样一种假设,即这些机器只是在进行神奇的机器学习。但事实是,它仍然需要手工处理。」
「这是否涉及隐私问题,取决于亚马逊和其他公司对他们手工标注的信息类型的谨慎程度,以及他们如何向别人展示这些信息。」他补充道。
与亚马逊公司一样,苹果公司的Siri也有人类助手,他们负责判断数字助手对请求的解读是否与用户所说的一致。
根据苹果的安全白皮书,他们审查的录音缺乏可识别个人身份的信息,并与随机标识符绑定存储6个月。
在此之后,数据将被剔除随机识别信息,但可以存储更长时间,以提高Siri的语音识别能力。
而在谷歌,一些评审员可以从谷歌助手那里获得一些音频片段来帮助训练和改进产品,但是谷歌表示,这些音频片段与任何个人身份信息无关,而且音频是失真的。
你会选择什么实际上,智能音箱与数据隐私之间其实有一个很大的冲突点:
足够好的个性化推荐需要更多细节性数据的支撑;而用户隐私数据暴露给机器,则会让用户感到困扰和恐慌。
如果是你,你会选择以牺牲一些个人数据为代价换取更好的个性化推荐体验,还是更倾向于保护自己的个人数据放弃一些功能效果的实现?