通过机器学习在威士忌评论中寻找共同语言_威士忌123

当人们阅读在线发表的威士忌评论时，包括我们的，您会注意到大量独特的描述被用于品酒笔记。烟雾、煤尘、优质皮革、深色浆果和咖啡渣等是一些有时使用的异国情调词选择的典型代表。

在这些描述中寻找意义并理解这些描述是区分威士忌鉴赏家辩论的核心。但即使对于不那么挑剔的人来说，所有这些词在调查一瓶价值 130 美元的波本威士忌的味道和价值时也会令人困惑——而 55 美元的类似替代品就可以了。

为此，弗吉尼亚理工大学“食品科学与技术系研究人员 Jacob Lahne 和 Leah Hamilton 以及大学图书馆的数据顾问 Chreston Miller 和 Michael Stamper 的一项研究项目……[将]……创建一个工具来寻找共同语言在一个包含 6,500 篇已发表的威士忌评论的数据集中，每篇评论大约 50 到 100 个单词。”

像这样品尝一组威士忌会导致各种评论描述。（图片版权 The Whisky Wash）

据该大学称，该团队“正在应用自然语言处理 (NLP)，这是语言学、计算机科学、信息工程和人工智能的一个子领域，涉及编程计算机来处理和分析大量自然语言数据——威士忌描述符。

“与传统的耗时且昂贵的手动文本分析过程相比，这种数据科学技术为研究人员提供了分析更多数据的机会。据项目团队称，之前没有尝试将这种 NLP 方法应用于感官评估目的。”

“我们不知道还有其他人试图接受这些评论，这些评论是描述性但混乱的自然语言，并以这种方式系统地分析它们。威士忌的一大好处是它的发烧友市场，”Lahne在一份准备好的声明中说。“人们非常关心品味。威士忌的生死取决于感官知觉。这些评论是隐喻的、凌乱的、自然的语言。我们想要达到的是一些关于品味的共同概念。”

汉密尔顿说，他们甚至可以将使用的描述词、生产过程和酒的地理来源联系起来。

“这个工具将分析自由回应的评论，并确定哪些词描述了风味，并将它们与非描述性的词区分开来，”他指出。“它还将识别哪些词是相关的并描述相同的味道。这最终将有助于那些可能想要购买接近高价威士忌但更实惠的产品的消费者。”

“具有深度学习的工具具有价值，它是机器学习的一个子集，”米勒补充道。“深度学习是一种机器学习技术，它使用深度神经网络技术，基于大脑中神经元的功能，自动学习数据的特征，然后帮助识别。通过训练该工具，我们能够梳理更多信息并比人类更快速有效地理解它。如果我们投入足够的数据，这些特性就会被淡化。这是一个蓬勃发展的研究领域，而且非常令人兴奋。”

当团队定义了共同语言时，有人指出，“他们会将数据传递给 Stamper、信息可视化和交互设计师，以创建用户故事、流程和界面，受众将用于与之交互，并绘制洞察力和来自数据的意义。”

“我们将定义我们的目标受众并构建一个界面来传达数据。我们可以使用可视化来了解如何更深入地挖掘信息，”Stamper 说。“数据非常丰富，我们能够整合的可视化类型可以包括网络、地理空间和时间——它只是弄清楚什么最适合使数据中的信息对那些有兴趣看到的人有意义并与之互动。”

在为期一年的过程完成后，该团队将期待未来的研究可以建立在“他们已经开始的这种新颖方法”的基础上。

“在某些时候，我们可能会像描述颜色一样描述味道；它将被标准化，”汉密尔顿说。“这是朝着这个方向迈出的重要一步。”