恢复单词数组中缺失的元音

发布时间:2021-02-25 06:37

我有一系列项目描述,其中许多已经从某些单词中删除了一些元音。使用 javascript 替换它们的最佳方法是什么?

这里有很多关于如何去除元音的答案,但我找不到任何关于如何恢复元音的答案?

不要求完全准确,最好的猜测就足够了?

回答1

我不知道有任何现成的解决方案,但您可以轻松地自己训练神经网络。

这可以表述为一个序列标记问题。您需要用一个标志来标记序列中的每个字符,告诉该字符后应添加什么元音(或最终不添加)。

您可以轻松地为任务准备合成训练数据:只需获取任何英文文本,随机删除元音并即时生成基本事实标签。一个合适的架构是一个轻量级的双向 LSTM(我猜 64 个隐藏单元就足够了),上面有一个简单的分类器。

在 JavaScript 中使用模型的最简单方法是在 TensorFlow 中用 Python 训练模型,然后 convert the model TensorFlow.js