25 / 08 / 26

Tana语音输入问题解决与优化方法

语音输入的问题

语音输入有时候很方便，但是也常常出现一些问题，我试过很多语音输入的软件，例如：Tana，Heptabase, Wispr Flow, Voicenotes, Flomo等等，有些表的好一些，有些表现差一些，但是通常会出现几个方面的问题。

中文输入时，文字间隔不一致。
中文输入时，标点符号丢失，或者不准确。
简体中文和繁体中文互相切换。
英语单词和中文词汇不能混合显示，有时候会出现格式不对，或者自行翻译英文。

出现这些问题时，通常需要一定时间去整理，虽然其他LLMs可以处理这个问题，但是切换窗口，多步操作。如此以来，语音节约的时间被反复调整而挥霍掉了。如果不能解决这些问题，还不如直接键盘输入。

Tana的例子

在Tana中，我在supertag “voice note”下，手机端语音输入，但是显示出来的效果包含了上述几个方面。如下图：

后来，我想到Tana中有AI Agent的功能，可以设置AI button来处理这种问题。

下面是我采取的方法：

第一步：我在voice note这个supertag下，点击Configure Tag。如下：

然后在AI and commands的栏目里拉到最下端，在Full Menu的框中设置“整理录音”按钮。

首先建立Ask AI的configuration，然后再建立四个栏目，分别如下：

最关键的Prompt如上，只是简单的一些提示词要求，但是已经能满足我的整理要求。
在Insert output strategy上，我更喜欢sibling，这样输出的内容就可以单独再起一行node，而非as child的在之前的node之下，因为之前凌乱的node我之后会删除掉。
在AI model上，可以自行选择，以前我喜欢Claude的模型，现在不知道为什么没有了，我就选择了GPT-5。
Temperature的话，大于0.8，会有一些随机输出，这个不是我希望的，所以调节在0.7就可以了，保证输出的稳定性。

建立了这个AI button，每次只需要在supertag后面点击，就单独形成一个比较好的版本，还是比较节约时间的。你也可以把这个“整理录音”的按钮，复制粘贴到任何你喜欢的supertag的configuration的Full Menu下，不用每次在不同的supertag下都建立这个AI Agent，避免重复劳动，每个AI Agent就相当于一个单独的模块，可以在不同的supertag下调用。

效果如下图，我对比后，感觉不错。

最后

相比起一些其他PKM软件，把AI功能单独使用，Tana的这种嵌入式AI的笔记软件，自定义的功能比较灵活，或许这个就是为什么我喜欢Tana的原因吧。确实有时候学习曲线比较陡峭，随着一步步的技能积累，慢慢驾驭好它赋予的功能，也有一种满足感。每次尝试不同笔记软件的时候，我还是比较喜欢多提取他们的优点，每个优点背后，肯定包含着一种解决思路和思维模式，这背后的原则，是最让人着迷的。

工具箱