斯坦福畢業，用RL做Agent，華人創業團隊種子輪融資1200萬美元_創業|斯坦福|meta|創投圈

文章圖片

機器之心原創
作者：Youli

Pokee AI 公開測試版現已正式上線！

「哈嘍，可以聽到嗎？」北京時間上午 10 點，大洋彼岸的 Pokee.ai 創始人朱哲清接通了我們的連線電話，此刻他正位于美國西海岸，當地時間為前一日晚上 7 點。

用他的話說最近的狀態就是「忙」，非常忙。忙著發布 Agent 產品 Pokee AI 的公開測試版，忙著處理第一輪融資的各種后續事宜，忙著對核心 4 人組團隊「擴張」至 7 人，忙里偷閑在小紅書慶祝自己 29 歲生日，并在評論下認真回復網友提問……
「忙」，或許不是從最近開始的，往前數 200 多天，那時候也「忙」。忙著成立 Pokee.ai ，忙著與 100 多位投資人聊如何用強化學習模型構建 AI Agent ，忙著準備產品內測。
再往前數到 2017 年，依舊是「忙」。一邊忙著在斯坦福攻讀強化學習方向博士學位。一邊忙著在 Meta 工作，帶領團隊將強化學習落地到廣告競價、自動內容生成等業務，為公司帶來高額增收。
朱哲清似乎已經習慣了「忙」。可他說，創業雖然忙，但有了更多的時間去思考，這是一種全新的體驗……
創業是從去年 10 月開始的，公司名為 Pokee.ai ，取自「小口袋」之意，寓指做一個輕便、決策能力強、隨叫隨到解決問題的模型。公司整體定位是聚焦于開發一款交互式、個性化、高效的 AI Agent 。

但較之主流以 LLM 為核心的 AI Agent 構建方式， Pokee.ai 是以 RL 為核心，用朱哲清的話說，在 Pokee 的架構中， LLM 主要是充當人機交互界面，類似「 UI 層」，用以理解用戶意圖，而真正決策、執行任務的全都是基于 RL 結構完成。
但那是去年 10 月， OpenAI 還沒有發布 o1 ，將 RL 推向大眾， DeepSeek 也還沒有引起全球狂歡。
在與大多數的投資人聊的時候，他們都覺得 Pokee.ai 這個方向是天方夜譚…… 如今，它已經慢慢從「非共識」變成了「共識」，而 Pokee.ai 也邁進新階段。
最新消息， Pokee.ai 完成 1200 萬美元種子輪融資，由 Point72 Ventures 領投， Pokee AI 的公開測試版現已上線。
本周，在 Pokee 正式公測前，《機器之心》與朱哲清聊了聊，以下為對話內容：
機器之心：Pokee.ai 去年 10 月成立，如今產品正式公測、完成種子輪融資，這樣的節奏在你預期內嗎？
朱哲清：整體節奏比較快，去年 10 月 Pokee.AI 成立，從概念驗證，到通用 Agent 框架搭建，再到如今產品公測和融資宣布，其實也才 7 個多月。之前定的目標是，今年上半年最重要的是做完產品第一輪公測、拿到種子輪融資，現在全部完成，總體來說符合預期。
與 Meta 相比，節奏大概會快 4—5 倍，對我來說生活和工作節奏沒有太大變化，甚至有更多時間去思考。我之前工作時同步在讀博士，那時候特別忙，一周可能要工作 100 多個小時，現在還是 100 多個小時，但思考的時間變多了。
機器之心：你做的事情其實很少有人做，你印象中投資人問的最多的問題是什么？
朱哲清：剛開始和投資人聊的時候，總體感受就是他們不理解為什么要用一個跟別人不一樣的方式去做 Agent ，那時候 RL 又不火、DeepSeek 也沒出來。當我第一次跟投資人說我們最終想做的是讓一個 RL System 變成一個像通用操作系統一樣的東西時，他們都覺得這是天方夜譚。
機器之心：說到做 AI Agent 的初衷，你曾說 Pokee.AI 做的是「目標不是像人一樣完成任務，而是超過人類在某些任務中的策略選擇和規劃能力。」這是不是現在很火的 ASI 概念？
朱哲清：我覺得 ASI 與 AGI 的定義范疇其實很模糊，從某種意義上來說，我們可能已經實現了 ASI ，如果給你一個 100 萬 Token 的文章，人類要讀很久才能把它讀完，而模型只需要幾秒或幾十秒鐘就完成了，那從這個角度來說它已經 Super Human Intelligence 。
我們距離 Agent「ChatGPT 時刻」還有多遠？
機器之心：在你看來，一個通用 Agent 應該具備哪些特點？
朱哲清：一個通用 Agent 的核心能力在于，不管是在什么場景下，要解決什么問題，只要把 prompt 告訴它，它就可以把任務完成，而不需要事先去配置要用哪些工具。
我們的設想是，客戶給到一個 prompt ，說這是我要做的事情需求，這家公司或者開發者不需要處理，直接將 prompt「扔」給 Pokee ，Pokee 就根據 prompt 調用對應工具，把問題解決，將結果直接傳回給公司或開發者，之后后者可以把內容用更好的展現形式反饋會給客戶。
機器之心：可以理解為這是 AI Agent 的「ChatGPT 時刻」嗎？現在處于什么階段？
朱哲清：是的，這是一個完完全全不需要人為配置的 AI Agent ，也是我們的最終設想。現在的 AI Agent 需要的（工具）配置量很大，要匹配 MCP Server、找工具，而在 prompt 下面可以加的工具很有限，也不能拼命加，那總體的訓練量就很大。
機器之心：所以當時創業是因為看到這些局限性， Pokee.ai 是如何做的？
朱哲清：我們想做的就是如何能夠讓第三方開發者在幾乎不需要做任何開發的情況下完成 AI Agent 的搭建，不管是 No Code 還是 Low Code 。 No Code 是指 Pokee 直接跑一個 prompt ，得到工作流后，直接復制粘貼給無數個場景下面；Low Code ，是指別人通過我們的接口把他們想要解決的問題以 Prompt 形式傳過來，從而把問題解決了，也不用告訴我們要用什么工具。
機器之心：以 RL 為核心的 AI Agent 和以 LLM 為核心的 AI Agent 的差異性在哪里？
【斯坦福畢業，用RL做Agent，華人創業團隊種子輪融資1200萬美元】朱哲清：首先，當下的很多 LLM 也用強化學習，而我們做的強化學習模型的工具調用范圍和常規 LLM 模型的工具調用范圍不一樣，具體來說是動作空間 (Action Space) 的區別，就是 LLM 模型的動作空間只有 Token ，而強化學習模型的動作空間可能不是 Token ，是那些工具，直接通過工具本身的泛化性來完成對于 AI Agent 的搭建。
機器之心：在你對通用 Agent 的描述中，對 prompt 的要求很高，但似乎并不是每個人都會提問題，如何看待這一現象？
朱哲清：是的，現在用戶在使用 Pokee 的時候也會遇到這個問題，已經把 prompt 給你了，可為什么你寫出來的東西不是我想要的？關鍵就在于，用戶給的 prompt 可能并不是他們的真正意圖，想做的和說的是兩回事。
該如何理解意圖就叫做對齊（Alignment），這件事情非常難，因為沒有一個 Ground Truth ，每個人說話方式都不一樣。如果真的想要找到 Ground Truth ，說用戶一定指的是這件事情，那必須要通過和這個人的長期 Memory 聯系起來才能夠找到。
如果我來評判這條路徑上該怎么走，就是先要能夠解決問題，之后把用戶的非訓練數據進行個性化（personalization），然后要去理解、對齊。大概就是三步走 —— 決策能力、對于 Memory 的 personalization、Alignment 。
機器之心：能否舉例說一下？
朱哲清：比如之前投資人在試用我們產品時，寫了一個 Prompt—— 能不能幫我 draft 一個 LinkedIn Post？那這個「draft」的意思到底是「單純幫我寫好但不要發出去」還是「幫我寫好并直接發出去」？
要想了解他的真正意圖就需要去看過往給他的員工或者同事說這句話的時候，他會怎么說，以及后者的回復，通過他們之間的交互來確認他說「draft」的意思。這是很復雜的一件事情，需要非常個性化的 Memory 才能完成。
機器之心：那當前處于哪一步？
朱哲清：整個行業第一步都還沒做完，更別說二、三步了（笑）。
機器之心：基于此，該怎么做？
朱哲清：我覺得這是一個很有意義也非常前瞻的問題，但從商業化角度來說，這不是第一優先級，最先聚焦的應該是能不能解決問題？先把問題解決了，然后再往下探索能不能更好地理解（問題）。
機器之心：據了解， Pokee 的架構是，將小型 LLM 作為人機交互界面，類似「 UI 層」，用于理解用戶意圖，而真正決策、執行任務的全部基于強化學習結構來完成。基于這一理解，其實你們對于 prompt 的要求很高？
朱哲清：對，這就復雜得多了，所以我一直說， LLM 做得越好，我們就能做得越好。雖然我們是將 RL 而非 LLM 作為 AI Agent 核心，但我們與 LLM 并非競爭關系，如果純語言方向不能變得更好，我們也會有瓶頸，根本無法完全完整地理解用戶到底要說什么。
創業，一個孤獨的漫長旅程
機器之心：從離開 Meta 開始創業到現在有大半年時間，你覺得工作和創業有什么區別，最大的感受是什么？
朱哲清：區別很大，期間也有過掙扎，但不是因為時間管理、勞累，而是創業本身是一條很模糊的路，或者說本來就沒有路，你想走成什么樣，它就是什么路。作為公司 CEO ，看似有很大的話語權，你說要往哪走就往哪走，但實際上能做的決策數量有限，要對公司、大家負責。
在大公司不一樣，可以做無數次決策，甚至可以換組，這個東西做不下去就換個方向。
機器之心：據了解，團隊從成立到今年 4、5 月份一直是四人核心配置，現在有多少人？有沒有考慮擴張？
朱哲清：目前團隊有 7 個人，接下來還會招兩三個人，但是大概率在收入規模擴大前不會將團隊配置超過 10 個人。
機器之心：所以也可以說 AI 時代的創業更為「輕量級」？
朱哲清：是的， AI 時代，模型、產品打磨各方面其實用不了很多人，人多了，反而做事情會躡手躡腳。
機器之心：你們辦公室位于哪里？日常工作狀態是怎樣的？
朱哲清：我們沒有辦公室。
機器之心：那平時開會也是線上？
朱哲清：全部線上，因為有人在西雅圖，有人在灣區，還有人在新加坡，都不在一起。另外我們都是 Meta 出身，習慣了遠程辦公，即便沒有辦公室，效率也挺高，而且還能兼顧生活。現在，我們每天線上開一個會，要做什么，大家一起討論決定。