日韩电影一区,一级a毛片免费观看久久精品,亚洲人成网站日本片,亚洲精品亚洲人成在线观看麻豆

<s id="gk0e4"></s>

<nav id="gk0e4"><center id="gk0e4"></center></nav>

<tfoot id="gk0e4"><optgroup id="gk0e4"></optgroup></tfoot>

當(dāng)前位置: 首頁 > 培訓(xùn)動態(tài) > 編程資訊 > 新聞內(nèi)容

語言模型擅長預(yù)測嗎？

編輯：哈爾濱童程童美少兒編程培訓(xùn)南崗校區(qū) 更新時間：2025/02/13 14:16

童程童美少兒編程教育是一所注重經(jīng)濟(jì)實(shí)惠、透明宣傳、師資專業(yè)、環(huán)境創(chuàng)新和多地校區(qū)設(shè)置的學(xué)府。學(xué)費(fèi)靈活，一年10000-25000元，平均每堂課200-300元，為家庭提供經(jīng)濟(jì)實(shí)惠的編程教育。通過網(wǎng)上公示機(jī)構(gòu)信息，透明化宣傳，構(gòu)建了學(xué)校與家長之間的信任基礎(chǔ)。師資團(tuán)隊(duì)經(jīng)驗(yàn)豐富，致力培養(yǎng)學(xué)生的創(chuàng)新思維和問題解決能力。學(xué)校教室設(shè)計(jì)充滿創(chuàng)意，提供積極向上的學(xué)習(xí)氛圍，激發(fā)學(xué)生的無限創(chuàng)意。多地校區(qū)設(shè)置，方便學(xué)生就近學(xué)習(xí)，貼近家庭生活。提供多樣化教學(xué)項(xiàng)目，適應(yīng)不同學(xué)生的需求，以學(xué)生成績和學(xué)習(xí)效果為導(dǎo)向，不斷優(yōu)化教學(xué)模式。積極收集學(xué)員家長的反饋，確保學(xué)費(fèi)調(diào)整靈活應(yīng)對不同家庭的需求。這些努力讓童程童美少兒編程教育贏得了學(xué)員家長的高度評價和信賴。

為了獲得這個問題的粗略答案，我們從 Manifold 市場收集了 5000 個問題，這些問題在 GPT-4 當(dāng)前的知識截止日期（2022 年 1 月 1 日）后得到解決。我們將每個問題的文本以及以下說明提供給 GPT-4：

您是一位超級預(yù)測，熟悉泰洛克和其他人的工作。對于以下 json 塊中的每個問題，預(yù)測該問題得到解決的概率。

您還必須確定問題的類別。一些例子包括：體育、美國政治、科學(xué)等。使用 make_predictions 函數(shù)來記錄您的決定。在所有情況下，您必須給出 0 到 1 之間的概率估計(jì)。如果由于某種原因您無法回答，請選擇基本費(fèi)率，但返回 0 到 1 之間的數(shù)字。

回想起來，也許我們已經(jīng)過濾了這些。許多問題對于我們的目的來說有點(diǎn)愚蠢，盡管它們通常被分類為“測試”、“未分類”或“個人”。

這個好嗎？

衡量你是否擅長預(yù)測事物的一種方法是檢查你的校準(zhǔn)：當(dāng)你說某件事有 30% 的概率時，它實(shí)際上有 30% 的時間發(fā)生嗎？

要檢查這一點(diǎn)，您需要做出大量預(yù)測。然后你將所有 30% 的預(yù)測放在一起，看看其中有多少發(fā)生了。

從較高層面來看，這意味著 GPT-4 過于自信。當(dāng)它說某件事發(fā)生的可能性只有 20% 時，實(shí)際上發(fā)生的概率約為 35-40%。當(dāng)它說某件事有 80% 的可能性發(fā)生時，它只發(fā)生大約 60-75% 的時間。

這取決于地區(qū)嗎？

我們可以為 16 個類別中的每一個類別繪制相同的圖。（請記住，這些類別是由 GPT-4 決定的，盡管從抽查來看，它們看起來很準(zhǔn)確。）由于不清楚的原因，GPT-4 對于體育問題進(jìn)行了良好的校準(zhǔn)，但對于“個人”問題進(jìn)行了可怕的校準(zhǔn)：

所有線條看起來都有點(diǎn)嘈雜，因?yàn)榭偣灿?20 × 4 × 4 = 320 個 bin，而總共只有 5000 個觀測值。

生活中還有比校準(zhǔn)更重要的事情嗎？

假設(shè)你和我正在預(yù)測一枚公平的硬幣翻轉(zhuǎn)時正面朝上的結(jié)果。我總是預(yù)測 50%，而你總是預(yù)測 0% 或 100%，而且你總是對的。然后我們就都完美地校準(zhǔn)了。但顯然你的預(yù)測更好，因?yàn)槟愕念A(yù)測更有信心。

處理這個問題的典型方法是平方誤差，或“Brier 分?jǐn)?shù)”。為了計(jì)算這個結(jié)果，如果事情發(fā)生了，則實(shí)際結(jié)果為 1，如果沒有發(fā)生，則實(shí)際結(jié)果為 0。然后取概率與實(shí)際結(jié)果之間的平均平方差。例如：

GPT-4 給出了“SBF 會在美國東部時間 2022 年 12 月 31 日晚上 11:59 之前發(fā)布推文嗎？” 是的概率為 0.9。由于這確實(shí)發(fā)生了，因此對應(yīng)的分?jǐn)?shù)為 (0.9-1)² = 0.01。
GPT-4 給出了“Manifold 會顯示 9 月底市場傾斜的金額嗎？” 是的概率為 0.6。由于這種情況沒有發(fā)生，因此對應(yīng)的分?jǐn)?shù)為 (0.6-0)² = 0.36。

以下是每個類別的平均分?jǐn)?shù)（越低越好）：

或者，如果您愿意，您可以分解 Brier 分?jǐn)?shù)。有多種方法可以做到這一點(diǎn)，但我較喜歡的是Brier = Calibration + Refinement。非正式地說，校準(zhǔn)是上面的綠線與黑色虛線的接近程度，而細(xì)化是您的自信程度。（兩者越小越好。）

政治問題的布賴爾分?jǐn)?shù)比科學(xué)問題的分?jǐn)?shù)更高。但這是因?yàn)樗簧瞄L科學(xué)，還是僅僅因?yàn)榭茖W(xué)問題很難？

有一種方法可以進(jìn)一步分解 Brier 分?jǐn)?shù)。您可以將分辨率分解為細(xì)化 = 不確定性 - 分辨率。粗略地說， 不確定性是“問題有多難”，而分辨率是“考慮到校準(zhǔn)和不確定性后，你的信心有多大”。

以下是不同類別的不確定性：

這是每個類別的校準(zhǔn)和分辨率的散點(diǎn)圖：（由于分辨率越高越好，所以現(xiàn)在左上角包含更好的預(yù)測。）

總體而言，這種進(jìn)一步分解并沒有太大變化。這表明 GPT-4 確實(shí)更擅長對政治進(jìn)行預(yù)測，而不是對科學(xué)或技術(shù)進(jìn)行預(yù)測，即使考慮到問題的難度也是如此。

PS：不同Brier 分?jǐn)?shù)分解的相對優(yōu)點(diǎn)在這篇文章的制作過程中引起了驚人的內(nèi)部沖突。我不知道我會對平凡的技術(shù)選擇有如此強(qiáng)烈的感受。我想我現(xiàn)在有了一個令人興奮的新敵人類別。

本頁面由主體*哈爾濱童程童美少兒編程培訓(xùn)南崗校區(qū)*自行上傳,本網(wǎng)不對該頁面內(nèi)容（包括但不限于文字、圖片）真實(shí)性和知識產(chǎn)權(quán)負(fù)責(zé),如有侵權(quán)請聯(lián)系處理刪除qq:16720809 。

您可能感興趣的資源：

微信咨詢

微信掃碼，享更多好課

熱門資訊

關(guān)于我們 | 全國分站 | 城市合作 | 機(jī)構(gòu)合作 | 意見反饋 | 聯(lián)系我們 | 版權(quán)/投訴舉報(bào)

?2010-2019 培訓(xùn)通 , 蜀ICP備07505283號

欧美熟妇2| 久久亚洲国产视频| 2828我想操| 久久中文热热热| 中文精品久久| 狠狠色狠狠| 91日韩精品在线| 成人麻豆日韩在无码视频| 日本亚洲欧美二区三区| 91免费天堂| 日本不卡一区二区三区视频| 中文字幕日本乱码仑区在线 | 日本啪啪噜噜色| 国产精品二区三区无码| 久久夜色精品| 久久中文幕| 日韩av乱人伦| 国内揄拍国内精品少妇国语| 亚洲美腿丝袜二区| 五月丁香中文免费| 日韩精品无码一区二区三区久久久| 亚洲色图com| 91天天操夜夜操| 久久久中文一区| 妺妺窝人体色www在线| 大色站在线| 强干伦理视频一区二区| 夜夜高潮夜夜爽精品视频| 久久城人网| 日韩欧美成人黄| 亚洲天堂8| 欧美日韩午夜影院| 国产最新色视频999| 中文字幕无码视频手机免费看 | 熟妇色视频| AV天堂一区二区麻豆| 免费无码鲁丝片一区二区| 四虎影院无码在线观看| 日韩精品一区二区天堂| 文成县| 天天插天天操天天干|

<nav id="yy0si"><dd id="yy0si"></dd></nav>

<ul id="yy0si"><kbd id="yy0si"></kbd></ul>

<menu id="yy0si"><dd id="yy0si"></dd></menu>