[Translations] Add traditional chinese translations (#599)

* Add Traditional Chinese translation

* Add Traditional Chinese translation

* Add files via upload

* Add Traditional Chinese translation

* Add Traditional Chinese translation
This commit is contained in:
Theodore Cooper 2022-06-04 07:57:58 +08:00 коммит произвёл GitHub
Родитель 808c372914
Коммит 4742742519
Не найден ключ, соответствующий данной подписи
Идентификатор ключа GPG: 4AEE18F83AFDEB23
9 изменённых файлов: 598 добавлений и 0 удалений

Просмотреть файл

@ -0,0 +1,103 @@
# 機器學習介紹
[![機器學習,人工智能,深度學習-有什麽區別?](https://img.youtube.com/vi/lTd9RSxS9ZE/0.jpg)](https://youtu.be/lTd9RSxS9ZE "機器學習,人工智能,深度學習-有什麽區別?")
> 🎥 點擊上面的圖片觀看討論機器學習、人工智能和深度學習之間區別的視頻。
## [課前測驗](https://white-water-09ec41f0f.azurestaticapps.net/quiz/1/)
### 介紹
歡迎來到這個經典機器學習的初學者課程!無論你是這個主題的新手,還是一個有經驗的 ML 從業者,我們都很高興你能加入我們!我們希望為你的 ML 研究創建一個好的開始,並很樂意評估、回應和接受你的[反饋](https://github.com/microsoft/ML-For-Beginners/discussions)。
[![機器學習簡介](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introduction to ML")
> 🎥 單擊上圖觀看視頻:麻省理工學院的 John Guttag 介紹機器學習
### 機器學習入門
在開始本課程之前,你需要設置計算機能在本地運行 Jupyter Notebooks。
- **按照這些視頻裏的講解配置你的計算機**。了解有關如何在此[視頻集](https://www.youtube.com/playlist?list=PLlrxD0HtieHhS8VzuMCfQD4uJ9yne1mE6)中設置計算機的更多信息。
- **學習 Python**。 還建議你對 [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-15963-cxa) 有一個基本的了解。這是我們在本課程中使用的一種對數據科學家有用的編程語言。
- **學習 Node.js 和 JavaScript**。在本課程中,我們在構建 web 應用程序時也使用過幾次 JavaScript因此你需要有 [Node.js](https://nodejs.org) 和 [npm](https://www.npmjs.com/) 以及 [Visual Studio Code](https://code.visualstudio.com/) 用於 Python 和 JavaScript 開發。
- **創建 GitHub 帳戶**。既然你在 [GitHub](https://github.com) 上找到我們,你可能已經有了一個帳戶,但如果沒有,請創建一個帳戶,然後 fork 此課程自己使用(也給我們一顆星星吧😊)
- **探索 Scikit-learn**. 熟悉 [Scikit-learn]([https://scikit-learn.org/stable/user_guide.html),我們在這些課程中引用的一組 ML 庫。
### 什麽是機器學習?
術語「機器學習」是當今最流行和最常用的術語之一。 如果你對科技有某種程度的熟悉,那麽很可能你至少聽說過這個術語一次,無論你在哪個領域工作。然而,機器學習的機製對大多數人來說是一個謎。 對於機器學習初學者來說,這個主題有時會讓人感到不知所措。 因此,了解機器學習的實質是什麽,並通過實例一步一步地了解機器學習是很重要的。
![機器學習趨勢曲線](../images/hype.png)
> 谷歌趨勢顯示了「機器學習」一詞最近的「趨勢曲線」
我們生活在一個充滿迷人奧秘的宇宙中。像史蒂芬·霍金、阿爾伯特·愛因斯坦等偉大的科學家,以及更多的人,都致力於尋找有意義的信息,揭示我們周圍世界的奧秘。這就是人類學習的條件:一個人類的孩子在長大成人的過程中,一年又一年地學習新事物並揭示世界的結構。
孩子的大腦和感官感知到周圍的事實,並逐漸學習隱藏的生活模式,這有助於孩子製定邏輯規則來識別學習模式。人類大腦的學習過程使人類成為世界上最復雜的生物。不斷地學習,通過發現隱藏的模式,然後對這些模式進行創新,使我們能夠使自己在一生中變得越來越好。這種學習能力和進化能力與一個叫做[大腦可塑性](https://www.simplypsychology.org/brain-plasticity.html)的概念有關。從表面上看,我們可以在人腦的學習過程和機器學習的概念之間找到一些動機上的相似之處。
[人腦](https://www.livescience.com/29365-human-brain.html) 從現實世界中感知事物,處理感知到的信息,做出理性的決定,並根據環境執行某些行動。這就是我們所說的智能行為。當我們將智能行為過程的復製品編程到計算機上時,它被稱為人工智能 (AI)。
盡管這些術語可能會混淆,但機器學習 (ML) 是人工智能的一個重要子集。 **機器學習關註使用專門的算法來發現有意義的信息,並從感知數據中找到隱藏的模式,以證實理性的決策過程**
![人工智能、機器學習、深度學習、數據科學](../images/ai-ml-ds.png)
> 顯示 AI、ML、深度學習和數據科學之間關系的圖表。圖片作者 [Jen Looper](https://twitter.com/jenlooper),靈感來自[這張圖](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining)
## 你將在本課程中學到什麽
在本課程中,我們將僅涵蓋初學者必須了解的機器學習的核心概念。 我們主要使用 Scikit-learn 來介紹我們所謂的「經典機器學習」,這是一個許多學生用來學習基礎知識的優秀庫。要理解更廣泛的人工智能或深度學習的概念,機器學習的基礎知識是必不可少的,所以我們想在這裏提供它。
在本課程中,你將學習:
- 機器學習的核心概念
- 機器學習的歷史
- 機器學習和公平性
- 回歸
- 分類
- 聚類
- 自然語言處理
- 時序預測
- 強化學習
- 機器學習的實際應用
## 我們不會涵蓋的內容
- 深度學習
- 神經網絡
- AI
為了獲得更好的學習體驗,我們將避免神經網絡、「深度學習」(使用神經網絡的多層模型構建)和人工智能的復雜性,我們將在不同的課程中討論這些問題。 我們還將提供即將推出的數據科學課程,以專註於這個更大領域的這一方面。
## 為什麽要學習機器學習?
從系統的角度來看,機器學習被定義為創建可以從數據中學習隱藏模式以幫助做出智能決策的自動化系統。
這種動機大致是受人腦如何根據它從外部世界感知到的數據來學習某些東西的啟發。
✅ 想一想為什麽企業想要嘗試使用機器學習策略而不是創建基於硬編碼的規則引擎。
### 機器學習的應用
機器學習的應用現在幾乎無處不在,就像我們的智能手機、互聯設備和其他系統產生的數據一樣無處不在。考慮到最先進的機器學習算法的巨大潛力,研究人員一直在探索其解決多維多學科現實問題的能力,並取得了巨大的積極成果。
**你可以在很多方面使用機器學習**:
- 根據病人的病史或報告來預測患病的可能性。
- 利用天氣數據預測天氣。
- 理解文本的情感。
- 檢測假新聞以阻止其傳播。
金融、經濟學、地球科學、太空探索、生物醫學工程、認知科學,甚至人文學科領域都采用機器學習來解決其領域中艱巨的、數據處理繁重的問題。
機器學習通過從真實世界或生成的數據中發現有意義的見解,自動化了模式發現的過程。事實證明,它在商業、健康和金融應用等方面具有很高的價值。
在不久的將來,由於機器學習的廣泛應用,了解機器學習的基礎知識將成為任何領域的人們的必修課。
---
## 🚀 挑戰
在紙上或使用 [Excalidraw](https://excalidraw.com/) 等在線應用程序繪製草圖,了解你對 AI、ML、深度學習和數據科學之間差異的理解。添加一些關於這些技術擅長解決的問題的想法。
## [閱讀後測驗](https://white-water-09ec41f0f.azurestaticapps.net/quiz/2/)
## 復習與自學
要了解有關如何在雲中使用 ML 算法的更多信息,請遵循以下[學習路徑](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-15963-cxa)。
## 任務
[啟動並運行](assignment.zh-tw.md)

Просмотреть файл

@ -0,0 +1,9 @@
# 啟動和運行
## 說明
在這個不評分的作業中,你應該溫習一下 Python將 Python 環境能夠運行起來,並且可以運行 notebooks。
學習這個 [Python 學習路徑](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-15963-cxa),然後通過這些介紹性的視頻將你的系統環境設置好:
https://www.youtube.com/playlist?list=PLlrxD0HtieHhS8VzuMCfQD4uJ9yne1mE6

Просмотреть файл

@ -0,0 +1,110 @@
# 機器學習的歷史
![機器學習歷史概述](../../../sketchnotes/ml-history.png)
> 作者 [Tomomi Imura](https://www.twitter.com/girlie_mac)
## [課前測驗](https://white-water-09ec41f0f.azurestaticapps.net/quiz/3/)
在本課中,我們將走過機器學習和人工智能歷史上的主要裏程碑。
人工智能AI作為一個領域的歷史與機器學習的歷史交織在一起因為支持機器學習的算法和計算能力的進步推動了AI的發展。記住雖然這些領域作為不同研究領域在 20 世紀 50 年代才開始具體化,但重要的[算法、統計、數學、計算和技術發現](https://wikipedia.org/wiki/Timeline_of_machine_learning) 要早於和重疊了這個時代。 事實上,[數百年來](https://wikipedia.org/wiki/History_of_artificial_intelligence)人們一直在思考這些問題:本文討論了「思維機器」這一概念的歷史知識基礎。
## 主要發現
- 1763, 1812 [貝葉斯定理](https://wikipedia.org/wiki/Bayes%27_theorem) 及其前身。該定理及其應用是推理的基礎,描述了基於先驗知識的事件發生的概率。
- 1805 [最小二乘理論](https://wikipedia.org/wiki/Least_squares)由法國數學家 Adrien-Marie Legendre 提出。 你將在我們的回歸單元中了解這一理論,它有助於數據擬合。
- 1913 [馬爾可夫鏈](https://wikipedia.org/wiki/Markov_chain)以俄羅斯數學家 Andrey Markov 的名字命名,用於描述基於先前狀態的一系列可能事件。
- 1957 [感知器](https://wikipedia.org/wiki/Perceptron)是美國心理學家 Frank Rosenblatt 發明的一種線性分類器,是深度學習發展的基礎。
- 1967 [最近鄰](https://wikipedia.org/wiki/Nearest_neighbor)是一種最初設計用於映射路線的算法。 在 ML 中,它用於檢測模式。
- 1970 [反向傳播](https://wikipedia.org/wiki/Backpropagation)用於訓練[前饋神經網絡](https://wikipedia.org/wiki/Feedforward_neural_network)。
- 1982 [循環神經網絡](https://wikipedia.org/wiki/Recurrent_neural_network) 是源自產生時間圖的前饋神經網絡的人工神經網絡。
✅ 做點調查。在 ML 和 AI 的歷史上,還有哪些日期是重要的?
## 1950: 會思考的機器
Alan Turing一個真正傑出的人[在 2019 年被公眾投票選出](https://wikipedia.org/wiki/Icons:_The_Greatest_Person_of_the_20th_Century) 作為 20 世紀最偉大的科學家,他認為有助於為「會思考的機器」的概念打下基礎。他通過創建 [圖靈測試](https://www.bbc.com/news/technology-18475646)來解決反對者和他自己對這一概念的經驗證據的需求,你將在我們的 NLP 課程中進行探索。
## 1956: 達特茅斯夏季研究項目
「達特茅斯夏季人工智能研究項目是人工智能領域的一個開創性事件,」正是在這裏,人們創造了「人工智能」一詞([來源](https://250.dartmouth.edu/highlights/artificial-intelligence-ai-coined-dartmouth))。
> 原則上,學習的每個方面或智能的任何其他特征都可以被精確地描述,以至於可以用機器來模擬它。
首席研究員、數學教授 John McCarthy 希望「基於這樣一種猜想,即學習的每個方面或智能的任何其他特征原則上都可以如此精確地描述,以至於可以製造出一臺機器來模擬它。」 參與者包括該領域的另一位傑出人物 Marvin Minsky。
研討會被認為發起並鼓勵了一些討論,包括「符號方法的興起、專註於有限領域的系統(早期專家系統),以及演繹系統與歸納系統的對比。」([來源](https://wikipedia.org/wiki/Dartmouth_workshop))。
## 1956 - 1974: 「黃金歲月」
從 20 世紀 50 年代到 70 年代中期樂觀情緒高漲希望人工智能能夠解決許多問題。1967 年Marvin Minsky 自信地說,「一代人之內...創造『人工智能』的問題將得到實質性的解決。」MinskyMarvin1967《計算有限和無限機器》新澤西州恩格伍德克利夫斯Prentice Hall
自然語言處理研究蓬勃發展,搜索被提煉並變得更加強大,創造了「微觀世界」的概念,在這個概念中,簡單的任務是用簡單的語言指令完成的。
這項研究得到了政府機構的充分資助,在計算和算法方面取得了進展,並建造了智能機器的原型。其中一些機器包括:
* [機器人 Shakey](https://wikipedia.org/wiki/Shakey_the_robot),他們可以「聰明地」操縱和決定如何執行任務。
![Shakey, 智能機器人](../images/shakey.jpg)
> 1972 年的 Shakey
* Eliza一個早期的「聊天機器人」可以與人交談並充當原始的「治療師」。 你將在 NLP 課程中了解有關 Eliza 的更多信息。
![Eliza, 機器人](../images/eliza.png)
> Eliza 的一個版本,一個聊天機器人
* 「積木世界」是一個微觀世界的例子,在那裏積木可以堆疊和分類,並且可以測試教機器做出決策的實驗。 使用 [SHRDLU](https://wikipedia.org/wiki/SHRDLU) 等庫構建的高級功能有助於推動語言處理向前發展。
[![積木世界與 SHRDLU](https://img.youtube.com/vi/QAJz4YKUwqw/0.jpg)](https://www.youtube.com/watch?v=QAJz4YKUwqw "積木世界與SHRDLU")
> 🎥 點擊上圖觀看視頻: 積木世界與 SHRDLU
## 1974 - 1980: AI 的寒冬
到了 20 世紀 70 年代中期,很明顯製造「智能機器」的復雜性被低估了,而且考慮到可用的計算能力,它的前景被誇大了。資金枯竭,市場信心放緩。影響信心的一些問題包括:
- **限製**。計算能力太有限了
- **組合爆炸**。隨著對計算機的要求越來越高,需要訓練的參數數量呈指數級增長,而計算能力卻沒有平行發展。
- **缺乏數據**。 缺乏數據阻礙了測試、開發和改進算法的過程。
- **我們是否在問正確的問題?**。 被問到的問題也開始受到質疑。 研究人員開始對他們的方法提出批評:
- 圖靈測試受到質疑的方法之一是「中國房間理論」,該理論認為,「對數字計算機進行編程可能使其看起來能理解語言,但不能產生真正的理解。」 ([來源](https://plato.stanford.edu/entries/chinese-room/))
- 將「治療師」ELIZA 這樣的人工智能引入社會的倫理受到了挑戰。
與此同時,各種人工智能學派開始形成。 在 [「scruffy」 與 「neat AI」](https://wikipedia.org/wiki/Neats_and_scruffies) 之間建立了二分法。 _Scruffy_ 實驗室對程序進行了數小時的調整,直到獲得所需的結果。 _Neat_ 實驗室「專註於邏輯和形式問題的解決」。 ELIZA 和 SHRDLU 是眾所周知的 _scruffy_ 系統。 在 1980 年代,隨著使 ML 系統可重現的需求出現_neat_ 方法逐漸走上前沿,因為其結果更易於解釋。
## 1980s 專家系統
隨著這個領域的發展,它對商業的好處變得越來越明顯,在 20 世紀 80 年代,『專家系統』也開始廣泛流行起來。「專家系統是首批真正成功的人工智能 (AI) 軟件形式之一。」 [來源](https://wikipedia.org/wiki/Expert_system))。
這種類型的系統實際上是混合系統,部分由定義業務需求的規則引擎和利用規則系統推斷新事實的推理引擎組成。
在這個時代,神經網絡也越來越受到重視。
## 1987 - 1993: AI 的冷靜期
專業的專家系統硬件的激增造成了過於專業化的不幸後果。個人電腦的興起也與這些大型、專業化、集中化系統展開了競爭。計算機的平民化已經開始,它最終為大數據的現代爆炸鋪平了道路。
## 1993 - 2011
這個時代見證了一個新的時代ML 和 AI 能夠解決早期由於缺乏數據和計算能力而導致的一些問題。數據量開始迅速增加,變得越來越廣泛,無論好壞,尤其是 2007 年左右智能手機的出現,計算能力呈指數級增長,算法也隨之發展。這個領域開始變得成熟,因為過去那些隨心所欲的日子開始具體化為一種真正的紀律。
## 現在
今天,機器學習和人工智能幾乎觸及我們生活的每一個部分。這個時代要求仔細了解這些算法對人類生活的風險和潛在影響。正如微軟的 Brad Smith 所言,「信息技術引發的問題觸及隱私和言論自由等基本人權保護的核心。這些問題加重了製造這些產品的科技公司的責任。在我們看來,它們還呼籲政府進行深思熟慮的監管,並圍繞可接受的用途製定規範」([來源](https://www.technologyreview.com/2019/12/18/102365/the-future-of-ais-impact-on-society/))。
未來的情況還有待觀察,但了解這些計算機系統以及它們運行的軟件和算法是很重要的。我們希望這門課程能幫助你更好的理解,以便你自己決定。
[![深度學習的歷史](https://img.youtube.com/vi/mTtDfKgLm54/0.jpg)](https://www.youtube.com/watch?v=mTtDfKgLm54 "深度學習的歷史")
> 🎥 點擊上圖觀看視頻Yann LeCun 在本次講座中討論深度學習的歷史
---
## 🚀挑戰
深入了解這些歷史時刻之一,並更多地了解它們背後的人。這裏有許多引人入勝的人物,沒有一項科學發現是在文化真空中創造出來的。你發現了什麽?
## [課後測驗](https://white-water-09ec41f0f.azurestaticapps.net/quiz/4/)
## 復習與自學
以下是要觀看和收聽的節目:
[這是 Amy Boyd 討論人工智能進化的播客](http://runasradio.com/Shows/Show/739)
[![Amy Boyd的《人工智能史》](https://img.youtube.com/vi/EJt3_bFYKss/0.jpg)](https://www.youtube.com/watch?v=EJt3_bFYKss "Amy Boyd的《人工智能史》")
## 任務
[創建時間線](assignment.zh-tw.md)

Просмотреть файл

@ -0,0 +1,12 @@
# 建立一個時間軸
## 說明
使用這個 [倉庫](https://github.com/Digital-Humanities-Toolkit/timeline-builder),創建一個關於算法、數學、統計學、人工智能、機器學習的某個方面或者可以綜合多個以上學科來講。你可以著重介紹某個人,某個想法,或者一個經久不衰的思想。請確保添加了多媒體元素在你的時間線中。
## 評判標準
| 標準 | 優秀 | 中規中矩 | 仍需努力 |
| ------------ | ---------------------------------- | ---------------------- | ------------------------------------------ |
| | 有一個用 GitHub page 展示的 timeline | 代碼還不完整並且沒有部署 | 時間線不完整,沒有經過充分的研究,並且沒有部署 |

Просмотреть файл

@ -0,0 +1,209 @@
# 機器學習中的公平性
![機器學習中的公平性概述](../../../sketchnotes/ml-fairness.png)
> 作者 [Tomomi Imura](https://www.twitter.com/girlie_mac)
## [課前測驗](https://white-water-09ec41f0f.azurestaticapps.net/quiz/5/)
## 介紹
在本課程中,你將開始了解機器學習如何影響我們的日常生活。截至目前,系統和模型已經參與到日常決策任務中,例如醫療診斷或發現欺詐。因此,這些模型運行良好,並為每個人提供公平的結果非常重要。
想象一下,當你用於構建這些模型的數據缺少某些人口統計信息時會發生什麽情況,例如種族、性別、政治觀點、宗教,或者不成比例地代表了這些人口統計信息。當模型的輸出被解釋為有利於某些人口統計學的時候呢?申請結果如何?
在本課中,你將:
- 提高你對機器學習中公平的重要性的認識。
- 了解公平相關的危害。
- 了解不公平評估和緩解措施。
## 先決條件
作為先決條件,請選擇「負責任的人工智能原則」學習路徑並觀看以下主題視頻:
按照此[學習路徑](https://docs.microsoft.com/learn/modules/responsible-ai-principles/?WT.mc_id=academic-15963-cxa)了解有關負責任 AI 的更多信息
[![微軟對負責任人工智能的做法](https://img.youtube.com/vi/dnC8-uUZXSc/0.jpg)](https://youtu.be/dnC8-uUZXSc "微軟對負責任人工智能的做法")
> 🎥 點擊上圖觀看視頻:微軟對負責任人工智能的做法
## 數據和算法的不公平性
> 「如果你折磨數據足夠長的時間,它會坦白一切」 - Ronald Coase
這種說法聽起來很極端,但數據確實可以被操縱以支持任何結論。這種操縱有時可能是無意中發生的。作為人類,我們都有偏見,當你在數據中引入偏見時,往往很難有意識地知道。
保證人工智能和機器學習的公平性仍然是一項復雜的社會技術挑戰。這意味著它不能從純粹的社會或技術角度來解決。
### 與公平相關的危害
你說的不公平是什麽意思?「不公平」包括對一群人的負面影響或「傷害」,例如根據種族、性別、年齡或殘疾狀況定義的那些人。
與公平相關的主要危害可分為:
- **分配**,如果一個性別或種族比另一個更受青睞。
- **服務質量**。 如果你針對一種特定場景訓練數據,但實際情況要復雜得多,則會導致服務性能不佳。
- **刻板印象**。 將給定的組與預先分配的屬性相關聯。
- **詆毀**。 不公平地批評和標記某事或某人。
- **代表性過高或過低**。這種想法是,某個群體在某個行業中不被看到,而這個行業一直在提升,這是造成傷害的原因。
讓我們來看看這些例子。
### 分配
考慮一個用於篩選貸款申請的假設系統。該系統傾向於選擇白人男性作為比其他群體更好的候選人。因此,某些申請人的貸款被拒。
另一個例子是一家大型公司開發的一種實驗性招聘工具,用於篩選應聘者。通過使用這些模型,該工具系統地歧視了一種性別,並被訓練為更喜歡與另一種性別相關的詞。這導致了對簡歷中含有「女子橄欖球隊」等字樣的候選人的不公正地對待。
✅ 做一點研究,找出一個真實的例子
### 服務質量
研究人員發現,與膚色較淺的男性相比,一些商業性的性別分類工具在膚色較深的女性圖像上的錯誤率更高。[參考](https://www.media.mit.edu/publications/gender-shades-intersectional-accuracy-disparities-in-commercial-gender-classification/)
另一個臭名昭著的例子是洗手液分配器,它似乎無法感知皮膚黝黑的人。[參考](https://gizmodo.com/why-cant-this-soap-dispenser-identify-dark-skin-1797931773)
### 刻板印象
機器翻譯中存在著刻板的性別觀。在將「他是護士她是醫生」翻譯成土耳其語時遇到了一些問題。土耳其語是一種無性別的語言它有一個代詞「o」來表示單數第三人稱但把這個句子從土耳其語翻譯成英語會產生「她是護士他是醫生」這樣的刻板印象和錯誤。
![翻譯成土耳其語](../images/gender-bias-translate-en-tr.png)
![翻譯成英語](../images/gender-bias-translate-tr-en.png)
### 詆毀
一種圖像標記技術,臭名昭著地將深色皮膚的人的圖像錯誤地標記為大猩猩。錯誤的標簽是有害的,不僅僅是因為這個系統犯了一個錯誤,而且它還特別使用了一個長期以來被故意用來詆毀黑人的標簽。
[![AI: 我不是女人嗎?](https://img.youtube.com/vi/QxuyfWoVV98/0.jpg)](https://www.youtube.com/watch?v=QxuyfWoVV98 "AI, 我不是女人嗎?")
> 🎥 點擊上圖觀看視頻AI我不是女人嗎 - 一場展示 AI 種族主義詆毀造成的傷害的表演
### 代表性過高或過低
有傾向性的圖像搜索結果就是一個很好的例子。在搜索男性比例等於或高於女性的職業的圖片時,比如工程或首席執行官,要註意那些更傾向於特定性別的結果。
![必應CEO搜索](../images/ceos.png)
> 在 Bing 上搜索「CEO」會得到非常全面的結果
這五種主要類型的危害不是相互排斥的,一個單一的系統可以表現出一種以上的危害。此外,每個案例的嚴重程度各不相同。例如,不公平地給某人貼上罪犯的標簽比給形象貼上錯誤的標簽要嚴重得多。然而,重要的是要記住,即使是相對不嚴重的傷害也會讓人感到疏遠或被孤立,累積的影響可能會非常壓抑。
**討論**:重溫一些例子,看看它們是否顯示出不同的危害。
| | 分配 | 服務質量 | 刻板印象 | 詆毀 | 代表性過高或過低 |
| ------------ | :---: | :------: | :------: | :---: | :--------------: |
| 自動招聘系統 | x | x | x | | x |
| 機器翻譯 | | | | | |
| 照片加標簽 | | | | | |
## 檢測不公平
給定系統行為不公平的原因有很多。例如,社會偏見可能會反映在用於訓練它們的數據集中。例如,過度依賴歷史數據可能會加劇招聘不公平。通過使用過去 10 年提交給公司的簡歷中的模式,該模型確定男性更合格,因為大多數簡歷來自男性,這反映了過去男性在整個科技行業的主導地位。
關於特定人群的數據不足可能是不公平的原因。例如,圖像分類器對於深膚色人的圖像具有較高的錯誤率,因為數據中沒有充分代表較深的膚色。
開發過程中做出的錯誤假設也會導致不公平。例如,旨在根據人臉圖像預測誰將犯罪的面部分析系統可能會導致破壞性假設。這可能會對錯誤分類的人造成重大傷害。
## 了解你的模型並建立公平性
盡管公平性的許多方面都沒有包含在量化公平性指標中,並且不可能從系統中完全消除偏見以保證公平性,但你仍然有責任盡可能多地檢測和緩解公平性問題。
當你使用機器學習模型時,通過確保模型的可解釋性以及評估和減輕不公平性來理解模型非常重要。
讓我們使用貸款選擇示例來作為分析案例,以確定每個因素對預測的影響程度。
## 評價方法
1. **識別危害(和好處)**。第一步是找出危害和好處。思考行動和決策如何影響潛在客戶和企業本身。
2. **確定受影響的群體**。一旦你了解了什麽樣的傷害或好處可能會發生,找出可能受到影響的群體。這些群體是按性別、種族或社會群體界定的嗎?
3. **定義公平性度量**。最後,定義一個度量標準,這樣你就可以在工作中衡量一些東西來改善這種情況。
### 識別危害(和好處)
與貸款相關的危害和好處是什麽?想想假陰性和假陽性的情況:
**假陰性**(拒絕,但 Y=1-在這種情況下,將拒絕有能力償還貸款的申請人。這是一個不利的事件,因為貸款的資源是從合格的申請人扣留。
**假陽性**(接受,但 Y=0-在這種情況下,申請人確實獲得了貸款,但最終違約。因此,申請人的案件將被送往一個債務催收機構,這可能會影響他們未來的貸款申請。
### 確定受影響的群體
下一步是確定哪些群體可能受到影響。例如,在信用卡申請的情況下,模型可能會確定女性應獲得比共享家庭資產的配偶低得多的信用額度。因此,由性別定義的整個人口統計數據都會受到影響。
### 定義公平性度量
你已經確定了傷害和受影響的群體,在本例中,是按性別劃分的。現在,使用量化因子來分解它們的度量。例如,使用下面的數據,你可以看到女性的假陽性率最大,男性的假陽性率最小,而對於假陰性則相反。
✅ 在以後關於聚類的課程中,你將看到如何在代碼中構建這個「混淆矩陣」
| | 假陽性率 | 假陰性率 | 數量 |
| ---------- | -------- | -------- | ----- |
| 女性 | 0.37 | 0.27 | 54032 |
| 男性 | 0.31 | 0.35 | 28620 |
| 未列出性別 | 0.33 | 0.31 | 1266 |
這個表格告訴我們幾件事。首先,我們註意到數據中的未列出性別的人相對較少。數據是有偏差的,所以你需要小心解釋這些數字。
在本例中,我們有 3 個組和 2 個度量。當我們考慮我們的系統如何影響貸款申請人的客戶群時,這可能就足夠了,但是當你想要定義更多的組時,你可能需要將其提取到更小的摘要集。為此,你可以添加更多的度量,例如每個假陰性和假陽性的最大差異或最小比率。
✅ 停下來想一想:還有哪些群體可能會受到貸款申請的影響?
## 減輕不公平
為了緩解不公平,探索模型生成各種緩解模型,並比較其在準確性和公平性之間的權衡,以選擇最公平的模型。
這個介紹性的課程並沒有深入探討算法不公平緩解的細節,比如後處理和減少方法,但是這裏有一個你可能想嘗試的工具。
### Fairlearn
[Fairlearn](https://fairlearn.github.io/) 是一個開源 Python 包,可讓你評估系統的公平性並減輕不公平性。
該工具可幫助你評估模型的預測如何影響不同的組,使你能夠通過使用公平性和性能指標來比較多個模型,並提供一組算法來減輕二元分類和回歸中的不公平性。
- 通過查看 Fairlearn 的 [GitHub](https://github.com/fairlearn/fairlearn/) 了解如何使用不同的組件
- 瀏覽[用戶指南](https://fairlearn.github.io/main/user_guide/index.html), [示例](https://fairlearn.github.io/main/auto_examples/index.html)
- 嘗試一些 [示例 Notebook](https://github.com/fairlearn/fairlearn/tree/master/notebooks).
- 了解Azure機器學習中機器學習模型[如何啟用公平性評估](https://docs.microsoft.com/azure/machine-learning/how-to-machine-learning-fairness-aml?WT.mc_id=academic-15963-cxa)。
- 看看這些[示例 Notebook](https://github.com/Azure/MachineLearningNotebooks/tree/master/contrib/fairness)了解 Azure 機器學習中的更多公平性評估場景。
---
## 🚀 挑戰
為了防止首先引入偏見,我們應該:
- 在系統工作人員中有不同的背景和觀點
- 獲取反映我們社會多樣性的數據集
- 開發更好的方法來檢測和糾正偏差
想想現實生活中的場景,在模型構建和使用中明顯存在不公平。我們還應該考慮什麽?
## [課後測驗](https://white-water-09ec41f0f.azurestaticapps.net/quiz/6/)
## 復習與自學
在本課中,你學習了機器學習中公平和不公平概念的一些基礎知識。
觀看本次研討會,深入探討以下主題:
- YouTube:人工智能系統中與公平相關的危害:示例、評估和緩解 Hanna Wallach 和 Miro Dudik[人工智能系統中與公平相關的危害:示例、評估和緩解-YouTube](https://www.youtube.com/watch?v=1RptHwfkx_k)
另外,請閱讀:
- 微軟RAI資源中心[負責人工智能資源-微軟人工智能](https://www.microsoft.com/ai/responsible-ai-resources?activetab=pivot1%3aprimaryr4)
- 微軟 FATE 研究小組:[FATEAI 中的公平、問責、透明和道德-微軟研究院](https://www.microsoft.com/research/theme/fate/)
探索 Fairlearn 工具箱
[Fairlearn](https://fairlearn.org/)
了解 Azure 機器學習的工具以確保公平性
- [Azure 機器學習](https://docs.microsoft.com/azure/machine-learning/concept-fairness-ml?WT.mc_id=academic-15963-cxa)
## 任務
[探索 Fairlearn](assignment.zh-tw.md)

Просмотреть файл

@ -0,0 +1,11 @@
# 探索 Fairlearn
## 說明
在這節課中,你了解了 Fairlearn一個「開源的社區驅動的項目旨在幫助數據科學家們提高人工智能系統的公平性」。在這項作業中探索 Fairlearn [筆記本](https://fairlearn.org/v0.6.2/auto_examples/index.html)中的一個例子,之後你可以用論文或者 ppt 的形式敘述你學習後的發現。
## 評判標準
| 標準 | 優秀 | 中規中矩 | 仍需努力 |
| -------- | --------- | -------- | ----------------- |
| | 提交了一篇論文或者ppt 關於討論 Fairlearn 系統、挑選運行的例子、和運行這個例子後所得出來的心得結論 | 提交了一篇沒有結論的論文 | 沒有提交論文 |

Просмотреть файл

@ -0,0 +1,111 @@
# 機器學習技術
構建、使用和維護機器學習模型及其使用的數據的過程與許多其他開發工作流程截然不同。 在本課中,我們將揭開該過程的神秘面紗,並概述你需要了解的主要技術。 你會:
- 在高層次上理解支持機器學習的過程。
- 探索基本概念,例如「模型」、「預測」和「訓練數據」。
## [課前測驗](https://white-water-09ec41f0f.azurestaticapps.net/quiz/7/)
## 介紹
在較高的層次上創建機器學習ML過程的工藝包括許多步驟
1. **決定問題**。 大多數機器學習過程都是從提出一個簡單的條件程序或基於規則的引擎無法回答的問題開始的。 這些問題通常圍繞基於數據集合的預測展開。
2. **收集和準備數據**。為了能夠回答你的問題,你需要數據。數據的質量(有時是數量)將決定你回答最初問題的能力。可視化數據是這個階段的一個重要方面。此階段還包括將數據拆分為訓練和測試組以構建模型。
3. **選擇一種訓練方法**。根據你的問題和數據的性質你需要選擇如何訓練模型以最好地反映你的數據並對其進行準確預測。這是你的ML過程的一部分需要特定的專業知識並且通常需要大量的實驗。
4. **訓練模型**。使用你的訓練數據,你將使用各種算法來訓練模型以識別數據中的模式。該模型可能會利用可以調整的內部權重來使數據的某些部分優於其他部分,從而構建更好的模型。
5. **評估模型**。你使用收集到的集合中從未見過的數據(你的測試數據)來查看模型的性能。
6. **參數調整**。根據模型的性能,你可以使用不同的參數或變量重做該過程,這些參數或變量控製用於訓練模型的算法的行為。
7. **預測**。使用新輸入來測試模型的準確性。
## 要問什麽問題
計算機特別擅長發現數據中的隱藏模式。此實用程序對於對給定領域有疑問的研究人員非常有幫助,這些問題無法通過創建基於條件的規則引擎來輕松回答。例如,給定一項精算任務,數據科學家可能能夠圍繞吸煙者與非吸煙者的死亡率構建手工規則。
然而當將許多其他變量納入等式時ML模型可能會更有效地根據過去的健康史預測未來的死亡率。一個更令人愉快的例子可能是根據包括緯度、經度、氣候變化、與海洋的接近程度、急流模式等在內的數據對給定位置的4月份進行天氣預報。
✅ 這個關於天氣模型的[幻燈片](https://www2.cisl.ucar.edu/sites/default/files/2021-10/0900%20June%2024%20Haupt_0.pdf)為在天氣分析中使用機器學習提供了一個歷史視角。
## 預構建任務
在開始構建模型之前,你需要完成多項任務。要測試你的問題並根據模型的預測形成假設,你需要識別和配置多個元素。
### Data
為了能夠確定地回答你的問題,你需要大量正確類型的數據。 此時你需要做兩件事:
- **收集數據**。記住之前關於數據分析公平性的課程,小心收集數據。請註意此數據的來源、它可能具有的任何固有偏見,並記錄其來源。
- **準備數據**。數據準備過程有幾個步驟。如果數據來自不同的來源,你可能需要整理數據並對其進行標準化。你可以通過各種方法提高數據的質量和數量,例如將字符串轉換為數字(就像我們在[聚類](../../../5-Clustering/1-Visualize/README.md)中所做的那樣)。你還可以根據原始數據生成新數據(正如我們在[分類](../../../4-Classification/1-Introduction/README.md)中所做的那樣)。你可以清理和編輯數據(就像我們在 [Web App](../../3-Web-App/README.md)課程之前所做的那樣)。最後,你可能還需要對其進行隨機化和打亂,具體取決於你的訓練技術。
✅ 在收集和處理你的數據後,花點時間看看它的形狀是否能讓你解決你的預期問題。正如我們在[聚類](../../../5-Clustering/1-Visualize/README.md)課程中發現的那樣,數據可能在你的給定任務中表現不佳!
### 功能和目標
功能是數據的可測量屬性。在許多數據集中,它表示為標題為"日期""大小"或"顏色"的列。您的功能變量(通常在代碼中表示為 `X`)表示用於訓練模型的輸入變量。
目標就是你試圖預測的事情。目標通常表示為代碼中的 `y`,代表您試圖詢問數據的問題的答案:在 12 月,什麽顏色的南瓜最便宜?在舊金山,哪些街區的房地產價格最好?有時目標也稱為標簽屬性。
### 選擇特征變量
🎓 **特征選擇和特征提取** 構建模型時如何知道選擇哪個變量?你可能會經歷一個特征選擇或特征提取的過程,以便為性能最好的模型選擇正確的變量。然而,它們不是一回事:「特征提取是從基於原始特征的函數中創建新特征,而特征選擇返回特征的一個子集。」([來源](https://wikipedia.org/wiki/Feature_selection)
### 可視化數據
數據科學家工具包的一個重要方面是能夠使用多個優秀的庫(例如 Seaborn 或 MatPlotLib將數據可視化。直觀地表示你的數據可能會讓你發現可以利用的隱藏關聯。 你的可視化還可以幫助你發現偏見或不平衡的數據(正如我們在 [分類](../../../4-Classification/2-Classifiers-1/README.md)中發現的那樣)。
### 拆分數據集
在訓練之前,你需要將數據集拆分為兩個或多個大小不等但仍能很好地代表數據的部分。
- **訓練**。這部分數據集適合你的模型進行訓練。這個集合構成了原始數據集的大部分。
- **測試**。測試數據集是一組獨立的數據,通常從原始數據中收集,用於確認構建模型的性能。
- **驗證**。驗證集是一個較小的獨立示例組,用於調整模型的超參數或架構,以改進模型。根據你的數據大小和你提出的問題,你可能不需要構建第三組(正如我們在[時間序列預測](../../../7-TimeSeries/1-Introduction/README.md)中所述)。
## 建立模型
使用你的訓練數據,你的目標是構建模型或數據的統計表示,並使用各種算法對其進行**訓練**。訓練模型將其暴露給數據,並允許它對其發現、驗證和接受或拒絕的感知模式做出假設。
### 決定一種訓練方法
根據你的問題和數據的性質,你將選擇一種方法來訓練它。逐步完成 [Scikit-learn的文檔](https://scikit-learn.org/stable/user_guide.html) - 我們在本課程中使用 - 你可以探索多種訓練模型的方法。 根據你的經驗,你可能需要嘗試多種不同的方法來構建最佳模型。你可能會經歷一個過程,在該過程中,數據科學家通過提供未見過的數據來評估模型的性能,檢查準確性、偏差和其他降低質量的問題,並為手頭的任務選擇最合適的訓練方法。
### 訓練模型
有了您的培訓數據,您就可以"適應"它來創建模型。您會註意到,在許多 ML 庫中,您會發現代碼"model.fit"-此時,您將功能變量作為一系列值(通常是`X`)和目標變量(通常是`y`)發送。
### 評估模型
訓練過程完成後(訓練大型模型可能需要多次叠代或「時期」),你將能夠通過使用測試數據來衡量模型的性能來評估模型的質量。此數據是模型先前未分析的原始數據的子集。 你可以打印出有關模型質量的指標表。
🎓 **模型擬合**
在機器學習的背景下,模型擬合是指模型在嘗試分析不熟悉的數據時其底層功能的準確性。
🎓 **欠擬合**和**過擬合**是降低模型質量的常見問題,因為模型擬合得不夠好或太好。這會導致模型做出與其訓練數據過於緊密對齊或過於松散對齊的預測。 過擬合模型對訓練數據的預測太好,因為它已經很好地了解了數據的細節和噪聲。欠擬合模型並不準確,因為它既不能準確分析其訓練數據,也不能準確分析尚未「看到」的數據。
![過擬合模型 ](../images/overfitting.png)
> 作者 [Jen Looper](https://twitter.com/jenlooper)
## 參數調優
初始訓練完成後,觀察模型的質量並考慮通過調整其「超參數」來改進它。[在此文檔中](https://docs.microsoft.com/en-us/azure/machine-learning/how-to-tune-hyperparameters?WT.mc_id=academic-15963-cxa)閱讀有關該過程的更多信息。
## 預測
這是你可以使用全新數據來測試模型準確性的時刻。在「應用」ML設置中你正在構建Web資源以在生產中使用模型此過程可能涉及收集用戶輸入例如按下按鈕以設置變量並將其發送到模型進行推理或者評估。
在這些課程中你將了解如何使用這些步驟來準備、構建、測試、評估和預測—所有這些都是數據科學家的姿態而且隨著你在成為一名「全棧」ML工程師的旅程中取得進展你將了解更多。
---
## 🚀挑戰
畫一個流程圖反映ML的步驟。在這個過程中你認為自己現在在哪裏你預測你在哪裏會遇到困難什麽對你來說很容易
## [閱讀後測驗](https://white-water-09ec41f0f.azurestaticapps.net/quiz/8/)
## 復習與自學
在線搜索對討論日常工作的數據科學家的采訪。 這是[其中之一](https://www.youtube.com/watch?v=Z3IjgbbCEfs)。
## 任務
[采訪一名數據科學家](assignment.zh-tw.md)

Просмотреть файл

@ -0,0 +1,11 @@
# 采訪一位數據科學家
## 說明
在你的公司、你所在的社群、或者在你的朋友和同學中找到一位從事數據科學專業工作的人與他或她交流一下。寫一篇關於他們工作日常的小短文500字左右。他們是專家還是說他們是「全棧」開發者
## 評判標準
| 標準 | 優秀 | 中規中矩 | 仍需努力 |
| -------- | ------------------------------------------------------------------------------------ | ------------------------------------------------------------------ | --------------------- |
| | 提交一篇清晰描述了職業屬性且字數符合規範的word文檔 | 提交的文檔職業屬性描述得不清晰或者字數不合規範 | 啥都沒有交 |

Просмотреть файл

@ -0,0 +1,22 @@
# 機器學習入門
課程的本章節將為您介紹機器學習領域背後的基本概念、什麽是機器學習,並學習它的歷史以及曾為此做出貢獻的技術研究者們。讓我們一起開始探索機器學習的全新世界吧!
![globe](../images/globe.jpg)
> 圖片由 <a href="https://unsplash.com/@bill_oxford?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Bill Oxford</a>提供,來自 <a href="https://unsplash.com/s/photos/globe?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
### 課程安排
1. [機器學習簡介](../1-intro-to-ML/translations/README.zh-tw.md)
1. [機器學習的歷史](../2-history-of-ML/translations/README.zh-tw.md)
1. [機器學習中的公平性](../3-fairness/translations/README.zh-tw.md)
1. [機器學習技術](../4-techniques-of-ML/translations/README.zh-tw.md)
### 致謝
"機器學習簡介"由 [Muhammad Sakib Khan Inan](https://twitter.com/Sakibinan), [Ornella Altunyan](https://twitter.com/ornelladotcom) 及 [Jen Looper](https://twitter.com/jenlooper),共同傾 ♥️ 而作
"機器學習及人工智能歷史" 由 [Jen Looper](https://twitter.com/jenlooper) 及 [Amy Boyd](https://twitter.com/AmyKateNicho)傾 ♥️ 而作
"公平性與機器學習" 由 [Tomomi Imura](https://twitter.com/girliemac) 傾 ♥️ 而作
"機器學習的技術" 由 [Jen Looper](https://twitter.com/jenlooper) 及 [Chris Noring](https://twitter.com/softchris) 傾 ♥️ 而作