在隔壁侃了一通人人平等和社會主義的理念,接著談大數據。
最近遇到幾個有來頭的企業,中國的美國的都有,談到大數據的話題。說如果往后看五年到十年,什么項目值得去做。
我說,如果有膽識有資源有平臺,與其花那么多錢東一榔頭西一棒頭的遍地開花,上那么多項目,摸石頭過河,把個大企業個個都整得像風投和暴發戶一樣,不如重拳出擊做幾個大項目。
問:什么項目?
答:知識圖譜啊。
不能因為知識圖譜臭大街了,被人談得耳朵起繭子了,就忽略了其大項目的本質。你不是大企業嗎,你不是隨著科技東風一路躍上來了嗎,你有錢,有人才,有資源,但有點迷失,拿不準為今后10年20年的長治久安,應該做什么技術準備。風險太大的咱不說了,太性感時髦的如 VR 咱也不論了,你做知識圖譜,保你有后勁,征服世界也不無可能。
怎么講?
因為技術已經成熟,這是個靠譜的事兒,現在需要的就是錢和資源,需要的是特大的平臺,幾乎無限的存貯,n個 farms 的 servers,還有 NLU or deep parsing (自然語言理解、深度分析)。
我說,信息時代到來以后,大數據來得比我們想象的快,結果是不僅普羅百姓迷失在信息海洋里,就是我們IT業內人士也常在大數據中掙扎沉浮,不時嗆水。
于是第一場革命來臨:搜索引擎。有了搜索,我們至少不至于完全沉沒在數據海洋中,我們有一個簡陋的關鍵詞工具可以勉強對付大數據的驚濤駭浪。至少我可以通過一個線索去檢索信息。但無論你怎么搜索,你永遠是在信息海洋中一個點一個點地出擊。這很像我們在無邊黑夜的荒郊野外,手握一把小手電筒。世界一片茫然,每一束光只會劃過世界的一角。這也好比盲人摸象,看到的永遠是大象的一個側面,或者是耳朵,或者是大腿。整個大象依然隱藏在語言的森林深處,不見天日。
知識圖譜不同。知識圖譜是把信息組織起來,構成一個天羅地網,然后你可以置身其內。你不是面對信息,而是被信息環繞。這就是知識圖譜可以引發的第二個革命。
記得20年前第一次在溫哥華看360度環繞立體電影,那個震撼!那個電影片段描述的是一個世紀前的某個歐洲城市廣場的場景。Wow 突然間,我置身于一個比VR還虛擬的現實之中,身邊有老式馬車、金發女郎、紳士、騎士穿梭,真是穿越歷史,如臨其境啊。
知識圖譜就是準備了這樣的一個信息網絡,它可以把分散的信息抽取挖掘成網360度地呈現給你,環繞著你。你目光指向哪里,信息就聚焦在哪里。這種聚焦絲毫不影響背景信息的 accessibility,因為一切都在一網之中。只要你的聚焦點轉移,環繞著的信息就會動態旋轉,原來的焦點成為背景,新的焦點成為關注對象。信息隨著用戶旋轉、環繞,這是何等的景像。關鍵是,它又是如此的可行。
人生其實蠻可憐,滿打滿算活到90吧,古人就更慘,活不過70。前信息時代,無論是讀書,還是尋訪高人,都是非常費力的事兒。運氣好的話,在你人生的某一天,你撞大運了,發現了你苦苦追求的信息線索,大部分人一輩子都等不到那一刻,所以才有,朝聞道夕死可矣的感嘆。
現如今,信息不愁了,但魚龍混雜,更可怕的是數據之大,可以淹死牛。作為信息消費者,比起古人,我們一輩子可以接觸的信息是上了好幾個臺階了,原來要占一書架的百科全書變得點擊可及,wiki 召之即來。但是我們都知道這種對信息、知識和情報的接觸遠沒達到最優化。我們浪費時間在我們不需要的信息上,我們有限的生命只有一個不大的部分是與自己最喜歡、最愜意、最有啟迪和收獲的信息發生交互。這一切的主因之一就是信息雖然隨處可見,泛濫成災,但終究是一盤散沙。關鍵詞索引不過是把這些沙粒登記在冊而已。
就說文本信息,各種書籍、筆記、社會媒體都在那里,但仍然是原生態,以字符串的形式在語言叢林自生自滅,沒有結構化,沒有語義表達,更談不上關聯和整合。關鍵詞檢索可以臨時把這些信息的一個小的子集串起來,但無法改變整個信息的散沙性質。
什么是知識圖譜?知識圖譜就是事先把一盤散沙的信息早早串起來成為相互關聯的聯絡圖。成為圖譜的過程理所當然地包含了語義化的過程,也包含了語義的濃縮和融合(fusion)。這就徹底改變了信息的形態和存在方式。如果我們把一盤散沙的互聯網或公共信息的一個精選的子集結構化圖譜化了,那是怎樣一個功德無量的基礎設施建設。
建成了,根本不愁沒有靈光的產品老總能找到利用這種資源的方式,開發出種種知識產品。有了米,怎么會做不成飯呢?知識圖譜的本質就是連接,實體、關系、事件、情感,方方面面都連接成網了,backend 全連上了,還愁 frontend不能展示、不能服務么?
信息環繞人、與人互動,這不是科學幻想,而是不會太久遠的現實,就看誰捷足先登了。這種事兒小公司沒法做(他們可以做的只能是領域化的或者嚴格限定目標的知識圖譜),不懂大局沒有遠景的人也看不見,不了解技術現狀的則會害怕銀子砸進去,寶貝出不來。但其實是一個低風險有保障的戰略投資,宏觀上的路徑清晰可見,就看眼光了。為什么有底氣說這個話呢?因為我們是知識圖譜的先行者,前后已經做了18年了,方方面面都滾爬過,了解這里面的深淺。
地理空間數據分析在生物多樣性、移動通訊、網絡監控、環境監測等領域應用廣泛,如生物地理分析、即時通訊場景的位置共享、手機定位、衛星定位等。因此,大規模地理數據的快速呈現具有重要的理論意義和實際應用價值。......
日前,由上海市發展和改革委員會、上海推進科技創新中心建設辦公室指導,上海市經濟信息中心主辦的上信智庫全球科創指數暨大數據聯合實驗室發布活動在上海舉行。在活動上,上海經濟信息中心數據2.0平臺(以下簡稱......
近日,安徽省政府召開質量強省建設協調推進領導小組會議,聽取安徽省質量強省建設協調推進領導小組增補成員單位和職責調整、今年以來質量強省建設推進情況、省政府對市級政府質量工作專項考核結果、“安徽省質量強縣......
國家安全部官微發文,近年來,全球范圍內網絡失泄密情況日益增多,侵害個人隱私、商業秘密、國家秘密的網絡監聽、攻擊、竊密活動愈演愈烈。一部智能手機、一個應用程序、一個社交媒體賬號,都存在引發失泄密的可能性......
眼下,“元宇宙”成為熱詞,相關企業爭相布局。近日,工業和信息化部等五部門印發《元宇宙產業創新發展三年行動計劃(2023-2025年)》(以下簡稱“《行動計劃》”),提出通過構建先進元宇宙技術和產業體系......
9月20日從可持續發展大數據國際研究中心獲悉,我國在全球發展倡議合作成果展示高級別會議上發布的《地球大數據支撐可持續發展目標報告(2023)》顯示,參照聯合國可持續發展目標,截至2022年,我國過半環......
為響應政府建設數字經濟,聚焦人工智能領域,推動產業創新發展的號召,近日,由上海數據交易所、上海市數商協會舉辦,上海合合信息科技股份有限公司(以下簡稱“合合信息”)承辦的“數商沙龍-走進合合信息”在上海......
工信部、國家金融監督管理總局近日聯合印發《關于促進網絡安全保險規范健康發展的意見》,在建立健全網絡安全保險政策標準體系、加強網絡安全保險產品服務創新、強化網絡安全技術賦能保險發展、促進網絡安全產業需求......
工信部、國家金融監督管理總局近日聯合印發《關于促進網絡安全保險規范健康發展的意見》,在建立健全網絡安全保險政策標準體系、加強網絡安全保險產品服務創新、強化網絡安全技術賦能保險發展、促進網絡安全產業需求......
2023中國國際大數據產業博覽會于5月26日至28日在貴州省貴陽市舉行。會上發布的數據顯示,2022年大數據產業規模達1.57萬億元,同比增長18%。“東數西算”帶動新產業,大數據與實體經濟加速融合,......